雷锋网AI金融评论报道,在近日世界人工智能大会智能金融主题论坛上,加州大学伯克利分校迈克尔·欧文·乔丹(Michael I. Jordan)教授进行了精彩的分享。甫一开始,他就笑谈称,金融论坛让他更加舒服和自如。“这两天参加的AI论坛,让我不是那么自在,感觉他们是在讲科幻小说,金融领域更加实际。”
在他看来,AI就是统计学,并不是要创造一个“人造人”。智能也存在局限,当前计算机科学和现在的经济学当中出现了一个空白,需要研究如何连接他们,并从市场这一自然衍生的智慧体中获取知识。另外,很多经常只是一个单一的决策,或者是一个线性系列的决策,但是实际生活更多是多重决策,还要考虑一个负载均衡的问题。
据了解,Michael I. Jordan是加州大学伯克利分校电机工程与计算机系和统计学系教授、美国科学工程艺科三院院士,一众学生如吴恩达,Zoubin Ghahramani, Tommi Jaakkola, Lawrence Saul 和 David Blei 目前都是机器学习领域重要的研究者。同时,也是蚂蚁金服科学智囊团的主席。
以下是演讲原文,经过雷锋网编辑:
AI就是统计学
我觉得AI提到很多,但我们更重要的不是AI,而是服务、数据和统计,还是旧世界的东西,只是现在焕发了新潜力。支付、搜索、服务这些词听上去非常无聊,但是背后是广阔的领域。人们不仅仅是想要支付,是希望能够理解互动,是场景,我们才能够真正赋予这些场景新的意义。
很多人在讲AI,我觉得AI就是统计学。中国有很多优势,一个是在数学方面和统计学方面做的非常好,AI方面不仅仅是计算机科学,更多是数学、统计学、经济学。我们一直看到当我们讲到AI的时候,大部分讲的是范式认可,你找到一个数据,把一个范式放上去,获得一个产出。另外一边更有意思的就是决策端,我所做的一个决定是,我现在看到的是不是一个熊,是一个坏人。有时候是一系列决定,比如说AlphaGo下围棋,或者是几万个涉及到不同人、产品互联的决定,这里面的错误比例是多少,如何降低这些错误。当这些决定涉及到人们的欲望,我们不能给每个人同样的建议,因为同一样东西是有限的,所以这些问题是AI科学家没有想到,他们是计算机科学家。经济问题当中其实稀缺性非常关键,这就是今天我要讲的AI决策层面,这块可能还没得到过多的关注。
很多人说AI是没有历史的,但不是。早在1990年代的时候,其实AI就已经在后端存在。比如说降低欺诈率,这非常重要,亚马逊没有这一点就没有办法生存下去。如果没有供应链管理和搜索,就没有亚马逊,没有阿里巴巴。建立平台非常重要,这当中必须要有计算机科学来建平台,有了这些平台之后我们要做AB测试,做供应链管理。同时可以用于其他的领域,基于这些平台,就有了所谓的推荐系统。
推荐系统的AI应用
推荐系统是第一个AI或者说第一个统计学大规模给自然人提供服务的系统,而不是在后端服务。这块是非常重要的第二代AI,把人带入到这样一个计算机科学的领域。我们现在所在的时代并不一定是深度学习或者是神经网络,或者人机联合。但是我们现在应该要用AI做一些比较复杂的东西,比如语言识别等,又或者把它作为一个商品,放到一个大系统当中,或者是一个视觉。很多公司包括AI系统,他们都是提供一种商品化的像人一样的或者类似于人的技能,但是没有办法替代人,AI无法理解,只能模仿某一项具体的技能。我觉得并没有像人们说的这么有变革性。真正出现变革的并不是仿造人的智能,而是要创造市场。通过算法和数据实现市场的智能。在90年代,当时最大的行业应用统计学和AI的用途主要在诈骗、入侵检测等,基于数据的质量和数据的数字增长。
人们常说数据、算法、平台或硬件是三个要素,但是我觉得都不对。首先算法没有那么复杂,其实搜索非常简单,而且档案都可以找到。大部分学生都知道你在档案当中就可以找到世界上所有的知识。公司可以知道的东西都是可以在存档档案当中的。算法没有那么神奇。
第二,平台,也许五年之前是,但现在不是。每个人都可以上云,任何的问题可以获得足够的算力。真的是数据吗?不一定,比如说现在已经到T级的数据,但是当你做具体决定时,数据并不一定需要那么多。不管是监测欺诈,还是其他科学研究。其实更重要的是收集相关数据,而不是收集足够多的数据。
AI从业者需要培训。我之前也说过,虽然都是数据推理,但是每个国家有各个不同的问题,所以没有一个国家会占主导,每一个国家要解决自己的问题,应该有自己的AI能力。
另外,现在公司也有很多数据,像谷歌、脸书、百度等,但是他们的数据使用不好,他们没有给人们提供更好的服务,他们提供的是广告。大部分的广告对我来讲是没有意义的,所以钱就是在公司和广告商之间用来用去,而我们的用户没有拿到钱。我们提供了所有的数据,但是我们一分钱都没有拿到,我觉得这个市场是破碎的,没有很好地连接起来。
而其中,数据利用比较好的是电商和支付公司,因为他们有很多交易的数据,比如说我上一个电商买东西,他们就知道我的偏好,比搜索引擎更加了解,因为很多时候,我们会搜索一些很无聊的问题,比如说英国的女王是谁。而这个问题根本不会显示我的偏好。
我们如何来利用这样一些人的偏好数据呢?它的关键是能不能将客户和商户联系在一起。很多AI都在做平台,比如说是搜索引擎、社交网络等等。但是真的不够智能。搜索引擎确实改变了世界,但是它没有变得更聪明。不同的是电商公司,他们与现实生活发生联系,你购物后包裹送至你家门口,这是消费者和商户、生产者之间的关系,这是有市场价值的,而且对我也是有价值的,因为可以基于这种交易创造一个市场。
另外,还有一点用户留存,很多公司面临这样的问题,实际上他们的用户都在流失。五年以前,美国人很喜欢脸书,但是下一代会觉得脸书一点不酷。我觉得脸书会消亡,虽然现在可能还比较大,通过做广告赚了很多钱,还在进行大笔收购。但是我觉得这个公司已经没有创新,已经支离破碎了。用户是喜新厌旧的,如何提高黏性呢?我觉得黏性非常重要的是,把平台上的客户和商家都能够联系起来。一些传统手段比如是会员卡、积分等。IT平台也要想怎么样通过一种方式把客户和商家进行连接。
连接计算机科学与经济学
我想接着讲一下智能。什么是智能?其实我们也不知道,我们是摸索出来的。但其实它就是一些算法,去模拟人类智能,自己本身并不是智能的。所以越来越多我们发现看不懂这个词了,特别的复杂,每一个神经元都是很复杂的,我们不知道怎么才叫真正的智能。可能350年以后会知道,但绝对不是现在。
而智能也是有它的局限。别的方面或许可以给我们启发。举个例子,每天上海的每一家餐厅都有足够的食材去给它的客户烧菜。这些食材哪里来的?就是上海市以外的郊区,那些农民,他们用了非常复杂的运输系统,用卡车来运输。如果站在更高角度来看这个问题,其实市场是最聪明的发明。而且并不是来自于现在的人工智能,都是出自于人类的大脑,这是一种自然智慧。而现在的计算机科学里面并没有特别多的强调,而是一味地说要创造新的智能。
我们可以看到在计算机科学和现在的经济学当中出现了一个空白,没有联系起来,这实际上是非常重要的。我们要把市场和计算机科学联系起来,也就是计量经济学。用数据来创造市场,是真正比较好玩的。
还要注意的是,信息的传递除了采用经济的方式外,为了让人们有更多的幸福感,还需要考虑公平性,也就是个性化需求。因为有很多人说我不希望有跟别人一模一样的领带,我希望有自己的领带,个人的效应如何表达体现,这是我们所谓的新时代的公平性。
举个例子。在一个没有连接的市场中,我们怎么样用技术来打造一个艺术市场。现在艺术、音乐市场非常蓬勃,一些人有天赋有路径,而很多人只是兴趣爱好。美国就有个音乐原创平台,主要通过广告费来赚钱,而且钱给不到原创艺人。这种广告费打造平台的模式,非常无聊。无论是消费者或者是原创音乐的艺人,都是没有产生足够多的价值。换而言之,也损失了大量潜在的就业机会。那么如何增加人们的幸福感,创造更多的就业?
如果我们要打造一个市场,要有这些信息:首先你可以给音乐人一个信息,让他可以看到全部消费者的数据,比如说他可以知道上个礼拜在成都有一千个人或者一万人听了我的歌,或者他们还跟朋友谈论到我的歌。有了这些信息之后,他可以赶紧去成都开一场小型演唱会,他知道哪里有需求,他就可以到那里举办小型演唱会,多赚一些钱,越做越大。或者说,可以拍卖婚礼等庆典的商业演出,这又是一个新的市场。
这样很多人可以找到新的工作。只需要通过平台打造一个市场,连接用户和原创艺人,就可以让艺人赚钱了。美国已经有这方面的例子了,网站unitedmasters使用了一些机器学习的技术,我也是这家公司的董事会成员,我比较看好这个模式,我相信它在未来会让人们更加幸福。
这就是基于数据流来创造市场。长久以来关于AI,大家经常有一个误解,觉得它会扼杀就业,但实际上它会创造更多的就业。现在有很多的就业岗位是缺失的。打造市场,可以创造更多的就业岗位。AI就是可以做得到的,我们不能是仅靠个别的平台,还是要靠大的统计数字。
多重决策——负载均衡
一些案例经常只是一个单一的决策,或者是一个线性系列的决策,但是实际生活更多是多重决策,我们要考虑一个负载均衡(Load Balancing)的问题。
比如说前面讲到的推荐系统,传统的推荐系统假设是没有稀缺性的,如果大家上亚马逊,它可能会推荐一部电影,另外一个消费者上了亚马逊,也推荐了一部电影,所以这个推荐没有稀缺性,它可以给所有人都推荐这部电影,这没有什么问题。但是如果向所有人推荐一本书呢?行,只要这本书还有货,虽然稍微有一些压力,但是还好。但向每个人都推荐同一家餐厅呢?那晚上可能就是大排长龙,客户都不会高兴。
更糟糕的情况是,在向每个人推荐一样的股票。如果所有人都买一只股,股价会被人为抬高,这不是真正的市场行为。在实际的小范围内,我们看到确实有一些人在做这样的事情,但面积一旦放大,肯定不能这样做。
比如刚才的餐厅推荐,我们不能给很多人都推荐同一家餐厅。餐厅的容量有限,所以这方面还涉及到多重决策,实现负载均衡,其中其实也蕴藏着很大的商机。举个例子,在现在交通领域,Uber、滴滴他们都有分司机端和客户端,他们会通过这样一个平台来平衡供应和需求,这就是这样一个市场。
稀缺性是经济学的问题,负载均衡是统计学的问题,在不确定性的情况下,我们怎么样做决策。有的时候我们会随机分配,把这个人分在这个条件里,那个人分在那个条件里面。就像在这里我们看到有一个案例,说有一个痘痘糖能让你长痘,我们看是不是存在这样的因果关系。他们就会做这个实验了,给一组人吃痘痘糖,还有一组人不吃,过6个月看他们的情况。发现并没有太多的关联。但实际上我们的实验还得做下去,要去验证各种各样的假设。不一定是所有的痘痘糖都会引发痘痘,可能是红色的或者是某一种颜色的痘痘才能够让人长痘痘。可能你随机选的这些人,他们皮肤已经不好,已经生痘痘了,但是纯粹是巧合。这样会误导你得到错误的结论——绿色的痘痘糖是能让人发痘痘的。
统计学当中也有漏洞和缺陷,也有很多人在致力于这个问题。我想稍微介绍一下从统计学家的角度我们怎么做决策的。在任何决策的背后都是会有假设,分为零假设及非零假设。
比如说你做一万次不同的独立AB测试,在某一天做AB测试,大部分的假设是零假设,就像有一个互联网公司要设计一个网站,网站的字体、颜色、大小想换一换。他说我做了一万个AB测试当中,9900个是没有什么意义的,剩下一百个比较重要,要重点看。刚才说的概率就是错误发现的占比,在这些假设的验证当中,我有495次是错误发现,有80次是真的发现,所以功效是0.8,这还是比较高的。也就是说我做了0.8次真实的发现。如果我算刚才的错误发现占比,是575次里面有495次错误的发现,实际上这个比例就是会比较高。就像我在做了575次决策当中,但是实际上495次决策是不好的决策,是做错了,这样老板肯定会炒你的鱿鱼。
我们可以在一个实际序列当中这样做,我可以在任何时间点停下来,我会问你到现在为止你的错误发现率是多少。比如说今天下午的时候再问你一次,或者明天再问你一次,或者一年之后问你一次,或者整个事情结束之后我问你错误发现率,我希望是非常小的。这是和任务具体型是不一样的,我看一个批次的东西,在整个非常长的时间先当中,或者说在公司当中每一个人的错误发现率,我希望是非常小的。怎么做到这点呢?
这里的关键错误发现率是一个比例,有两种方法,一个是分母比较大,一个是分子比较小。如果我没有做很多实验,导致分母比较小,这就不好。我应该进入一个非常小的区域,就是说我们就进入一个新的领域,让我的错误率变的比较低,这是数学。我们今年发了一篇论文,我们可以让任何的在整个时间线当中,如果说是相互联系的P值,但是在任何相互联系的P值下面,我不停做这些测试,每一个测试关注不同的特征,这样做的话在任何时间点让整体错误率比较低。
结语
最后总结一下,首先我们要做的不是一个跟人一样的“人造人”。我们已经有足够的人,而且人类的大脑也有很多力所不能及的地方,比如大规模计算等。自动化也不该是AI的主要目标,而是能使其相互配合工作或者人机耦合。
当前阶段的AI不是一些疯狂科幻小说,而是新的工程学,像四十年代的工程学一样。做好它非常困难,可能是需要几十年的时间,不是任何一个国家单独可以完成,必须要让世界各国不同人集合起来,共同合作。
另外我们是希望能够让每一个人在整个所有努力当中生活的更好,我是非常乐观的,但是这些乐观是要从工程学的角度看待这样一个学科,比如统计学工程。
更多资讯,请关注雷锋网(公众号:雷锋网)AI金融评论
。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/84908.html