雷锋网 AI科技评论按,北京时间10月19日凌晨,DeepMind在Nature上发布论文《Mastering the game of Go without human knowledge》(不使用人类知识掌握围棋),在这篇论文中,DeepMind展示了他们更强大的新版本围棋程序“AlphaGo Zero”,掀起了人们对AI的大讨论。而在10月28日,Geoffrey Hinton发表最新的胶囊论文,彻底推翻了他三十年来所坚持的算法,又一次掀起学界大讨论。
究竟什么是人工智能?深度学习的发展历程如何?日前,雷锋网 AI科技评论邀请到UC Berkeley机器人与工程实验室讲座教授王强博士,他为大家深入浅出讲解了何为人工智能,深度学习的发展历程,如何从机器感知向机器认知演进,并解析了AlphaGo与AlphaGo Zero的原理、学习过程、区别等。
嘉宾简介:王强博士,本科毕业于西安交通大学计算机科学与技术专业,后获得卡内基梅隆大学软件工程专业硕士学位、机器人博士学位。美国货币监理署(OCC)审计专家库成员、IBM商业价值研究院院士及纽约Thomas J. Watson研究院主任研究员。IEEE高级会员,并担任了2008、2009、2013及未来2018年CVPR的论文评委,同时是PAMI和TIP两个全球顶级期刊的编委。王强博士在国际顶级期刊发表了90多篇论文,并多次在ICCV,CVPR等大会做论文分享。其主要研究领域图像理解、机器学习、智能交易、金融反欺诈及风险预测等。
以下为他的分享内容,本文为上篇,包括Hinton引导下的机器学习的发展过程,机器感知和机器认知、深度学习在AI上的应用、深度学习在未来的应用。下篇请参见UC Berkeley 机器人与工程实验室讲座教授王强:Deep Learning 及 AlphaGo Zero(下),主要内容为对AlphaGo和AlphaGo Zero的详细解释说明。
大家好,今天有幸到雷锋网(公众号:雷锋网) AI研习社给大家分享关于 AlphaGo Zero 和 Deep Learning 的一些内容,这些内容其实比较科普,希望大家能够喜欢。
我在考虑这个问题之前,一直在纠结到底是说一些技术性的东西,还是科普性的东西。现在AI和deep learning这么火,我们怎么认识它的整个过程呢。这里我分了几部分内容,第一部分是我对深度学习的整体介绍,第二部分是关于深度学习的一些应用和未来的一些前瞻性分享。
可能时间会长一点,这次的分享要求大家具备一定的机器学习或深度学习基本知识,这样估计才能明白今天我所讲的一些内容。自我介绍我就不多去说了,我现在在一些大学做讲座和客座教授,也有带学生,同时也在金融行业做了很多工程上的应用。
Hinton引导下的机器学习发展过程
开始咱们的第一部分,在这之前我第一个问题想谈谈AI到底是什么。Geoffrey Hinton最近提出了胶囊计划,同时在10月19号DeepMind团队又发布了AlphaGo Zero,发布之后引起了大家思考,我们该怎么去考虑什么是 AI。
在这之前,我们先来说说Hinton的胶囊计划,大家都知道Hinton是深度学习之父,也是神经网络先驱,他对深度学习和神经网络的诸多核心算法和结构,包括对深度学习这个名称本身提供了很多贡献,而且是非常巨大的贡献。
-
首先,他提出了BP反向传播算法,能够系统解决一些多层的神经网络隐含层连接权的学习问题,并在数学中给出了完全的推导。大家也知道,BP算法一直带领着机器学习,特别是神经网络的发展,用BP算法来计算导数的时候,随着网络深度的增加,传播的梯度的幅度会急剧的减小,结果就造成了整体loss function的最初几层的权重的倒数变得也非常小。
大家可能对这方面有所了解。当我们在BP算法中使用梯度下降法时,最初几层权重的变化非常缓慢,以至于我们不能从一些比较有用的样本里进行有效学习,其他比较臭名昭著的就是梯度弥散问题。如果当神经网络的最后几层有足够数量神经元,可能单独这几层足以对有效的标签进行建模,那么我们最终建模的时候是在后面最深度的这部分,那么对所有层随机初始化的方法的训练,不管是第一层还是第n层,训练得到的整个网络的性能和训练得到的浅层网络的性能是比较相似的,但是梯度弥散影响了BP的发展。
-
这时候Hinton又出现了,他做了一件事,他提出了一个设想,就是RBM,大家对RBM可能非常了解,我在这里不会做太多说明。我只说它一些基本的原理,RBM是两层的结构,一个是显式结构,一个是隐藏结构,它是一个对称链接、无自反馈的随机神经网络,其实它也是一种特殊的马尔可夫随机场网络。在这里头,他会面临一些问题,RBM里网络和网络之间隐单元和可见单元是不连接的,但是两个隐单元和两个可见单元之间是连接的,而且每个可见层的节点和隐藏层的节点处于激活状态的值是1,未激活状态的值是0。那么0和1的节点表明一个什么问题呢,代表整个模型选取哪些节点来使用。当节点值为1的时候是可以被使用的,处于0的时候是不被使用的。节点的激活概率是由可见层和隐藏层节点的分布函数来进行计算的。
在这里会有一个问题,RBM的参数一共用了三个,第一个就是W,W为可见单元和隐藏单元之间边的权重。B和A是可见层和隐藏层的偏置,有了这个偏置之后,给它赋值能量,就可以得到联合概率。
在这个问题中,只要看到梯度下降时的最大化L(θ)的内容,然后对W进行求导,求导时只需要V和H。但是如果涉及到所有可见层和隐藏层的组合,此时计算量非常大。那么在面对这些问题的时候,大家会不会认为RBM在机器学习里是不可用的呢?
-
这时候Hinton又做了一个算法,这个算法是非常著名的CD算法,当K等于1的时候,所有内容的计算量大幅减少,那么CDK到底是怎么形成的,这时神经网络已经发展到第三个优化的过程,第一步是NN,第二步是ANN,到了第三步有了BP,到了第四步有了RBM,到第五步有了CD。有了CD的好处在哪里呢?可以通过显层得到隐藏层状态,然后再用隐藏层经重构可见的向量的显示层。在这里我不会对CD做比较详尽的解释,大家之后可以去看看整个过程。接下来,到了第六步的时候,Hinton又提出了一个叫深度置信网络,就是我们经常看到的DBN,在这里比较有意思的是建立了观察数据和标签之间的联合分布。
前面这些内容PPT里都没有,大家听听就可以了。我只是想告诉大家机器学习的发展过程是什么样的,在RBM之后还有关键的一个就是我们所说的ReLU激活单元。Hinton之后又提出防止过拟合的Dropout功能,Dropout指的是在深度学习网络训练过程中,按照一定概率把没用的东西从网络中丢弃掉。
其实大家都知道,在深度学习里最大的问题是费时,第二个问题是容易过拟合,深度学习在早期的突破对这些内容也产生了很大的影响,这时候Hinton提出了capsule计划,这个计划其实更多的是来挑战计算机视觉的一些问题。
大家知道计算机视觉,包括图像理解和图像处理的时候,一般会用到CNN网络,那么CNN网络里最关键的一块在哪里?最关键就是能够保证网络在变化的过程中识别效率是很高的。其实Hinton提出来一个问题,在capsule计划中,虽然位置发生了变化,但内容没有变化,他其实提出了坐标的观念,建立物体的坐标。面对一个物体,用不同的坐标点表示出来,那么物体在变化的时候,只是位置和速率的变化。在这里capsule虽然没有经过太多的验证,但给我们做图像理解时提供了非常好的方式。
说到这么多,大家会想到一个最大的问题,既然capsule这么好,那么有多少人会去用呢?其实大家都知道BP是一个反向的思维过程,人的思维过程是正向的,其实这次是Hinton对他30年所坚持的算法的颠覆。在这里我会简单介绍capsule计划的一部分,更细致的内容大家可以去看看Hinton最新发表的论文。在这里提醒一下大家,在看那篇论文的时候,需要考虑同变性和不变性的一些处理方式。
重新认识AI
说到这些问题之后,还有一个比较有意思的事情,最近Hinton的capsule和AlphaGo Zero的出现,让我们重新来认识AI到底是一个什么样的东西。我在这里会跟大家提出一个想法,可能不是很成熟,这个观点当时是由我的导师在今年4月份提出来的。
首先AI是灵活的,这是非常关键的,他灵活的表现在哪里,就是神经网络和机器学习的出现。第二个问题,它是通用的,可以用在不同的应用场景里,接下来的PPT会讲到。然后第三个,它是自适应的,后面给大家讲AlphaGo Zero的时候,会说明它表现出怎样的自适应。还有最关键的原则,他是从第一个规则开始学习起来的。
其实人工智能的建立过程需要模仿人的成长过程,就像小朋友刚来到世界之后的学习过程。还有一个问题,AI的基础到底是什么?其实我在这里也提出这样的一个想法供大家来探讨,深度学习加上强化学习,再加无监督学习,AI所有的基础都是在这上面形成的。那么从应用的角度来说,AI它到底会用在哪里呢?AI由两部分组成,第一部分叫机器感知,第二部分叫机器认知,怎么让AI从机器感知向机器认知转化,我觉得这是个比较有意义的事情。
机器感知和机器认知
那么机器感知是什么概念?通俗来讲,比如说当机器发现一个人感冒的时候,它是智能体温计。它通过和人进行接触之后,发现你的体温是38度,你发烧了,那么机器会给反馈,告诉你发烧了。它是认识这个物体,然后再给反馈,这个状态是机器感知的过程。那么怎么变成机器认知,变成机器认知的时候它是什么样的状况?发现你感冒以后,如果你旁边有一个医疗机器人,那么他会帮你去敷一个冰毛巾来帮助降温,然后同时再去持续观察你体温的变化,来判断给你敷冰毛巾的动作会带来多大的价值,这就是我们所说的机器认知过程。
认知过程要比感知过程复杂,感知就是认识之后反馈一个比较完整的信息状态,认知就是获得你的信息,然后再把这个信息传递给动作,做出动作之后再对动作的价值做评价,然后持续改进动作。
那么在机器感知里头,大家可能经常看到像语音、图像识别、视频识别、手势、触摸这些过程,在机器认知这个领域,包括自然语言处理、attention、知识处理、决策、attention等内容。
深度学习在AI上的应用
下面我给大家谈谈深度学习在AI里的一些应用,这里会先谈当前深度学习已经成功应用的成果。
第一部分就是大家知道的语音识别,提到语音识别大家也知道中国的科大讯飞,到2010年之后,语音识别引入了监督学习的深度学习方法,大家也知道在传统的通过计算机来处理语音的过程中,语音需要进行分帧、加窗、提取特征,包括MFCC、PLP,还有一些机器神经网络的声学模型,此外通常会使用一些比较粗糙的特征,在后面有了监督学习之后,就提出了end to end的识别模式。其实大家都知道语音识别的话,首先需要对语音进行解压缩,要还原成一个没有任何压缩的文件。一般语音识别的架构就两部分,第一部分是训练,第二部分是解码,其实这里头有很多关于机器学习的一些算法,大家可以自己去看看资料,包括像一些经典的HTK、特征融合的内容等。
第二部分就是图像识别,现在最流行的就是人脸识别,总结为两类,一类是二维图像识别,一类是三维图像识别。其实大家很清楚,做图像识别或图像理解的一些工程师、研究人员等,用张量的形式进行操作来得到图像处理过程,这块我不做太多说明,我会在后边的研究分享里给大家带来一些图像识别的案例。在这里不得不提李飞飞的ImageNet,她建了一个庞大的图片库,工程师要对进入图片库的图片做标签化,比如说图片中是不是一只猫,这是一只什么样的猫,哪里是猫的头,哪里是猫的尾巴。
目前在最新的图像理解领域,结合我的研究方向,有三块可以考虑。首先考虑的就是用CNN加RNN的方式,通过CNN理解原始图像,把它变成语义分布的形式,然后用RNN把高级表示变成自然语言,这就是我们所说的图像理解过程。比如你看到一个人站在这里,他到底是站在树边还是站在汽车边,怎么来判断他处于哪个状态,就会产生一系列的序列化处理方式。
第三部分就是NLP,特别是像现在很火的机器翻译,它面临的一些比较大的问题在哪里?我不会说NLP现在的发展情况如何,我会提出它目前最大的一些难点,有兴趣的同学可以在上面做一些相关研究。
第一个难点是单词的边界界定,在口语中的时候,词与词通常是连贯的,比如说你去了吗?词和词之间是连贯的,要界定字词边界通常使用方法的是给上下文做一个最佳的组合。
第二个难点就是词的意思,即消除歧义。我在IBM 沃森工作的时间比较长,相比中文,沃森在做语言识别处理的时候比较好办。大家都知道一个英文单词有多个意思,但是英文的一句话只代表一个意思,但中文就比较难,中文一个字就是一个意思,但是多个字组成一句话的时候可能代表很多个意思,这里我就不举太多例子。很多NLP技术比如像沃森在北美那边用得很好,为什么到中国会比较难呢。沃森进入中国有九年的时间,包括我在IBM的时候,一部分的汉语学家和一部分科学家推动沃森进入中国这种具有庞大历史文化背景的国家,进来之后它就面临一个问题,词义消歧的问题比较大。
第三个问题是句法的模糊性,第四是有瑕疵的、不规范的输入,比如吗和嘛。
2014年之后,大家开始用深度学习的方式来进行自然语言处理,利用CNN+RNN的方式来帮助进一步的识别,还有机器翻译、语言识别都是用卷入神经网络加上递归神经网络去做。
第四部分大家很清楚,即多模态图像,第四部分现在运用得很成功。多模态图像是什么呢,说白了就是看图说话。用户拍了一张照片之后,我们会用image captioning技术来匹配合适的文字,方便以后的检索,省去用户手动配字。2015年开始,做了一些监督学习的算法。先做CNN的预训练,在这个基础上做一些微调,然后再通过RNN网络做一些supervised的训练。
第五部分是电子游戏,游戏方面大家都知道AlphaGo,AlphaGo的出现大大提升了强化学习的进程。
深度学习在未来的应用
在未来,机器学习会在哪些人工智能领域产生巨大的作用呢,现在是个开始,在下面这些领域都会有比较大的一些突破。我在这里也会给大家一个简单的介绍。
第一个是IR,即信息检索。信息检索中比较有名的大会是SIGIR,国际计算机协会的信息检索大会,IR更关注于效率和规模,Manning在2016年的时候提出用NLP加IR来提升了IR的正确率和召回率。
第二部分就是大家经常会看到的目前在各个APP上面用到的mobile UI,即移动用户界面和对话,包括聊天机器人、一些类似于Siri的个人助理、声控界面等,在这里也有很多人在做研究,我在伯克利的一个实验室正在做一套新的深度学习模型,基于自然语言检索生成的方式,包括循环神经网络、序列到系列的模型。这个形成过程比较有意思,我们在这里做了22个响应模型,包括机器检索的神经网络,机器生成的神经网络,机器知识库问答系统和机器模板系统,一共有这四个功能体系。
第三部分就是实用的私人助理,像Siri、GoogNow等,这些在未来也会有比较好的发展。有些人在上面做了跨域的迁移学习过程,包括一些艺术的生成、电影脚本的生成,这些技术在未来都会用到深度学习的内容。
前面是给大家带来的比较笼统的认识,即深度学习到底能做哪些事情,另外还有深度学习发展的过程。
视频:
。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/128966.html