Google在英国剑桥有个附属机构DeepMind,一直在尝试让人工智能软件(AI)玩游戏,想让它们在玩游戏的过程中学会如何与真实世界互动,这些AI软件非常喜欢电视游戏,而且只要经过不断练习,人工智能软件甚至会比人类玩的还好,虽然游戏世界与真实世界似乎风马牛不相及,但实际上,学习的过程和解决问题的逻辑都是一样的:观察→状态判断→行动→反馈→观察……
其实除了Google外还有一家名为Osaro的公司开发的人工智能软件是基于神经网络和增强学习设计的,人工智能的神经网络类似于人类大脑的神经网络,理论上讲:如果给AI提供了足够多的照片,它就能通过这些已知信息辨识出某一张照片中的所有东西,而应用在游戏中,则能让人工智能(AI)搞清楚目前的游戏是什么状态,所以Osaro公司还特别研发了循环神经网络,它可以让人工智能软件拥有类似于人类的短期记忆——将短暂的过去与现在进行比较,能够更好地判断出环境状态的变化和未来发展趋势,观察结束后,增强学习用于调整行动:如果行动结果是正向的,下次就还会这样做,反之则摒弃这种做法,游戏世界很单纯,分数奖励就像刺激人类大脑的多巴胺,如果一项行动能让分数增加,那么人工智能软件下次就会更倾向于这样做或者选择类似的做法。
将这种学习方法应用到现实场景,才是Google和Osaro的最终目的:例如如果机器人成功把杯子放到指定位置就能得到奖励,把杯子打碎了就会受到惩罚,那么如此一来,它就会懂得人类想要的是什么结果,而不会再是机械地执行命令。其实人工智能软件就像小孩子,不断在游戏中试错,最终就会找到所有通关技巧,虽然现实世界的复杂程度是游戏所无法比拟的,但让AI玩游戏更像“授之以渔”——学会“如何学习”比“学到了什么”更加重要!
原创文章,作者:kepupublish,如若转载,请注明出处:https://blog.ytso.com/100328.html