你做我评——OpenAI和DeepMind全新的强化学习方法,根据人类反馈高效学习

雷锋网 AI 科技评论消息,近日OpenAI和DeepMind各自在网站上发文,介绍一篇他们合作研究、撰写的论文《Deep reinforcement learning from human preferences》(根据人类偏好进行的深度增强学习)。在这篇论文里,他们展示了一种根据人类反馈进行强化学习的新方法,不仅学习过程相对高效,而且OpenAI和DeepMind的研究人员们共同认为这种方法长远来看能够提高智能系统的安全性。

下面雷锋网(公众号:雷锋网) AI 科技评论就带大家一起具体看一下OpenAI对这种方法的介绍和演示。

你做我评——OpenAI和DeepMind全新的强化学习方法,根据人类反馈高效学习

要建立一个安全的AI系统,其中很重要的一步是不再让人类给AI系统写目标函数。这是因为如果用了简单的策略来达到复杂的目标,又或者对复杂目标的理解出现了偏差,都可能导致AI系统做出人们不希望看到的行为,有时候甚至会引发危险。OpenAI跟DeepMind的安全团队一起协作开发了一种算法,只需要人类逐步告诉它两种它推荐的动作中哪一种更好,它就可以由此推测人类的需求进行学习。

方法介绍

这篇论文中介绍了一种算法,它可以用相对少量的人类反馈解决现代的强化学习问题。学者们以前就研究过如何使用人类反馈来建立机器学习系统,但这次两个团队合作做了高级别的解决方案,这样它也可以用来完成复杂得多的任务。他们的算法用来自人类评价员的900次二选一反馈学会了后空翻 —— 一个看起来简单、很容易评价,但是很难精确描述的任务。

你做我评——OpenAI和DeepMind全新的强化学习方法,根据人类反馈高效学习

训练过程总体是一个人类、智能体对目标的理解、增强学习训练之间的三步反馈循环。

你做我评——OpenAI和DeepMind全新的强化学习方法,根据人类反馈高效学习

根据OpenAI跟DeepMind联合开发的算法,这个智能体一开始先在环境中随机运动。然后周期性地把两段它的动作视频给人类看,人类要分辨两个视频的两种动作里的哪一种更接近它的目标——在这个例子中就是后空翻——然后通过选择给出反馈,人工智能就会根据反馈寻找能最好地描述人类判断的奖励函数,这样逐渐给任务目标建立模型。然后它就会通过强化学习来学习达到它自己建立的目标。随着智能体的动作有了进步,它会继续拿出自己觉得最不确定的一对轨迹来让人类反馈哪一个更好,然后让自己对任务目标的理解进一步完善。

他们的方案展现出了喜人的学习效率,像前文所说,只需要不到1000次二选一的人类反馈就可以学会后空翻。人类评价员所花的时间只有不到一个小时,而在后台,这个策略已经同步积累了70小时的总体经验(后台仿真时的速度比真实速度快得多)。接下来他们会继续研究如何减少人类所需提供的反馈数量。下面的动图里演示的就是他们的训练过程(加速版)。

你做我评——OpenAI和DeepMind全新的强化学习方法,根据人类反馈高效学习

你做我评——OpenAI和DeepMind全新的强化学习方法,根据人类反馈高效学习

游戏环境中的训练结果

他们也用模拟机器人和Atari游戏中的几个任务测试了他们的方法(而且没有让程序用到环境本身的反馈函数,具体在Atari中就是不考虑游戏得分)。在多个测试环境里,智能体能通过人类的反馈学到优秀的表现,有时候甚至比人类表现还好。下面几张图就是用他们的方法训练的智能体玩各种Atari游戏的画面。每个画面最右侧竖向运动的小条是一个指示器,它显示的是智能体预测人类评价者对它当前动作的认可度有多高。这些动图就体现了这些智能体根据人类的反馈学到的东西:在Seaquest中知道去水面上补足氧气(左图),在打砖块和弹球中学到如何得高分(中间两图),或者在Enduro中学到撞车以后怎么恢复(右图)。

你做我评——OpenAI和DeepMind全新的强化学习方法,根据人类反馈高效学习 你做我评——OpenAI和DeepMind全新的强化学习方法,根据人类反馈高效学习 你做我评——OpenAI和DeepMind全新的强化学习方法,根据人类反馈高效学习 你做我评——OpenAI和DeepMind全新的强化学习方法,根据人类反馈高效学习
Seaquest 打砖块 弹球 Enduro

值得注意的是,人类提供的反馈可以不用跟环境正常的奖励函数一致。比如他们就在Enduro中训练了一个精确跟其它车辆保持齐平的智能体,它并不会像“正常”那样不断超过其它车辆获得最高分数。他们还发现,有时候从人类反馈中学习的智能体,比从正常的环境反馈里进行增强学习的智能体表现还要好,因为人类对奖励的表述要比环境本来的奖励更好。

你做我评——OpenAI和DeepMind全新的强化学习方法,根据人类反馈高效学习

待解决的问题

人类评价员要凭直觉判断哪些动作看起来正确,那么算法的表现也就受限于此,如果人类对任务没有什么深入的理解,那他们提供的反馈能起到的帮助也就很有限。有个相关的情况就是,在有一些领域这个系统最后会训练出一个学会了欺骗评价员的智能体。举个例子,一个机器人本来应该把物体拿起来,但它把机械手放到了目标物体和观察者中间,这样的机械手就只是看起来仿佛在抓它一样,下面这张图就是这样。

你做我评——OpenAI和DeepMind全新的强化学习方法,根据人类反馈高效学习

对这个问题,他们想了一个改进措施是加一些视觉标识(图中的白色实线),这样人类评价员就更容易判断深度了。不过更通用的办法还需要做更多研究。

OpenAI和DeepMind两个组织打算在对AI安全性有长期影响的方面继续进行合作。在他们看来,这样的方法是开发出人类为中心进行学习的安全AI的又一项进步,而且可以对现有强化学习、模仿学习这样的方法进行补充和拓展。

via OpenAI Blog,雷锋网 AI 科技评论编译

AI科技评论招业界记者啦!

在这里,你可以密切关注海外会议的大牛演讲;可以采访国内巨头实验室的技术专家;对人工智能的动态了如指掌;更能深入剖析AI前沿的技术与未来!

如果你:

*对人工智能有一定的兴趣或了解

 * 求知欲强,具备强大的学习能力

 * 有AI业界报道或者媒体经验优先

简历投递:

lizongren@leiphone.com


你做我评——OpenAI和DeepMind全新的强化学习方法,根据人类反馈高效学习

原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/115292.html

(0)
上一篇 2021年8月27日
下一篇 2021年8月27日

相关推荐

发表回复

登录后才能评论