机器人走路未必笨拙，DeepMind新方法训练的人工智能走得就很飘逸

雷锋网(公众号：雷锋网) AI 科技评论按：无论是在树木间乱窜的猴子，还是躲避对手和进击目标的足球运动员，他们灵活敏捷的速度，都让人十分惊叹。掌握这种复杂的电机控制是物理智能研究的方向，是 AI 研究的重要组成部分。

真正的智能电机需要在一系列复杂的环境中，学习如何调节控制身体使其更加灵活来完成任务。目前，很多领域开始研究如何控制模拟人，包括计算机动画和生物力学领域。智能电机的另一种发展趋势是，使用手工制作的目标或运动捕捉的数据来产生特定的行为。然而，这可能需要相当多技术工作的努力，也可能会导致智能电机面对新任务时，难以重新调整行为。

在以下 3 篇新的论文中，阐述了 DeepMind 已经找到了 AI 学习灵活行为的方式，这种方式不仅能够重复使用，还能解决任务。

一、丰富的环境中表现的运动行为

如果玩 Atari 或 Go 时，目标很容易描述，就是赢。但是你如何描述一个后空翻表演的过程？或者仅仅只是单纯描述一下“跳”这个动作？当 DeepMind 把运动技能教授给人工系统时，常常会遇到这个问题，就是很难准确描述一个复杂的行为。 DeepMind 目前的工作就是研究如何在简单高水平的目标下，使身体能够从头开始与环境相互作用来完成复杂的行为，例如向前移动而不会下降。更具体地说，他们训练了各种模拟人，让他们在不同的地形上进行跳跃，转弯或者蹲伏。结果显示，模拟人完成这些复杂的技能前，并没有收到具体的指示。 DeepMind 需要找到一种方法，可以训练系统中明显不同的模拟人。下面的 GIF 显示了能够产生高质量的运动的技术。

模拟的“平面”步行者反复尝试翻墙

机器人走路未必笨拙，DeepMind新方法训练的人工智能走得就很飘逸

模拟的“蚂蚁”步行者在学习如何在木板之间精确地跳跃

二、通过对抗模仿学习人体行为

上述的模拟人解决突发行为的能力非常强大，但是由于这些动作必须从头开始，所以模拟人的动作看起来和人类行为不太一样。在 DeepMind 的第 2 篇论文中，阐述了如何通过运动捕捉数据来构建一个模仿人类行为的政策网络，需要预先学习一些技能，例如步行、起步、跑步和转弯等等。目前，模拟人已经产生了类似人类的行为，可以通过重新调整这些行为来完成其他任务，比如爬楼梯，通过导航绕过围墙等等。

下面的 GIF 可以查看模拟人的行为。

人形步行者产生类似人类的行走行为

机器人走路未必笨拙，DeepMind新方法训练的人工智能走得就很飘逸

人形步行者摔倒后立即站起来

三、模拟人模仿人类各种行为

第 3 篇论文提出了构建一种最先进的生成模型的神经网络结构，它能够学习不同行为之间的关系，并模仿它所显示的具体动作。经过训练之后， DeepMind 的系统可以编码观察到的动作，还可以创建新的小动作。尽管模拟人并没有看到动作之间的过渡，依旧可以在不同类型的动作之间切换，例如在行走风格之间的转换。

GIF 中左侧和中间演示了两个行为；GIF 中右侧展示了模拟人在不同行为之间产生了它从未见过的过渡

GIF 中左侧平面步行者演示了特定的行走风格；GIF 中右侧展示了我们的模拟人使用单一政策网络来模仿这种行走风格

实现模拟人行动灵活且适应控制是 AI 研究的关键要素。 DeepMind 的工作旨在开发一套系统，能够通过学习和调整技能来解决电机控制任务，同时减少手动工程。 DeepMind 未来的研究工作主要是扩展这些方法，以便在更复杂的情况下完成更多的任务。雷锋网 AI 科技评论也会继续保持关注。

论文地址：

Emergence of locomotion behaviours in rich environments，https://arxiv.org/abs/1707.02286
Learning human behaviours from motion capture by adversarial imitation，https://arxiv.org/abs/1707.02201
Robust imitation of diverse behaviours，https://arxiv.org/abs/1707.02747

via DeepMind，雷锋网 AI 科技评论编译

雷锋网版权文章，未经授权禁止转载。详情见。

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/126746.html

机器人走路未必笨拙，DeepMind新方法训练的人工智能走得就很飘逸

一、丰富的环境中表现的运动行为

模拟的“平面”步行者反复尝试翻墙

模拟的“蚂蚁”步行者在学习如何在木板之间精确地跳跃

二、通过对抗模仿学习人体行为

人形步行者产生类似人类的行走行为

人形步行者摔倒后立即站起来

三、模拟人模仿人类各种行为

GIF 中左侧和中间演示了两个行为；GIF 中右侧展示了模拟人在不同行为之间产生了它从未见过的过渡

GIF 中左侧平面步行者演示了特定的行走风格；GIF 中右侧展示了我们的模拟人使用单一政策网络来模仿这种行走风格

相关推荐

发表回复