PlaNet，使用图像输入来学习世界模型

Google AI团队与DeepMind合作，上周宣布了一个名为PlaNet的新的开源“Deep Planning”网络。 PlaNet是一个人工智能代理，它只使用图像输入来学习世界模型，并使用这些模型进一步计划以获得经验。

PlaNet可以轻松解决各种基于图像的控制任务，并与先进的无模型代理商竞争。 Google AI团队还发布了研究社区的源代码，以进一步探索和构建PlaNet。

PlaNet如何运作？

PlaNet依赖于隐藏或潜在状态的紧凑序列。这被称为潜在动力学模型，其中不是直接从一个图像预测到下一个图像，而是首先预测潜在状态前向。 “通过以这种方式压缩图像，代理可以自动学习更多抽象的表示，例如对象的位置和速度，使得更容易预测前进，而不需要一路生成图像”，Google AI团队表示。

在隐态动力学模型中，输入图像的信息通过编码器网络集成到隐态中。然后将隐藏状态进一步向前预测，以预测未来的图像和奖励。对于规划，将过去的图像编码成当前的隐藏状态，然后预测多个动作序列的未来奖励。

PlaNet，使用图像输入来学习世界模型

PlaNet代理在不同的基于图像的控制任务上接受培训

PlaNet代理经过各种基于图像的控制任务的培训。这些任务带来了不同的挑战，例如部分可观察性，用于接球的稀疏奖励等。此外，训练单个PlaNet代理来解决所有六个任务。在不对超参数进行任何更改的情况下，此多任务代理能够实现与各个代理相同的平均性能。

“我们提倡进一步研究，重点是学习更高难度任务的精确动力学模型，例如3D环境和现实世界的机器人任务。我们对基于模型的强化学习开辟的可能性感到兴奋“，Google AI团队表示。

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/industrynews/124054.html