雷锋网(公众号:雷锋网) AI 科技评论按:随着智能语音等 AI 技术逐渐落地到现实场景中,智能语音助手、智能机器人等各类形态的 AI 的身影随处可见,真正走进了人们的日常生活中。然而,其目前在技术方面还是存在很多不成熟的地方,一个不留神便是一个大型「翻车现场」,另外,人机交互的不自然性也是其存在的一大挑战。对此,微软研究院提出用模仿学习来解决这一问题,并开发出了搭载语言助手的基于视觉的导航(VNLA),不仅能够训练智能体回答开放式的提问(即不需要提前规划好指令),还能够训练其在需要的时候通过语言策略性地寻求帮助,这就大大增强了智能体的自主学习能力,也大大提高了任务的完成度和准确性。微软研究院在博客上发布了这一成果,雷锋网 AI 科技评论编译如下。
今天,人们使用个人数字助理来帮助安排行程、播放音乐、打开或调整其他设备以及回答一些诸如「游戏什么时候开始?」或「最近的硬件商店在哪里?」的基本问题,例如:但是如果这些助手可以在日常生活中完成更多协助性工作,又会怎么样呢?
想象一下,假如现在是晚上 10 点,你刚刚躺下来想要睡觉,此时你突然想到了一件事而惊醒过来:我关后门了吗?别担心:你的带有轮子、能移动的个人数字助理能够解答你的问题,而你也不必起床让夜晚的睡眠受到干扰。在你让数字助理为你检查门是否关闭之气,它会向你问清楚「哪个门?」你回复它后,它就会走开去探查门是否关闭。它会绕道的后面,识别到指定的门,并确定门是否是打开的状态,如果门是打开的,它就会帮你关好门,并返回来向你报告:「开着的门已关好!」你就能放下心,安心入睡了。
对于那些从事人工智能工作的人来说,这是一个梦想的场景。我们的目标是让现实世界中的机器人和数字、虚拟和混合世界中的智能体能够通过语言自然地与人交流,从而帮助人类完成各种任务。但我们距离这一目标还有一段路要走,因为即使是相对简单的场景,例如让家用辅助机器人帮助我们找到乱放的手机(哦,这将是多么有用!)也并不像看起来那么容易。
为了让这个梦想成为现实,我们开发出了搭载语言助手的基于视觉的导航(VNLA)。VNLA 是一种新的基础视觉语言任务,不仅能够训练智能体回答开放式的提问——即不需要提前规划好指令,还能够训练其在需要的时候通过语言策略性地寻求帮助。这种能力依赖于我们称之为「间接干预的模仿学习」(I3L)的新框架。我们将在年度计算机视觉与模式识别会议 CVPR 上展示关于这项工作的论文(论文查看地址:https://www.microsoft.com/en-us/research/publication/vision-based-navigation-with-language-based-assistance-via-imitation-learning-with-indirect-intervention/),演示该方法的视频大家可前往 https://www.youtube.com/watch?v=Vp6C29qTKQ0&feature=youtu.be 观看,同时也可以前往 GitHub(https://github.com/debadeepta/vnla)下载这项成果的的代码和数据脚本。
是什么阻碍了 AI 的发展?
诸如「检查后门」和「帮我找到手机」等请求对当今的 AI 系统来说,极具挑战性。其中:
1.将自然语言转为视觉:智能体必须理解它被要求干什么。在寻找丢失的手机的案例中,这意味着它必须要知道主人所说的「我的」究竟是指哪个手机,「手机」这个词在视觉上是指什么物体以及需要找到的手机何时出现在它的视线中。
2. 在没有 GPS 的环境中导航和避免碰撞:智能体还必须了解手机有可能被遗落在房屋中的哪些常见位置以及如何在没有明确定位信息的情况下,通过即时定位、地图构建(SLAM)或 GPS 有效导航到这些位置。此外,就像人类一样,智能体必须能够在没有获取房屋清楚的尺度地图的情况下,来执行此操作。此外,它还必须导航到这些位置,而不会碰撞到房屋内的人和物。
3. 更自然地与人互动:当人们寻求另一个人的帮助时,他们之间的沟通不仅限于一个单一的指令,而是还有一些有来有回、传达和接收信息的互动。通常在提供帮助时,人们紧接着会进一步问一些细节的问题,进而从寻求帮助的人口中获得有价值的反馈。比如说在上面的手机中,也许他们会询问「主人」手机外壳的颜色或其记忆中最后使用手机的位置,并且他们可以在这一寻找过程中的任何时候提出这类问题。我们认为机器人和智能体必须具备这种相似的能力以此来协作完成任务。对于机器人和智能体而言,第一步就是要了解如何恰当地处理「已知的未知」情况。换句话说,它们需要了解它们什么时候是不确定的并应该寻求帮助。
解决障碍
这些挑战中的每一个都代表着对人工智能发展至关重要的有效研究领域。在交互式机器人的应用中,这些挑战往往同时发生,这也加剧了收集连续交互数据来训练此类智能体的难度,因此研究这些领域对于交互式机器人而言显得尤为重要。这些设置与生俱来就是是非独立同分布(i.i.d)的,这就确定了朴素监督学习在部署时会失败。
图 1:在不可见的环境中运行 VNLA 任务示例。(a)使用智能体的规划路径注解的环境鸟瞰图。智能体仅通过第一人称视图观察环境。(b)请求者(戴帽子的那个)要求智能体在厨房里找一条毛巾。智能体面前有两条毛巾,但是该房间的标签是「浴室」。在没有给定房间标签的情况下,智能体会忽略它们。(c)智能体离开浴室。如果感到疑惑了,智能体就向顾问(留着小胡子的)发出求助信号。顾问回答了「更简单易懂」更低一层的子目标:「向右转 60 度,向前转,向左转。」(d)执行子目标后,智能体离厨房更近,但仍然感到困惑,于是它再次请求帮助。(e)智能体执行第二个子目标时得到帮助,最终找到指定的毛巾。
在我们的任务中,智能体通过能将其所看到的场景捕捉为图像的单眼摄像头「看到」周围环境的智能体,我们让它找到在特定位置的目标。例如,我们可以让它在厨房中寻找毛巾,如图 1 所示。我们通过对任务提出解决路径,采用多种方式来应对这些挑战。
首先,我们利用丰富的模拟环境来帮助将语言转为视觉。机器人和视觉领域的研究越来越依赖于丰富的高保真模拟环境,例如用于端到端训练智能体的 AirSim。我们使用能通过房间到房间的模拟器对真实房屋进行高保真 3D 重 建的 Matterport3D 数据集,在模拟真实环境训练我们的智能体。
其次,我们选择将模仿学习而不是强化学习作为训练范式。模仿学习指的是智能体直接从专家演示学习而不是从传统强化学习中使用的奖励函数学习,它在环境试验中,学习速度取得了指数级增长。但是一个不足之处就是模仿学习往往依赖人类专家们演示完成任务所需的最佳行动步骤,这可能导致成本很高。但在这里并非如此,这也是我们选择使用 IL 的另一个原因。仿真训练在训练期时能提供一个自然的程序化专家,而不产生额外的成本,而这个程序化专家则是一种可以获取全环境状态的规划算法。具体来说,我们有一个最短路径算法(A *),它知道完整的地图以及该场景中所有物体所处的位置。这种模仿比智能体拥有更多得多的知识和信息的专家的方式,已经有效地应用于机器人的复杂规划问题中。
有疑惑?那就求助!
最后并且最重要的事情是,我们要训练智能体懂得寻求帮助。在我们的任务中,还有另外两个关键角色:请求者——在现实场景中发布任务的人 ;顾问——在现实场景中发布任务的人通常也是顾问,但在理论上,顾问可以是能够引导智能体的任何实体。在执行任务期间,智能体可以在感到疑惑时向顾问寻求帮助,并且可以按照预定的次数多次寻求帮助。预定需求帮助的次数很重要; 否则智能体可能会为了提高成果率而记录下「寻求帮助」的程序,而学会在每一步都寻求帮助,这在很大程度上就违背了原意。毕竟谁真的想要一个需要问过一百万个问题才能完成任务的助理呢?智能体通过语言获得帮助,旨在重新规划轨迹去完成任务。例如顾问可能会说,「从你所在的位置,向右转,然后走三步。」
这种通过语言提供帮助的方式试图模仿人们用以互相帮助的自然交流方式。智能体拥有了在关键节点寻求帮助的能力,就能够以更大概率地成功完成任务。在其从未见过的环境中,它要比无法寻求帮助的基线智能体的性能高五倍以上。在训练期间,我们还会教智能体应该在什么时候寻求帮助。在智能体从未见过的测试场景中,学习如何有策略地寻求帮助的这种形式给智能体带来的性能上的提高,要比随意寻求帮助的方式高出约 38%,并且比一开始就寻求帮助的方式高出约 72%。
对于 AI 智能体而言,了解自己什么时候处于不确定状态并学会从寻求帮助中获益尤为重要,这不仅是因为这种方式有助于创造更自然的互动,而且还因为 AI 智能体是不完美的,而干预则有助于帮助智能体稳当地完成复杂的请求。
图 2:导航模块的两个解码过程。(a)第一解码过程计算临时的导航分布,其用作计算帮助请求分布的特征。(b)第二遍计算最终的导航分布。
如图 2 所示,在整个智能体策略架构中,智能体运行两个前向传递。第一次传递,计算了暂定的导航分布,并将其用作寻求帮助的决策的一个特性。如果导航分布存在很多不确定性,那么只要预定次数允许,智能体就可以决定是否应该停下来寻求帮助。第二次传递,它考虑了额外提供的帮助(如果有请求帮助的话),计算出最终的导航分布。
我们的框架旨在帮助我们的个人数字助理实现人们互相帮助时常见的那种有来有回的交流。我们将 VNLA 视为实现更丰富的人类—AI 协作的基础,在这种协作中包含更自然的语言沟通,而机器人和智能体在这种协作中也可以换位思考。
。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/136842.html