与动物交流，这件人做不到的事，AI能胜任？

本文来自微信公众号：学术头条（ID：SciTouTiao），作者：青苹果，编审：HS，排版：李雪薇，题图来自：《忠犬八公的故事》

你看过《忠犬八公的故事》吗？

这部评分很高的电影，完美诠释了秋田犬小八和主人公帕克之间的情谊。小八每天都想方设法去车站等已故的主人，风雨无阻，一等就是十年。还有不少优秀的影视作品都反映了同一个主题：人和动物的交流。了解动物是一个难题。首先，动物甚至有“语言”吗？如果它们有自己的语言，除了生存的基本知识之外还有很多话要说吗？AI 正在帮我们解答这些问题。

“神秘外星人”

使用 AI 探索动物语言是合理的。毕竟，人工智能已被证明在破译古代人类语言方面非常有效。一个由国际科学家组成的团队，最近发起了一个雄心勃勃的“鲸语翻译计划”（Project CETI）。他们选择的研究对象生活在充满神秘魅力的蓝色海洋中，是一种极具情感和智慧的、令人着迷的“神秘外星人”：抹香鲸（Physeter macrocephalus）。

抹香鲸外形庞大，体型似鱼，用肺呼吸，体重超过 50 吨，体长可高达 18 米，属于体型最大的齿鲸；头部巨大，可占整个身体的 1/3，下颌较小，仅下颌有牙齿，颈部较短，鼻孔为喷孔，位于吻端，前肢成鳍，前臂和后肢退化，无背鳍，尾似鱼，靠尾摆动；具有极强的潜水能力，不仅在深度上，而且在下潜时间上都是哺乳动物的 No.1。

受“探索外星智能”（SETI, search for extraterrestrial intelligence）的启发，项目负责人 David Gruber 联合科学家和研究者们试图进行一次前所未有的探索：破译抹香鲸的语言，以实现人鲸对话。由此，鲸类翻译计划（Project CETI , Cetacean Translation Initiative）诞生了。通过倾听、解读抹香鲸的声音，获得与它们交流的方式，以运用最前沿的技术来造福人类，造福地球的生物，达到珍爱生命、保护生命、人与自然的和谐共处的宗旨。

该项目采用非营利性的模型，由来自纽约城市大学、UC 伯克利、MIT、哈佛、谷歌研究院和《国家地理》等知名学府、研究和环保机构的多领域专家共同组成，汇集了顶尖的密码学家、机器人专家、语言学家、AI 专家、技术专家和海洋生物学家。他们一致认为，只有采用跨学科的研究思路，将相关方向的专业知识融会贯通，才能更全面、深入、透彻的了解鲸类的语言。其关键步骤如下：

记录：从各种传感器收集鲸鱼通信和行为数据的大型纵向的多模态的数据信息；
过程：协调和处理多传感器的数据；
解码：借助 ML 技术，构建鲸鱼的交流模型并描述其结构，将其与行为紧密联系起来；
编码和回放：通过一次次的交互式播放实验，改进并完善鲸鱼语言模型。

因而，多种最新的技术也有了更广阔的用武之地，涵盖 AI、机器学习（ML, Machine Learning）、密码学和机器人技术等等。

正如阿波罗计划的地球上升照片一样，CETI 的发现和进步极有可能重塑人类对其在这个星球上所处地位的理解。

该项目的主要研究工作概括为以下几点：

开发最精密的机器人技术，包括与国家地理学会的探索技术实验室合作，在倾听鲸鱼的声音的同时，将其声音融入语境之中。
部署“核心鲸鱼监听系统”，这是一种新颖的水听器阵列，可用于研究 20×20 公里的野外地点的鲸群。
多米尼加的抹香鲸项目成效显著，已捕获了关于鲸鱼声音、社会生活和行为的大量数据。
创建大数据管道，以检查记录的数据，并使用先进的 ML、自然语言处理（NLP, Natural Language Processing）和数据科学（DS，Data Science）对其进行解码。
增强伙伴合作关系，启动公共界面、数据可视化、沟通平台和领导力倡议，以参与并促进全球社区的发展。

图 | 鲸鱼生物声学数据收集的示意图

第一个问题，为什么选择的是抹香鲸呢？

在此，我们解答你心中的第一个疑问：人类借 AI 尝试和动物交流，为什么要选抹香鲸？其实，相对于所有的生物而言，抹香鲸拥有最大的大脑，并且与人类有着惊人相似的特征。抹香鲸具有更高层次的功能，如有意识的思考和未来规划，有丰富的情感体验，可以表达和感受同情、爱、痛苦和直觉等等。它的生物声学系统如下图所示。

在 A 中，抹香鲸头包括鲸蜡器官（c），一个充满近 2000 升蜡状液体的腔体，以及垃圾舱（f），包含一系列起到声透镜作用的晶圆状体。两者相当于两个连接管，在大型成熟雄鲸中形成一个长约 10 米、孔约 0.8 米的弯曲圆锥形角。在头部前侧的“声唇”（i）发出的声音，通过弯曲的喇叭进行传递，在出口表面产生平坦的波面。而 5-B 中展示的是，抹香鲸回声定位和尾波咔哒声的时间结构。

另外，它们生活在母系社会和多元文化社会，有方言和强大的多代家庭纽带。现代鲸鱼作为海洋环境的超强“管家”，已有超过 3000 万年的历史了，从时间节点上看，已是最早原始人类的5倍，而我们对这些动物的了解才只是刚刚开始。

第二个问题，为何现在去研究？

这个问题得从 20 世纪 60 年代末的一个发现说起。当时，包括 CETI 首席顾问 Roger Payne 博士在内的科学家发现，鲸鱼会彼此唱歌。如下图所示，他的唱片《座头鲸之歌》掀起了一场声势浩大的“拯救鲸鱼”运动，这是历史上最成功的保护行动之一。

这场运动最终推动了《海洋哺乳动物保护法》的颁布，该法案标志着大规模捕鲸时代的结束，并有效拯救了几个濒临灭绝的鲸鱼种群，留存下了地球上最神秘的声音。迄今为止，工程学、AI 和语言学的进步使得更深入地了解鲸鱼和其他动物的交流成为可能，打破了之前遥不可及的神话。

在这个项目中，他们会使用自然语言技术来研究分析抹香鲸的 40 亿个交流代码，将每个声音与特定的背景联系起来，这一过程至少需要五年时间。如果该团队实现了这些目标，下一步将是开发和部署一个互动聊天机器人，与生活在野外的抹香鲸进行对话。

第三个问题，AI 读懂动物“语言”的潜力如何？

我们都知道，人类通常非常擅长识别他们熟悉的动物叫声的声学差异。而随着基于信号分类算法变得更加先进，我们有理由相信，人工智能将很快达到可以比人类做得更好。现在已经看到一些成功的迹象。

2017 年，科学家们开发的程序，能够以大约 90% 的准确率识别出许多不同的狨猴叫声。狨猴是群居的群居动物。他们的“词汇”包括 10 到 15 个叫声，每个都有自己的含义。研究表明，像人类婴儿一样，小狨猴通过听到其他狨猴与它们交谈来学习交流。猴子类人的交流系统使它们在研究语言、社会交流或发声的科学家中很受欢迎，携带自闭症相关突变的狨猴也是研究改良这种疾病的良好模型。

一支麻省理工团队开发了一种算法，将来自狨猴呼叫的频率模式转换为图片，然后将这些类似字母的图像传递给人工神经网络进行分类。最终，该算法以 80% 的准确率从背景噪音中筛选出猴子的谈话，并且在 90% 以上的情况中正确识别出猴子发出的声音。同年，另一个团队让 AI 仅根据给羊的面部表情来识别羊是不是处于困境之中。

在这项研究中，剑桥大学团队首先根据绵羊疼痛面部表情，列出了与不同疼痛程度相关的几个“面部动作单元”（AU），然后在 480 张绵羊照片中手动标记了这些 AU——鼻孔变形、每只耳朵的旋转和每只眼睛的缩小等等。

然后，他们训练机器学习算法通过将 90% 的照片及其标签提供给它，并在剩余的 10% 上测试该算法。最终，该程序识别 AU 的平均准确率为 67%，与普通人的准确率差不多。而且，改进训练程序还能进一步提高了准确性。

团队认为，他们的方法也适用于其他动物，可以为动物带来更好的诊断和治疗方案。未来，如果能同时结合声音+图像的想法，我们可以更全面地了解动物可能想说什么。借助 AI，拥有一个能够翻译动物语言的“谷歌翻译”固然是好事，更重要的是，目前一些物种正处于生存的关键时刻，随着技术的进步和成熟，我们可以在技术的支撑下，建设一个对人类和动物都更光明、更密切的未来。

本文来自微信公众号：学术头条（ID：SciTouTiao），作者：青苹果，编审：HS，排版：李雪薇

原创文章，作者：kepupublish，如若转载，请注明出处：https://blog.ytso.com/195770.html

与动物交流，这件人做不到的事，AI能胜任？

相关推荐

发表回复