「眼」来助听：谷歌视觉-音频分离模型解决「鸡尾酒会效应」

雷锋网 AI 科技评论按：人类很擅长在嘈杂的环境下将其他非重点的声响「静音」化，从而将注意力集中在某个特定人物身上。这也就是众所周知的「鸡尾酒会效应」，这种能力是人类与生俱来的。然而，自动化语音分离系统—将音频信号分离至单独的语音源—尽管这是一个已经被深入研究过的问题，但是它依旧是计算机系统研究上的一项巨大挑战。

Google Research 软件工程师 Inbar Mosseri 和 Oran Lang 于 4 月 11 日发表了一篇关于视觉-音频语音识别分离模型最新研究成果的博文，雷锋网(公众号：雷锋网) AI 科技评论编译整理如下。

在解决了「鸡尾酒会效应」的《Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation》论文中，谷歌团队提供了一个深度视觉-音频学习模型，来从其发声者音频和背景噪音的混合音频场景中，为特定的发声对象分离出一个匹配的单一音频信号。在这次操作中，谷歌已经能够通过增强特定人物对象的音频，抑制其他非重点音频来计算生成针对特定发声对象的单一音轨视频了。该方法适用于具有单一（主）音轨的常见视频，用户也可以自行选择倾听对象来生成对其的单一音轨，或者基于语境由算法进行对特定发声对象进行选择。谷歌相信这种视觉-音频语音识别分离技术拥有广泛的应用场景，识别视频中的特定对象将其音频增强，特别是在多人视频会议的场景中对特定发言人进行针对性音频增强。

这项技术的独特之处在于，其通过结合分析输入视频的音、视频信号来识别分离所需的单一音轨。直观来说，例如特定人物对象的音频与其发声时的嘴部动作相关联的，这也就帮助模型系统区分哪一部分音频（轨）对应着哪一个特定对象。对视频中的视觉信号进行分析，不仅能够在多种音频混合的场景下显著提升语音识别分离质量（相较于只借助音频来进行特定对象语音分离），同时，更加重要一点还在于，它还能将分离后的纯净单一音轨与视频中的可视对象联系起来。

「眼」来助听：谷歌视觉-音频分离模型解决「鸡尾酒会效应」

在本文的视觉-音频语音分离识别方法中，输入是一名或多名发声对象，同时被其他对象或嘈杂背景所干扰的视频。输出是将前面输入的视频音轨分解成纯净的音轨，并对应到特定的发声对象身上。

视觉-音频语音识别分离模型

为了生成视觉-音频语音分离模型训练样本，谷歌收集了 Youtube 上高达 10 万份高质量学术以及演讲视频。团队从中提取了音频纯净的一些片段（例如无背景音乐，听众噪音以及其他发声者音频干扰），这些视频片段中仅有一位可见的发声对象。谷歌花费了约 2000 个小时从中剪辑出，无背景噪音干扰，同时只有单一可见发声对象的视频数据，团队运用这份纯净的数据来生成「合成鸡尾酒会效应（synthetic cocktail parties）」—将来自分离视频源的脸部动作视频和对应的音频，以及从 AudioSet 获取的无背景噪音的视频混合在一起。

利用这些视频数据，我们能够训练一个多流卷积神经网络模型，为「合成鸡尾酒会场景混合体」片段中每个发声对象分离出对应音频流（音轨）。输入到视觉-音频网络识别系统中的数据具体是指，视频每一帧中被检测到的发声对象的脸部动作缩略图中提取的视觉特征，以及视频音轨的频谱图信息。在模型的训练过程中，网络系统学习分别学习视觉和音频信号的编码，然后将它们融合成一个音频-视觉表现。通过音频-视觉表现，网络系统学会了为每位发声对象对应输出时频掩码。输出的时频掩码与噪声输入频谱图相乘，随后转换成时域波形，从而为每一位发声对象生成单独的，纯净的音频信号。更多详细内容，可以点击参考谷歌团队的论文《Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation》进行查看。

「眼」来助听：谷歌视觉-音频分离模型解决「鸡尾酒会效应」

谷歌多串流，基于神经网络的模型架构

下面是几个谷歌团队通过最新视觉-音频语音分离技术实现的音频分离和增强的处理结果视频示例，视频中除所需的特定发声对象外，其他对象（背景）声音均被「静音」化已达到所需效果。

视频示例（截图）

「眼」来助听：谷歌视觉-音频分离模型解决「鸡尾酒会效应」

视频示例（截图）

「眼」来助听：谷歌视觉-音频分离模型解决「鸡尾酒会效应」

视频示例（截图）

「眼」来助听：谷歌视觉-音频分离模型解决「鸡尾酒会效应」

为了强调模型对视觉信息的利用，谷歌从 Google CEO Sundar Pichai 的同一视频片段中截取了两段截然不同的片段，并将它们进行并排演示。在这个场景下，仅使用音频中的特征语音频率是很难实现音频分离的，尽管在如此具有挑战性的案例中，视觉-音频模型依然能正确地分离视频中的音频。

视觉-音频语音识别分离技术的相关应用

本文的该方法也可应用于语音识别和视频自动字幕加载。对于视频自动字幕加载系统而言，多名发生者同时发声导致的语音重叠现象是一项已知的挑战，与此同时，将音频分离至不同的源也有助于呈现更加准确和易读的字幕。

同时你也可以前往 YouTube 观看本文中的同款视频并打开字幕加载（cc 功能键），即可比较运用了视觉-音频语音识别分离技术的视频字幕识别和 YouTube 原本视频字幕加载系统表现的差异。

视频示例（截图）

「眼」来助听：谷歌视觉-音频分离模型解决「鸡尾酒会效应」

读者还可以在谷歌视觉-音频语音识别分离项目 GitHub 相关页面查看更多的应用场景，同时谷歌的视觉-音频语音识别分离技术与纯音频识别分离的视频结果示例对比，以及其他视觉-音频语音识别分离技术上最新进展。在谷歌团队看来，该技术将拥有更加广泛的应用，团队也在探索将其整合进谷歌的其他产品中，所以敬请期待吧！

另外，AI科技评论于4月初也编译Microsoft AI and Research 研究员的一篇利用多束深度吸引子网络解决鸡尾酒派对问题的论文，详细内容可查看《微软研究员提出多束深度吸引子网络，解决语音识别“鸡尾酒会问题”》。

更多资讯敬请关注雷锋网 AI 科技评论。

雷锋网版权文章，未经授权禁止转载。详情见。

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/129708.html

「眼」来助听：谷歌视觉-音频分离模型解决「鸡尾酒会效应」

在本文的视觉-音频语音分离识别方法中，输入是一名或多名发声对象，同时被其他对象或嘈杂背景所干扰的视频。输出是将前面输入的视频音轨分解成纯净的音轨，并对应到特定的发声对象身上。

视觉-音频语音识别分离模型

谷歌多串流，基于神经网络的模型架构

视频示例（截图）

视频示例（截图）

视频示例（截图）

视频示例（截图）

相关推荐

发表回复