谷歌新一代WaveNet ：深度学习怎么生成语音？ | 2分钟论文

2021年8月31日 01:04 • 业界资讯

这里是，雷锋字幕组编译的Two minutes paper专栏，每周带大家用碎片时间阅览前沿技术，了解AI领域的最新研究成果。

原标题 NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS | Two Minute Papers

翻译 | 张锋凯整理 | 凡江林尤添

在往期的2分钟论文栏目中，我们有谈过Google的WaveNet（一个基于学习型的文本到语音引擎），也就是说，只要我们给予已经训练好的模型一些朗读的素材，引擎就会尽可能生成一个较真实的声音。而在本期视频中，我们将介绍一个新的产品，它在原有的基础上进行改进，让合成语音臻于完美。

谷歌新一代WaveNet ：深度学习怎么生成语音？ | 2分钟论文

图片来源：WaveNet: A Generative Model for Raw Audio

点开本期视频后，你会听到，合成的语音在韵律，重读，和语调上都非常出色，以至于我们真假难辨。相关的音频信息可以在这里找到：https://google.github.io/tacotron/publications/tacotron2/index.html

在原先Google的WaveNet论文中，我们为了解决语音合成难题，创造了扩张卷积，这个网络结构跳跃性地输入数据，由此使我们我们有了更好的全局视野。这有点像增加我们眼睛的感受野，让我们能够感受整个景观，而不是照片中只有树的狭窄的视角。

新框架利用梅尔声谱作为WaveNet的输入，这种声谱是一种基于人类感知的中间媒介，它不仅记录了不同的单词如何发音，而且还记录了预期的音量和语调。

谷歌新一代WaveNet ：深度学习怎么生成语音？ | 2分钟论文

新模型接受了大约24小时的语音数据训练，当然，模型都是要经过某种程度的检验才合格。

我们对其的检验方法是记录以前算法的平均意见分（用来描述声音样本和人类真实声音的比分）。我们的新算法大获成功，之后通过用户研究更加接地气的检验，让用户进行盲测，猜测听到的声音是合成的还是真实的。

谷歌新一代WaveNet ：深度学习怎么生成语音？ | 2分钟论文

的确不可思议，因为大部分的测试结果都是——人们真假莫辨。

谷歌新一代WaveNet ：深度学习怎么生成语音？ | 2分钟论文

请注意，生成这些波形不是实时的，而且还需要很长时间。为了有更好的效率，DeepMind的科学家撰写了一篇轰动的论文，把WaveNe的波形生成速度提升了上千倍。当然，新发明也会带来新挑战——这可能导致录音更容易被伪造，而录音将被削弱作为物证的可信性，除非我们找到一种新的检验方法，例如在录音上加入数字签名。

论文原址 https://arxiv.org/pdf/1712.05884.pdf

更多文章，关注雷锋网，添加雷锋字幕组微信号（leiphonefansub）为好友

备注「我要加入」，To be a AI Volunteer ！

谷歌新一代WaveNet ：深度学习怎么生成语音？ | 2分钟论文

谷歌新一代WaveNet ：深度学习怎么生成语音？ | 2分钟论文

雷锋网雷锋网(公众号：雷锋网)

。

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/129447.html

aliyun google iPhone Phone 谷歌

赞 (0)

0

教你用Python和Keras建立自己的AlphaZero

上一篇 2021年8月31日

中科院自动化所智能感知与计算研究中心11篇论文被CVPR接收 | CVPR 2018

下一篇 2021年8月31日

发表回复

登录后才能评论