钱晨：为什么“智能音箱”可能会被做臭？

卸任锤子科技 CTO 之后，钱晨加入数字家圆，参与了一款视频通讯设备——亲见 H1 的研发，做的是他老本行——声学，其中最核心的工作便是远场语音识别。

远场语音识别也是 Amazon Echo 的核心技术之一，Echo 的火爆点燃了整个市场，但钱晨告诉雷锋网(公众号：雷锋网)，他并不认为这是“最好的时代”。

1998 年，钱晨在中科院顺利拿到了水下声学博士学位，很长一段时间，他在北京摩托罗拉研发中心担任电子与声学工程师。

他现在担心的是，百家争鸣背后，“智能音箱”这个概念会被做臭，就像他玩石头从来不碰田黄，因为一说到田黄，他第一反应就是赝品。

以下是钱晨自述，由雷锋网整理。

这么说吧，做前端声音处理的，国内没有高水平的。因为我们这个专业，一年毕业不到 50 个学生，大家都知道，这个水平不会太高。但是美国人比较有意思，美国人做物理比咱们深，物理做深了以后，它就能解开一道道题。

麦克风这个行业，有两个流派。一个是说自己有 6 个、7 个麦克风（Amazon Echo）的那种，叫麦克风阵列；第二个流派就是“两麦”（Google Home）。从这一点出发，不管厂商怎么讲故事，都逃不出这两个。

麦克风阵列流派的缺点是夹角窄。

展开之前得先谈一谈“波束形成”。波束形成实际上 20 年前就有人做了。军工里的声纳，微波里的智能天线，都是这个技术。

当时大家为什么用波束形成？主要是因为做电路的时候就是处理各种放大信号，而波束形成本身就是一个放大信号，我们管这个放大叫空间增益。对空间场的增益还有一个公式，根据它，能做出很多技术创新来。

亚马逊做 Echo 的时候就用了这个技术。这个技术体现在产品上，就是它能识别声音传来的方向，然后把旁边的声音滤掉，把需要的声音增加了空间增益。对比到电路上，就是这个信号的放大倍数多，信噪比好，信号被放大以后，很干净。

麦克风阵列就是用这个阵列形成一个波束，波束角是 60 度。

“两麦”没有夹角窄这个问题，它也有空间信息，能分辨出来声音是左边来的还是右边来，但它没有增加放大量。

对比这两个流派，时间差能说明一些问题。亚马逊 4 年前就在 Echo 上用了波束形成，而“两麦”是去年开始用的，就是 Google Home。所以这两个技术在应用成熟度方面，差了三年到四年。

再往下走就到设备端了。

设备首先要解决的问题就是噪声抵消。比如一个人跟另一个人说话，声音是从四面八方传到耳朵里的，对设备来说，情况也一样。那这就有问题了，有些方向的声音快一点，有些会慢一点，叠加在一起就产生了混响，或者说噪音。

所以麦克风把声音识完以后，剩下的事就是做噪声抵消，让声音信息干净到能让“对方”听到，计算机才能够处理。

现在可以看到，科胜讯、云知声、思必驰，科大讯飞这些公司，它们都说自己有全套解决方案，实际上，“全套解决方案”就是能解决刚才所说的噪声抵消和后面的云端处理。

只有设备里的噪声抵消解决干净了，信息才能传到下一级，去做语音识别。

语音识别国内做得最好的就是科大讯飞，他们最喜欢干的就是，每次有人在那儿说话，它给你翻成文字。它这个做得很漂亮。但这些文字是什么意思？它不管了。因为这已经到了语义识别，而在这一块做得最好的是微软和亚马逊。

总之，可以把语音设备的技术分成三段：一是噪声抵消，二是语音识别，三是语义识别。在语义识别这块，老外比中国人强。

对用户来说，一定是三段都做好才能有所体会，但语义识别是个更难的东西，基本上只有大公司能做，小公司做不了。

我现在认为“智能音箱”快做坏了，就是设备端都没有做好。如果降噪这一块没有处理好，科大讯飞算法再好也傻，识别率就下降，语义识别就更别谈了。

很少有人注意到一个信息，国家做了一个实验室，希望厂商们把自己的语音设备放到实验室去认证。

它就跟手机一样，手机厂商都会说自己的产品好，但最后必须得过 3C 标准，需要认证。所以大家都说自己好的时候，实验条件是什么？环境条件是什么？他们答不上来的。

声学测量远比电磁场测量复杂，能不能适应复杂的物理环境才是体现设备水平高低的地方，而那些总拿“能识别几米几米”说事的，消费者都不会买单。

。

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/90056.html