新一代Kaldi将应用于小米多款产品 改变诸多语音识别方式

凤凰网科技讯 9月1日消息,Kaldi之父Daniel Povey表示,新一代Kaldi的目标不仅仅是赶上或者稍微领先目前现有的语音识别库,而是要从根本上改变语音识别的实现方式。“目前小米产品中的 ASR 用的是第一代 Kaldi,我们正在使用 k2 来加速现有生产模型的解码。解码速度达到实时的300倍。”Daniel表示,预计今年年底或明年初开始将下一代 Kaldi 应用于小米产品,但现在还有很多集成和测试要做。

据了解,k2是新一代Kaldi的核心。其核心贡献在于,将加权有限状态转换器(WFST)和相关算法集成到基于Autograd的机器学习工具包,如PyTorch(已完成支持)和TensorFlow中。可以消除以往语音识别任务中训练跟解码过程不匹配的问题、多轮(可求导)的语音识别过程、在声学网络中嵌入任意辅助信息等。k2也可以用来很方便地实现很多现有的语音识别模型。

目前国内外语音助手像小爱同学、苹果的Siri、亚马逊的Alexa等的底层框架都是Kaldi。相信下一代Kaldi将更适用于各种场景的不同语音模型,如远近场语音唤醒、离在线语音识别、说话人识别等通用模型,以及口语评测、语种识别、语音情绪识别等特定模型。

原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/138730.html

(0)
上一篇 2021年9月2日
下一篇 2021年9月2日

相关推荐

发表回复

登录后才能评论