新一代Kaldi将应用于小米多款产品改变诸多语音识别方式

凤凰网科技讯 9月1日消息，Kaldi之父Daniel Povey表示，新一代Kaldi的目标不仅仅是赶上或者稍微领先目前现有的语音识别库，而是要从根本上改变语音识别的实现方式。“目前小米产品中的 ASR 用的是第一代 Kaldi，我们正在使用 k2 来加速现有生产模型的解码。解码速度达到实时的300倍。”Daniel表示，预计今年年底或明年初开始将下一代 Kaldi 应用于小米产品，但现在还有很多集成和测试要做。

据了解，k2是新一代Kaldi的核心。其核心贡献在于，将加权有限状态转换器(WFST)和相关算法集成到基于Autograd的机器学习工具包，如PyTorch（已完成支持）和TensorFlow中。可以消除以往语音识别任务中训练跟解码过程不匹配的问题、多轮（可求导）的语音识别过程、在声学网络中嵌入任意辅助信息等。k2也可以用来很方便地实现很多现有的语音识别模型。

目前国内外语音助手像小爱同学、苹果的Siri、亚马逊的Alexa等的底层框架都是Kaldi。相信下一代Kaldi将更适用于各种场景的不同语音模型，如远近场语音唤醒、离在线语音识别、说话人识别等通用模型，以及口语评测、语种识别、语音情绪识别等特定模型。

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/138730.html

新一代Kaldi将应用于小米多款产品 改变诸多语音识别方式

相关推荐

发表回复

新一代Kaldi将应用于小米多款产品改变诸多语音识别方式