不久前结束的国际消费类电子产品展览会CES2019让全世界看到了人工智能(AI)全面应用的未来,智能语音产品应用和服务成为AI落地的焦点。随着智能语音技术爆发临界点的到来,大众会越来越明显感受到AI给生活带来优越性,尤其是手机输入法语音输入方式带来颠覆性的、持续性的变革。
自2010年讯飞输入法发布业界首个中文语音输入,完成智能语音从概念技术到产品落地的华美转身。九年时间深入探索和研发,讯飞输入法通用语音识别率提升至98%,升级支持英日韩俄及23种方言语音等语音输入功能,让增进人机沟通无障碍的初衷得以实现,通过技术持续创新,向着更自然、更便捷、更智能的应用方向实践。2019年开年,科大讯飞AI升级强势赋能讯飞输入法,破解语音业界难掷一子的“珍珑棋局”,取得了前所未有的突破。
众所周知,科大讯飞首家推出深度全序列卷积神经网络(DFCNN,Deep Fully Convolutional NeuralNetwork)语音识别框架,使用大量卷积层直接对整句语音信号进行建模,获得出色的表达语音的长时相关性,相比循环神经网络(Recurrent Neural Network, RNN)结构在鲁棒性上更加出色,同时可以实现短延时的准在线解码。快速迭代是颠覆式创新的灵魂,科大讯飞携高屋建瓴的行业之势,基于Attention模型的核心思想,通过机器学习(ML,Machine Learning)的方法,构建了Hybrid CNN即混合的Attention CNN模型,从而在语音界保持在进化链的最前端。
前沿的Hybrid CNN模型用于构建语音识别声学模型的全局优化,仿照人类视觉机制,同时也借鉴人类大脑处理的一些优势,可谓效果更好、资源占用更小、模型更灵活的新一代语音识别系统。
具体地说,在DFCNN基础上,将传统卷积使用扩张卷积(Dilated conv)代替,让每个卷积输出都包含更大范围的信息,使得模型不使用池化层(pooling)也可以看到很长的语音段信息,从而实现对语音长时相关性的更精确的表达。与此同时,还引入了基于长短期记忆网络(Long Short-Term Memory,LSTM)的门控机制(Gated Mechanism,GM),使得Hybrid CNN在长时相关性建模的过程中,能快速的过滤噪声等干扰信息,并加强语境等长时信息,进一步提升模型的抗干扰能力,从而在实际应用中能够保障高噪声等复杂场景的语音识别效果。
另一个比较重要的地方在于,本次Hybrid CNN模型真正实现了端到端的建模,此前的端到端建模方案如CTC等在输出端已经可以做到直接输出中文汉字,取得了一定的效果提升,但是在输入端仍然采用人工设计的特征,这些特征在语速很快等特殊场景下就会损失信息。科大讯飞这次以原始音频波形(Raw-wave)直接建模,避免了人工设计的特征提取过程带来的信息损失,真正的实现了端到端建模,进一步的提升了识别效果。
也正因为上述创新,使得Hybrid CNN这种前沿的语音识别框架克服了DFCNN模型参数量和计算复杂度大的问题。在保证识别效果不损失的情况下,系统资源占用规模和运算量同比下降了60%以上,使得Hybrid CNN可以在智能手机等移动设备上流畅运行,这也使得本地化语音的识别效果更加接近云端识别效果。
AI快速发展升级能给大众日常生活体验带来哪些不一样的体验呢?简单地说,下载使用讯飞输入法最新版(Android和iOS客户端),不仅能够准确识别用户所说的普通话,而且支持中英混合语音输入,同时也优化了普通话与七种方言口音(东北话、天津话、河南话、皖北话、山东话、河北话、四川话)的混合语音输入效果,进一步增强语音用户的输入体验。
在复杂对话场景下,有了语音输入随心说,就大大减少用户手动切换语音识别模式的操作,畅快用普通话、英文、方言任意一种或中英混合、普通话与方言混合输入,有效提高语音用户日常的便捷性。
如今,智能语音技术已经进入成熟期,可以预见随着移动终端广泛应用,云计算、物联网、大数据关联领域的裂变式发展,不远的将来将迎来AI应用和服务的大爆发。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/123812.html