AI Talk | 语音识别ASR幕后神器-模方平台

作者：jingtianli

ASR 作为机器学习的基础应用之一，已成为众多业务支撑的基础能力，在录音质检、音频字幕、会议转写、语音输入等场景中发挥越来越大的作用。腾讯云 ASR 作为业界领先的语音识别服务提供商，为开发者提供语音转文字服务的最佳体验，具备识别准确率高、接入便捷、性能稳定等特点。

基于腾讯的多个 AI 实验室的模型赋能，腾讯云 ASR 团队接入和开发了多种类型识别服务，如一句话识别、录音识别、实时语音识别等，业务覆盖通用、金融、医疗、游戏等多种场景。此外，工程方面，团队在整体系统的复用性、接口性能、服务稳定性上也做了大量优化。

鉴于此，腾讯云与微信智聆深入合作打造了模方平台，大幅度提升了微信智聆 ASR 能力的接入、评测、交付和上线效率；进而能对外输出更为敏捷的模型版本迭代能力。此外，平台也在 IBG 的香港粤语等模型进行验证，使平台承接上游实验室模型具有普适性。

自 2020 年 9 月份内部试用以来，模方平台已逐步替代了 ASR 模型的绝大部分接入、整合、评测和交付工作，极大提升效率的同时，将大量人力从重复工作中释放出来。此外，无论模型更新还是 sdk 更新，均需通过效果、性能的回归测试，尽可能发现潜在问题，减少服务带病上线的可能。比如近期专项，根据需求实验室同时释出了大量模型版本，sdk 也同步更新，通过平台很好地支撑了模型的快速迭代，保证线上识别服务模型的快速迭代，而这些在之前通过人工进行评测和更新时，是完全无法满足的。

引入模方平台后，效率方面：

模型评测时间，由 2 人天降低到 30 分钟
支持模型与引擎的自动化上线
整个评测流程，仅需一人即可

而在质量方面：

应用与模型版本管理，方便查询和追溯
方便模型回归测试，尽可能排查潜在问题
引入审核机制，确保交付模型满足质量要求
完善效果和性能指标范围，进一步确保模型质量

ASR 团队调研现有其他评测平台的基础上，结合云 ASR 服务的类型和特点，开发了一站式的 ASR 模型评测系统——模方平台。平台支持引擎接入、模型整合、安装包交付、模型评测、质量审核、引擎上线等核心流程，较好地弥补了从上游实验室释出引擎模型，到模型上线中间的流程环节，通过自动化、可定制的形式，在兼容各种模型的同时，极大地提升了工程侧的模型迭代效率。平台的核心流程如下所示

下面逐一介绍下流水线的各个环节：

引擎接入与构建

实验室释出一版模型，主要有两部分组成：sdk引擎、模型（环境文件与配置）。

sdk引擎，通常为头文件及对应的 lib 库。识别层要使用模型，需要调用 lib 库暴露的头文件定义的 api 函数，并将 lib 库编译到识别层应用 speech-engine-platform 中。模方平台通过对接公司的 CODING-CI 平台和织云系统，实现speech-engine-platform 的自动编译、代码检查、打包和上传织云系统的功能。

使用模方平台，在新 sdk 释出后，工程师只需替换新的 lib 库文件，并把代码提交到指定的 git 分支，然后在平台上选择对应分支，点击构建，即可自动化生成织云安装包。

此外，由于线上服务器存在不同的硬件配置，针对不同型号，平台可自动生成对应各个配置的织云包，极大地方便了下游系统的线上部署。

模型整合与入库

实验室释出的模型，通常由不同的组件环境组成，需要整合后才能成为一个完整的模型。以微信智聆实验室的模型为例，ASR模型包含四个组件：识别环境、VAD 环境、话者分离环境和后处理环境。

识别环境用于将音频数据转换为文字，VAD 环境用于删除非人声数据，话者分离用于区分一段语音中不同的 speaker，后处理用于将识别后文本进行进一步处理，如阿拉伯数字转换等。

四个环境相互独立，但版本上又有一定对应关系，只有正确地整合成为一个整体，才能使用。

之前人工整合模型，需要登录到中转机，找到各环境对应文件夹，将文件夹拷贝到本地服务器的指定目录，并将四个组件的配置项放到一个统一的配置文件。可见这样做，不但占用人力、效率低下，而且非常容易出错，版本信息也很难管理和追溯。为未来线上模型部署、问题排查埋下了隐患。

模方平台的引入，解决了这个问题。在平台上，可以方便地浏览各个组件的所有版本目录，在整合和录入模型时，只需选择各自版本目录和配置文件，然后填写新模型的版本号，即可完成模型的整合、配置文件生成和版本号管理等操作。

下游环节均可通过该版本号回溯模型组件信息。

模型统一评测

新模型在发布前，需要评测模型是否满足质量要求。评测主要关注两个维度：效果评测和性能评测。

效果评测：指标主要包含：字准率、WER、插入/删除/替换错误、说话人分割聚类错误率 DER 等，用于衡量该版模型的识别效果。为满足特定业务用户希望根据自己的语料获得效果指标的需求，平台进一步提供自定义测试集功能。

性能评测：在性能上，相对于实验室关注的实时率等指标，工程侧更为关注从用户使用的角度，在不同的识别服务类型上，如何衡量服务识别的性能情况。ASR 服务种类和性能指标如下：

ASR服务类型	指标
录音识别	24小时转码时长
一句话识别	最大并发数、可用性
实时语音识别	并发路数、尾包延迟、VAD时延、首字时延

以上是模型评测报告的指标。新模型录入后，用户在平台可以方便地启动一次模型评测流程。选择模型版本号，指定测试服务器配置型号，点击启动评测即可。平台会自动将模型部署到指定测试服务器，编译并部署识别层应用 speech-engine-platform，然后调用评测服务进行评测，通常一次完全评测在 30分钟左右，即可获取评测报告。

模型发布上线

发布前，需要针对上个环节产出的评测报告进行审核。通过评测报告，用户可查看当前模型的效果指标和性能指标，并观察相较上一版的变化，判断是否满足上线标准，填写审核意见，并点击通过或拒绝即可。
审核通过后，点击交付，即可将开箱即用的安装包交付给下游系统。安装包包含两部分：识别层应用织云包、模型打包文件，两者版本均已对齐。

交付后，即可进行模型上线操作。之前通过人工上线，需要两步：
1. 识别层上线，需人工根据需要上线的 git 分支，手工触发识别层应用编译和织云打包；再登录公司织云系统，选择对应织云包版本和 IP 列表，部署到线上服务器
2. 模型上线，需人工将模型下载到所有需要升级的服务器上，并解压部署到指定目录
可以看到，引擎和模型的版本正确性，需要人工保证，不仅效率较低，而且也容易出错。平台支持上线，不仅提升效率和质量，而且进一步保证版本可追溯。

其他特性

除上述功能外，平台还支持如下特性：

评测机型上，支持指定多种GPU配置机型
场景上，支持金融、视频、医疗等场景模型评测
方言与语种上，除中文外，支持上海话、粤语、英语、日语等
支持公有云与私有化模型统一交付
支持 CPU 模型评测

腾讯云语音识别ASR提供业界非常具有性价比的语音识别服务，超高识别准确率，适用多场景

点击了解更多

实时语音识别

对不限时长的实时音频流进行识别，识别结果自动断句，标记每句话的开始和结束时间；可应用于智能语音助手等实时音频流场景。

录音文件识别

对用户上传的五小时之内的录音文件进行识别；可应用于呼叫中心语音质检、视频字幕生成，会议语音资料转写等场景。

一句话识别

对一分钟之内的短音频文件进行识别；可应用于语音输入法、语音消息转文字、语音搜索等场景。

语音流异步识别

对直播协议语音流进行识别，准实时返回识别结果，支持音视频场景专用模型；可用于直播流质检等场景。

录音文件识别极速版

对用户上传的较大的录音文件进行极速识别，半实时返回识别结果；可应用于音视频字幕、准实时质检分析场景等场景。

原创文章，作者：奋斗，如若转载，请注明出处：https://blog.ytso.com/212362.html