讯飞医疗刘洋：“简单粗暴”的AI系统已成为过去

近期，雷锋网(公众号：雷锋网)医健AI掘金志邀请科大讯飞医疗市场与解决方案部负责人刘洋，做客雷锋网公开课，以“讯飞语音技术在疫情中的创新应用”为题，详细介绍了讯飞医疗在语音技术在感知智能、认知智能层面的探索与最新成果。

后续将有更多课程上线，添加微信公众号医健AI掘金志在公众号聊天框回复“听课”，进群可收看本节课程视频回放。

刘洋认为，AI技术的应用才是王道，场景选择有时比技术选择更加重要。其次，在切入各个应用时，要避免传统的、简单粗暴的端到端解决方案；最后，创新医学和人工智能结合的路上，应该跳出单纯的技术或者算法创新。除了选择场景，选择什么样的数据，用什么样的方式获取数据，这也是构建各种人工智能医学应用需要深入思考的问题。

在演讲中，刘洋围绕智医助理电话机器人、智能医学语音录入、放从医院隔离点智能管理三大方面，分享了讯飞医疗在实际应用成果。

以下为刘洋演讲全文内容，医健AI掘金志做了不改变原意的编辑

我是讯飞医疗的刘洋，感谢雷锋网的邀请，今天分享的主题是《讯飞语音技术在疫情中的创新应用》。在进入正题之前，我分享一下自己对于医疗AI应用的观点：应用才是王道，场景选择有时比技术选择更加重要。

其次，在切入各个应用时，要避免传统的、简单粗暴的端到端解决方案。

深度学习在很多领域里都发挥了巨大效能，例如人脸识别、语音识别，但是在医疗领域，可能还要更加谨慎。医学的出发点之一就是保障患者免受伤害。

所以在训练模型，包括选择具体的切入点时，一定要注意，系统一定不能过于简单粗暴。否则，市场会给我们非常严酷的教训。

第三，我们在创新医学和人工智能结合的路上，应该跳出单纯的技术或者算法创新。除了选择场景之外，选择什么样的数据，用什么样的方式获取数据，这也是构建各种人工智能医学应用需要深入思考的。一些传统的数据可能不适合深度学习算法。

首先看一下，讯飞从成立到现在走过的历程。

现在是讯飞医疗的第4个年头，我们是2016年在讯飞内部孵化的一个独立团队，目前秉承着两条技术主线。

第一条主线是围绕讯飞的主赛道——智能语音层面，主打是面向智慧医院、便于医生使用的工具。

第二条主线是围绕认知智能层面——如何去构建基于医学认知智能的辅助诊断系统。2017年，我们较早地与中科大第一附院共同建设智慧医院，将语音应用到诊疗的各个环节，例如导医、语音病历还有智能随访。

此外，2017年，我们参加了国家执业医师考试的笔试测试，得到一个非常不错的成绩。

基于这两条路线，最近三年，我们在产业和应用上不断探索。

2018年，我们把基于医考的技术，尝试在基层开展人工智能辅助诊断应用，从一个社区做到一个县，2019年，我们已经覆盖了50个县。

截止2019年底，在人工智能基层辅诊方面，我们已在全国超过100多个区县得到应用，覆盖将近4万的基层医生。

在语音交互层面，我们也从早期的单点语音识别，包括语音电子病历，慢慢向综合的门诊解决方案扩展。

现在，讯飞医疗有300多名员工，10%的员工都是具有临床背景的医生，也正是在临床和技术两方面的储备下，我们才有今年的成绩。

在医学和人工智能结合的道路上，不能只看技术。我们一直和医院、主管部门还有客户学习，也达成了很多的战略合作。

另外，讯飞也承建了很多国家的平台，包括唯一一个认知智能的国家重点实验室，也入选科技部的新一代人工智能五大创新平台。

我们积极跟医疗、卫生行业的各种协会、联盟合作，共同推进人工智能在行业良性的发展。

讯飞的技术积累

我分享一下讯飞在语音层面的技术积累。

随着深度学习技术的发展，可能会有人认为语音识别的门槛没有以前高，实际上不完全是这样。

对于通用场景下的语音识别，大家确实可以用一些开源工具，包括一些开源模型，很快地构建起来。

但是，应用场景现在越来越复杂，客户对于语音识别的要求越来越复杂。比如如何在远场识别做到比较好的收音、降低混响，以及嘈杂环境下，如何去提高收音效果？

这些是目前语音识别的主流方向，讯飞拥有十几年的技术积累，每年也会参加一些国际知名的语音识别大赛。

可以看到讯飞对于复杂场景下的语音识别已经做的很好。也正是因为有这样的技术积累，我们能够比较快地在各种应用场景下快速构建相适应的模型。

我也会跟大家分享一下，为什么在医学场景里面，抗干扰的能力以及远场识别是如此重要。

第二个领域是语音合成，合成，就是让机器像人一样发音。如果是不追求情感，不追求自然、连续的话，快速构建这样的能力并不是很难。但在现在的场景下，越来越要求我们能够实现很好的自然度，还有连贯、柔和的合成效果，让声音听起来更具情感，技术挑战非常高。

所以，如果大家对语音合成感兴趣，希望大家能够技术选择和工程实践时，更多去考虑怎么让声音更加有特色。

现在，像高德地图里各个明星的声音，都是讯飞利用公开的语料自动合成的，效果已经可以做得非常自然。

在医学领域，很多患者、居民在听到语音服务时，也越来越要求声音更加个性化，而且具有关怀感。这就对语音合成的效果提出非常高的挑战。

这是在国际知名的Blizzard Challenge比赛里面，我们也是连续14年全球的冠军。

除了语音领域之外，讯飞医疗团队在其他一些医学领域的AI技术积累上，也一直保持领先的的状态，包括每年也会参加一些国际上知名的公开数据集测试，包括像LUNA、IDRiD，也包括像肝脏分割等等。

最后一部门，也是比较难的领域——认知智能的突破。

前段时间，获得图灵奖的LeCun，还有英特尔几位大咖，他们都表示，人工智能的未来，一定属于实现认知智能突破的机构和团队。讯飞很早加入这个领域，在自然语言理解、认知智能推理等领域，我们都有非常强的技术积累。

我觉得，认知智能在医学中的应用，有非常好的应用前景。医生进行临床学习时，要通过大量阅读医学文献，这给机器在知识图谱构建，还有自然语言理解的基础上带来挑战。如果有一些突破的话，对于构建辅助医生工作的虚拟助手，是一个非常好的技术积累。

基于上述的技术积累，我们才有可能在2017年通过这项考试。这件事对我们最大的帮助是，让我们看到人工智能在很多领域的巨大作用。

但是，我们依然认为，现有的人工智能还处于弱人工智能状态。

当然，这次医考也给了我们非常强的信心：基于现有的NLP技术，我们有可能去打造一个具备全科医生潜质的AI系统。

讯飞医疗在构建产品时的一个基本思路是，通过人机耦合的方式，一方面让机器承担更多的事务性工作，让医生把更多的时间留给需要人文关怀和专业知识的患者；

另一方面，我们让机器去学习、沉淀临床专家的知识，通过可计算的方法，去赋能基层医生。

因为今天的主题是讯飞医疗语音在医学，尤其是在疫情防控中的一些应用，所以我选了三个题。

过去4年，我们在医学语音交互与临床结合过程中，曾经探索过非常多的方向，有些方向沉淀下来，还有一些方向，我们认为可能是一些伪需求，或者是技术上还不可达的需求。

第一个，电话机器人。电话机器人可以归类到聊天机器人，从业务逻辑上看，电话机器人并不难，无非就是有一个人工智能的后台，可以自动响应居民、客户的问题。

如果是基于这样一个命题，我们去构建模型，很大概率会因为搜索空间的“爆炸”导致产品或者算法的不可解。

如果想把这个产品真正给居民服务的话，需要把这个题降维：

第一，先从呼出做起，不要考虑很复杂的呼入场景，因为呼入场景的问题非常开放。对于开放场景的聊天机器人来说，Siri或者是Cortana做的都不是特别好，最后有可能会答非所问。如果在医疗场景下进行这样的尝试，很可能会误导我们的患者。

所以，重新定义这个问题非常重要。

所以，我们做的第一个降维就是把“呼入”这个场景优化掉。因为“呼出”可以让机器人去主导聊天，让人类去做机械式响应。这样可以把问题的复杂度降到系统、算法、资源可达的程度。

第二、呼出覆盖哪一种场景？是做一个通用型的呼出，还是基于决策树的细分场景呼出，我们要考虑到哪些场景能够真正可行。

第二，居民在听的时候，不会轻易地挂断电话，所以我会结合这两个问题，带大家看一看，讯飞是如何进行选择的。

按照目前的实验方法，我们设计了一套大概能够覆盖80%业务的话术。医生在选择外呼服务之前，是通过话术模板来定义一个或n个推广方案，然后选择被随访的人群，剩下的事情由机器进行自动化地执行和并发执行，这也是我之前提到的人机耦合的方式。

人做人类擅长的部分，机器做机器擅长的部分，实现好用的同时，进而实现商业转化。

讲一讲在电话机器人这个领域里，我们需要关注的技术。

第一、语音合成。我之前提到，如果想做到好用，这里面，那么语言合成要尽可能自然、生动，这里可以用很多方法，可以用TTS的方法，然后调优，也可以用录音拼接的方式。我觉得这都不是绝对的，关键是看你最终要做成的产品，它所面对的场景是什么？

比如说一个简单的通知，你没有必要用TTS的方法去做，因为有可能自然度不高。如果是需要多轮对话、自定义字段比较多的话，用拼接方法可能就不经济。那么，应该考虑选择一个比较合适的TTS模型进行语音合成。

第二、需要考虑的是电话信道下的语音识别，考虑到成本问题，大家在选择外呼电话时，优选的话是基于 VIP的方式，但是它本身信号的采样率会非常低，会导致进行语音识别的原始音频信号是压缩的，可能会有大量损失。

对人来说没有太多的问题，因为人耳已经经过几万年进化，具有很强的容错能力，但是对于机器来讲，这样一种音频就找不到相应的边界；其次，相关算法不能适应这种高压缩的音频信号。

第三个就是语义理解，为什么这点非常重要？

做一些复杂场景的电话交流时，要考虑上下文。而且非常关键的问题在于接听的居民或者患者，对于同一个问题的回答，会有多种表述方式。比如问是否去过武汉？包括去过湖北，用户可能会说，好像是路过一下。

在这些情况下，要对不同的回答具备相应的语义理解能力。所以在制定电话机器人时，对于语义的理解和识别，要考虑针对不同的场景，如何做到高效的配置。对于企业来说，要考虑到每个产品或者模块的研发成本的，

第三个就是多轮对话，对于外呼场景来讲，这点可能还好。但是我们要考虑的问题是多轮对话的管理。此外，在这个过程中，如何去引导居民快速实现信息或者数据的获取。

总结下来，如果这些技术都能实现，我们就能做到更好的智能交互，根据用户的不同类型，选择不同的语音合成模型，也包括通过认知智能技术进行话术、语义的理解。

我也分享一点经验。早些年我们测试时，也用过播音员的语音合成模型，也用年轻或者年老的声音。

但是，真正在提供外呼服务时，我们给客户更多的选择，可以选根据不同的采访对象，选择不同的声音。比如，对于老年人，采用轻快的声音，他可能听不懂，因为老年人的反应跟理解能力会有欠缺。因此，第一，发音要慢。其次，受访者会有很多反问的场景，比如他说“没听清，你再说一遍。”

所以，后续在设计多人对话时，要多考虑这些问题，这是技术层面。解决了这些技术层面的问题，只是做了这件事情的第一步。从科研角度来看，这是没问题的。但是，如果把这样的技术变成产品推向市场，还有很多问题需要解决。

此外，对话可能会被打断、可能会被挂掉、有可能答非所问、有可能延迟，都有可能导致语音识别的错误，使得聊天没有更好的办法进行下去，我们要从功能还有产品的交互设计角度去考虑。

电话机器人一旦上线，就像核武器一样，它是个大规模杀伤性武器。

但是，如果你们没有和运营商或者电话标注的团队进行很好的合作，那么群呼号码可能会被标志成一个骚扰电话。即使你的技术做的再好、合成效果也很棒，但是变成了一个骚扰电话，这样依然没办法触达我们的客户。

另外，主管部门会考虑，当电话机器人具备上千次的并发量时，发布的内容要带有一定的责任感，尤其要避免违法违纪的信息。还想再提的一点是人机协同。人机协同主要是什么？就是说，即使现在机器人的能力已经很好，但是依然存在不能解决、不能回答的问题。

怎么办呢？最好的方法就是增加转人工的方式，遇到解决不了的问题，可以跳转到人工。比如说，方言的普通话的支持。基于我们全国几千万通的电话统计分析，如果机器人说的是普通话，接听人大部分也都会用普通话回答，但是很难避免带有口音的普通话。

这就需要你的系统，尤其是语音识别的引擎，支持多方言场景下的高效识别。

下面我简单列举一下我们之前做过的场景。

这是2018年的语音合成模型，声音听起来还是有些太正式，刚才是在基本公共卫生随访的场景下，大家能从实际录音中听出来，患者比较配合。

但是居民的回答情况有非常多不相关的内容，尤其是语音合成越好，这种情况就会越明显。我们的系统在识别语音之后要进行结果的提取。

这是我们从大年腊月27、28，就开始积极准备疫情防控的电话语音机器人。从1月份到疫情高发的2月底，我们的团队都没有休息，也保障了全国将近30个省和直辖市的智能疫情防控工作。

对于六大人群，尤其是返程人员、居家隔离、重点人群等，我们在非常短的时期内一共上线100多套话术。

为什么上线这么多话术？这也是我前面提到的，如何去降维这个过程。如果把所有的话术揉在一起，耦合的太紧，产品的设计、算法的设计会具有非常大的风险。不同的话术，对应的就是一个典型的应用场景。

在疫情之前，我们也一直在做常态化的应用，目前，与家庭医生签约、基本公共卫生相关的一些应用，我们可以覆盖80%以上、需要人类打电话完成的工作，我们有上百个话术模板。这些模板也可以供基层医生应用。

这是我们疫情提前应用的情况。截止上周末的数据，我们每周都会新增近100万的外呼量，也可以看到最近时间输入型疫情更多，从地图上能看出来。

像黑龙江、内蒙、新疆，是最近这段时间疫情电话活跃的地方。我们的平台在疫情期间承诺免费提供给客户，让机器人覆盖更多场景，帮助客户减少简单机械的劳动。

这个场景我讲的时间多一点，这是一个非常典型、综合的场景，包含了语音识别、语音合成、语义理解等多项技术。

现在，除了台湾省还有香港外，全国所有省份都在用我们的智能语音外呼服务。

智能医学语音录入

智能医学语音录入很好理解，相当于我们做了一个医学版本的语音输入法。

很多研究机构都做过相关的统计：医生在职业生涯里面，有80%以上的时间是进行医学文书的整理和录入工作。丁香园也做过一些调研，国内的一些住院医师每天要花4小时以上的时间写病历。

如何去降低医生的工作强度，提高文书的录入质量，这也是摆在各级医护人员面前的难题。

从逻辑和业务上，这个问题很好理解，做一个语音识别就好了。但是实际上在国内很多的地方，发达地区或好一些。但是在更多的情况下，全国中西部地区的很多医院还做不到。左边这张图是我们经常遇到的就诊场景，这种场景显而易见，不适合用语音录入。一是，无法保证隐私；二是，现场环境会有大量杂音录入系统。。

我们面对的第一个问题是，如何降噪，尤其在开放环境下如何去降噪。第二个问题，医学语音录入只能解决转写的问题，也就是“所说即所得”。但对于医生来说，他要的不是“所说即所得”。

例如，大家平时使用转写服务，会发现有很多废话，还有语气词、助词，这些词不适合直接写到专业的医学系统如电子病历里。

这就需要我们把与诊疗无关、不规范的表述进行调整。

这是我们最早做的一个场景，在口腔领域做语音电子病历。除了过滤闲聊的内容，系统还要做到医学专业表述的自动替换，像一些牙位图、计量单位、体征数据，都要转换成临床医生习惯、符合临床管理要求的文书。

因此，语音录入只解决了信号输入和转换的问题，真正要在临床上有价值，还是需要做语义理解。

第一步，解决降噪的问题。通用的方法大家都知道，做麦克风阵列，再加语义层面上的内容整理，我们做过很多版本，可以提一下我们新的应用模式：基于4G模块的麦克风即插即用，不用装任何软件，就可以实现类似于医学云的输入。

它可以应用于各种场景，麦克风除了降噪，还有很强的指向性，只收录医生的语音。

软件层面，在语音识别引擎里，讯飞输入法会把大量语气词进行优化，这是一个基本的解决方法。相对复杂的模式，基于我们的硬件和语音识别能力，我们可以多往前走一步，跟具体的业务系统结合起来。这就是我们早期在做门诊语音电子病历等事情的逻辑。

一开始做医学语音录入时，很多人的想法是我讲的简单的端到端方式。但是，做到一定程度之后，你会发现这种方式并不能完整解决用户的问题。除了病历本身所要具备的功能之外，这里有非常多的问题。

例如，语音识别出来的结果，怎么达到电子病历规范的管理要求。这里面有一个非常明显的例子：医生问患者，还有什么地方不舒服吗？

患者会说一些词不达意的话，怎么把患者的语言从医生声音里面剔出去。其次，怎么能够把医生录入的信息自动匹配到电子病历的具体位置上，比如哪些话应该录在主诉的位置，哪些话录入检验、检查，而且匹配到具体的位置，这需要与业务系统进行深度融合。

大家可能会想到一种方式，做接口就好了，这是一种方法。但是对于第三方的厂商，做电子病历比较厉害的，像嘉和还有其他大厂，他们的版本不容易为你的语音识别进行定制化改造。

因此，虽然你可以给他提供相应的API和接口，但是他们获取到的也只是前面提到的转写数据，对于这些厂商来讲，需要一个翻译的过程，就是把转写的东西匹配到具体位置，再上传到电子病历的具体位置。

基于我的经验来看，很多厂商做的并不是特别好。因此，就需要考虑自己做一套更适合语音的电子病历。

当你去基于我们的某种技术去解决一个具体的应用场景，一定要考虑，符合人工智能应用的数据如何整理、采集、呈现？

为什么我们会做一个相对完整版的语音电子病历？因为识别之后，怎么把这些信息上传到病历里，这里有非常多的细节，需要我们在应用过程中打磨。

这是另外一个场景，把语音识别匹配到一个超声报告的具体位置上。例如，产科医生在检查时，并不会按照报告模板上的位置来写，他可能先看到胎心，也会先写羊水深度。

因此，我们就要自动去匹配相关的位置，然后填到相应的模板里去。

前面讲了通用场景下的语音识别和转写，包括把语音识别转写的结果和一些具体的应用系统融合的解决方案。这次疫情期间，我们也给一线医生带来一些简便的应用，帮助他们减少医学文书工作。

左边是在武汉的某一家方舱医院应用场景，右边是湖北另一家医院影像科医生写报告的场景。

方舱医院隔离点智能管理

基于我们的移动医生护理系统，我们做了一个轻量版的应用，帮助各级方舱医院的医生去进行更好的管理。

患者从医院出院之后，要到方舱医院隔离14天，如果检测结果呈阴性，还要回到家中再康复14天。按照疫情管理的规范，临床医生需要从头到尾管理患者的健康。

这就给医护人员带来非常多的工作量，每天需要去看一下患者在家隔离的数据。基于这样的场景，我们拿相对成熟的云医生的移动医护助理，然后改成一个康复智能护航系统，主要就是为了解决移动查房，包括患者体征数据手机和健康宣教。

目前，这个产品覆盖湖北全省17个地市，539个隔离监测点。医生要给居民下达一些健康处方、医嘱，可以用语音的方式录入。患者上报体征，也可以用语音录入。

最后提两个其他应用，一个是在全国近百个区县做的基于医学认知的基层全科CDSS系统，这也是讯飞医疗非常重要的一个方向，我们坚信人工智能具备全科医生的潜质，对于国家医改、提升全民健康素养是非常重要的。

这次疫情中，我们也发现很多基层医疗机构，因为缺乏必要的检查工具，也缺乏新冠肺炎临床诊疗指南的能力。除了冲在一线的医生，基层的医疗力量没有最大化。

在疫情爆发前，我们的智医助理就按照临床指南上线了这种新冠肺炎的诊断模型，让几百名医生具备早期筛查新冠肺炎的能力。

除了提高诊断的合理率之外，还可以从源头上去规范电子病历，提高临床数据质量。

这是我们医学多模态和多场景下的语音工具在全国的应用情况。目前北、上、广还有浙江一些顶级医院在应用，也非常欢迎大家通过我们这个平台，一起去为客户打造更好的医疗AI应用。

这就是今天我分享的主要内容，谢谢大家。雷锋网

。

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/73709.html

讯飞医疗刘洋：“简单粗暴”的AI系统已成为过去

讯飞的技术积累

智能医学语音录入

方舱医院隔离点智能管理

相关推荐

发表回复