雷锋网按,车联网已经成为了国内外新一轮科技创新和产业发展的必争之地。
其中,经过多年的渐进式发展,车内的语音交互正在从单纯的“控制方式”向“智能连接”进化,并且已经成为了现阶段人机交互最主要的方式之一。
从很大程度上来说,在智能网联时代来临之际,谁抢占了车内语音交互的高峰,谁就抢占了多模态交互,甚至是智能座舱的关键入口。
作为国内首批进入车联网领域的对话式 AI 平台公司,思必驰也一直在这一方面发力,并且推出了 AIOS 对话操作系统、天琴车载语音助手。
基于思必驰全链路语音交互技术,思必驰近日推出了智能车联网解决方案 3.0,为汽车终端产品提供语音交互的能力。
更重要的是,思必驰由此正式向前装市场迈出了具有意义性的一步。
个性化技术+DUI云平台
一般来说,车载环境复杂,车载语音交互面临着车内外严重的噪音问题,而噪音问题会大大降低语音识别的能力。语音识别之后,语音交互系统又面临着语义理解的问题,尤其是在多轮对话的情境下。
这些都是现阶段车载语音交互最大的痛点。
正如思必驰副总裁、车联网事业部总经理雷雄国指出的那样,就现阶段而言,主机厂对于车端产品的需求有 80% 是一致的,即语音识别率要准、语义理解要对、响应速度要快;剩下 20% 的需求与其他个性化技术相关。
不过,机器学习经过多年的发展,成熟度已经大大提升,语音交互的唤醒率、识别率和响应速度都有了客观的改进。
雷雄国向雷锋网新智驾介绍道:
思必驰语音技术的唤醒率已达98%,识别率大于97%(带噪音),语义理解准确率达98%;这些成绩在业内都属于第一梯队的水平。
在上述痛点已经得到了较大缓解的情况下,个性化语音技术也越来越受到主机厂的关注。毕竟,当下车市不振,在同质化的产品体验中打造出差异化的功能可以在一定程度上为主机厂提升竞争力。
这一方面,思必驰这次发布的智能车联网解决方案 3.0 也有相关创新:
-
全双工语音技术:实现基于语义打断的全双工交互技术,机器与人可以在无唤醒情况下进行持续交互,且无关的语言不会影响任务型对话的正常继续。
-
TTS 声音复刻:用户根据固定的某些文本进行朗读和录制,经过短时间的训练后,可以合成一个与自己相似的 TTS 音色,增加语音交互的趣味性。
-
声纹识别:具备声纹离线自学习技术;具备多说话人分割技术,可在对话过程中在线识别多个用户身份。
具体落地方面,北汽 X7 近日首发思必驰的声纹识别技术,这项技术可在对话过程中在线识别多个用户身份,并且为不同的用户提供定制化的服务推送。此外,思必驰还与小鹏汽车 P7 开展了基于全双工技术的合作;与斑马开展了 TTS 复刻技术合作;与东风汽车基于多音区声源定位展开合作。
除了技术方面的改进,思必驰的智能车联网解决方案 3.0 还为主机厂提供了 DUI 云平台服务,支持私有化部署和个性化开发,提升用户营运效率。而且,智能车载终端形态也可根据车企的实际场景来实现超高度定制。
六年的“前装梦”得以实现
在外界看来,汽车后装市场一直是思必驰的重心所在。
事实上,早在 2014,思必驰就已经做了调研并且定下了向前装市场进军的目标。不过,这个目标对技术有着极高的要求,还要考虑用户规模、产品性能等各种因素,所以,思必驰一直在慢慢积累。
如今,以后装的思路切入汽车市场的思必驰开始向前装转型。
经过多年的发展,思必驰的语音技术已经集成到了不同品牌的芯片/硬件设备中,机器学习的成熟度也越来越高,覆盖了许多场景,适应了各种口音。
可以说,思必驰已经基本解决了因硬件设备不同而导致的语音体验不同的问题,由此,产品的性能和体验也有了一定的保障。这为思必驰向前装市场跃进打下了坚实的基础。
另一方面,经过在汽车后装市场的打拼,思必驰的市场占有率不断提升,用户规模也越来越大,目前已经累计激活的车载终端数近 3000 万台。
雷雄国表示,思必驰真正开始进入前装市场是2018年,当时,思必驰与惠州华阳通用电子达成战略合作,第一个项目是与长城合作,项目落地在哈弗 F7 车型上。
他说道:“长城哈弗F7的成功量产,意味着前装客户对思必驰技术的认可,这是非常重要的。而且,到了今年,思必驰的语音技术已经占据了后装市场70%的份额,量产车型超过60款、累计汽车激活量达到百万台,无论是覆盖的主机厂及tier1,还是汽车激活的数量,都已经积累到了一定的规模。”
再加上目前国家对智能网联汽车和车联网的大力支持,思必驰在前装市场有了充分的信心。
如今,随着思必驰智能车联网解决方案 3.0 的诞生,思必驰实现了单点功能到整体方案商的升级。
此外,最新的3.0方案不仅支持中文版,还提供包括英语、日语、俄罗斯语等 10 多个语种的后海外版,且海外版的后装市场已经实现量产。前装方面正在与一带一路出口业务相关的主机厂合作。
一场三方之间的博弈
思必驰发布了自己的车联网整体解决方案,这也意味着更激烈的竞争。
除了传统的语音科技公司,思必驰还面临着许多“外敌”。不少互联网巨头已经在智能车载语音领域布局,并且凭借着资金实力和大数据优势迅速抢占市场。
以百度为例,早在 2010 年百度就将智能语音作为战略方向,百度的语音技术已经形成从模型算法、开发组件、场景覆盖到行业应用的全链条,并推出了 DuerOS,定位为“能真正听清、听懂、满足用户需求的人工智能对话系统”。
除了百度、腾讯阿里也都在车载语音领域排兵布阵。其中,阿里旗下的斑马智行推出的 VENUS 系统得到了思必驰语音技术的支持。思必驰最新的TTS复刻技术也在VENUS系统上首发。
在生态链接方面,思必驰似乎面临着挑战。不过,就目前车联网的发展现状来看,信息娱乐系统不再是车联网生态的唯一。
思必驰也已经着手打造车机、手机、智能家居三网融合的车联网生态。据了解,思必驰的 DUI 云平台现在已经接入了 8000 万台 IOT 设备,其中不乏海尔、海信之类的家居大厂。
而且,语音技术提供商在与 BAT 的竞争中也不是完全没有优势。雷雄国在接受雷锋网(公众号:雷锋网)新智驾采访时说道:
我们开放度更高,举个例子,我们现在与一些主机厂合作,数据、账号、运营权限基本上全部实现共享了。这样可以打消主机厂的一些顾虑。
另一方面,对于打入前装市场的思必驰来说,合作模式也发生了变化。雷雄国强调:
做前装可以进一步扩大思必驰的市场份额,但它和做后装十分不同。做后装只要不出现大问题就能够吃一波红利,合作模式基本上就是跟工厂老板谈,谈好了就快速出量。但前装不一样,前装从商务接触定点到交付 SOP,再到大批量生产,这是一个很漫长的周期,可能需要花费2-3 年,中途各个环节还要进行各种检查和测试,要对产品精心打磨。
他补充道,做前装除了主机厂外,还要与 Tier 1 深度合作,目前,思必驰已经与包括博泰、德赛西威、航盛、华阳、伟世通、斑马网络、仙豆智能等绝大多数达成了合作。
多模态交互的未来
无论是汽车的前装市场还是后装市场,智能语音技术的发展前景的可见一斑。
相比起现阶段一些车型的大卖点——车载大屏,智能语音技术在更大程度上解放了人们的双眼和双手,也提供了更高的安全保障。
不仅如此,汽车内的语音技术开始向信息娱乐开始向其他功能和场景蔓延,比如思必驰这次发布的解决方案就支持一些整车控制的功能,比如调整车窗和座椅等;场景方面,该解决方案可以通过语音技术与智能家居相连。
汽车内基于视觉和手势等信息的交互方式也在开始生根发芽,比如基于视觉交互的驾驶员监控系统 DMS,可以感知驾驶舱内人员的状态,比如疲劳驾驶、注意力不集中、驾驶行为不规范(抽烟、打电话等)。比如科大讯飞的飞鱼 OS 就已经强化了视觉交互功能。
无论是上述的哪种交互方式都不难看出,汽车人机交互已经从单调的触摸模式开始向语音、视觉、手势等多模态交互散发。而且,多模态交互已初具量产条件,国内也有了几款量产搭载 DMS 的车型。
多模态交互也是思必驰今年在车联网领域的关键词之一。
尽管思必驰智能车联网解决方案目前只集成了语音交互和人脸识别,但雷雄国指出,该解决方案的下一个迭代版本预计在今年年底发布,届时,多模态交互的特征会得到进一步的体现。
不过,作为人工智能成熟度最高的技术之一,语音交互虽然得到了长足的发展,并且得到了诸多巨头的青睐,但客观来讲,这种车内交互方式远没有达到“普及”的程度。
总而言之,作为多模态交互最重要的组成部分,语音交互尚且处在初步的发展阶段,更不用说视觉、手势等其他交互方式了。如果想要进入理想的智能驾舱多模态交互时代,还有许多难题要去攻破。
。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/133460.html