独家专访:5个小组,只有一个女黑客,他们居然要模仿妲己?|极棒 AI 仿声攻防赛

10月23日,2017年极棒大赛举办的前一天,一个 H5 悄无声息地在朋友圈上线了,这个 H5 可以让玩家上传自己的声音与妲己、武则天、诸葛亮等人的声音比对,给出比对结果。

独家专访:5个小组,只有一个女黑客,他们居然要模仿妲己?|极棒 AI 仿声攻防赛

宅客频道中了这个套路,在模仿一个角色的声音中,相似度达到了94%,于是迅速转发了PK 结果,并在酒店里自嗨了很久,觉得要再模仿几次突破自己。室友编辑小田迅速关上了房门和窗子,紧张地问了句:如果隔音不好,别人不会以为我们在干什么不可描述的事情吧?

是的,编辑在模仿妲己说的这句台词:“主人,我能为你做点什么?”然后又变身武则天,瞬间霸气上身,俨然精分的深井冰。

终于,编辑和妲己达到了 97 %的相似度,有种分分钟要迷倒纣王的良好感觉。万万没想到,后来朋友圈里出现了 99 %的相似者,还不止一个。

我不服!

10月24日,极棒大会一个工作人员告诉宅客,因为是一个H5,所以声音比对没那么严格,采用了微信后端的技术。要看真的比对PK,你还是看极棒上的五组选手实打实的比赛吧。

独家专访:5个小组,只有一个女黑客,他们居然要模仿妲己?|极棒 AI 仿声攻防赛 

五组选手霸气开战

10月24日,极棒大赛的仿声项目中,五组一共十几个选手,只有一个组有唯一一个妹子,居然要模仿妲己?

当然,他们不止模仿妲己。

赛制是这样的:

选手预先得到被模仿人物的录音文件并从中学习语音特征,每个队的攻破目标4个,前一天队伍拿到其中2个人物的语料训练内容(该内容只做训练用,不在现场给出的正式比赛语音物料中),进行一个小时的调试,并提交技术报告。决赛时间20分钟,组委对不同设备指定不同内容,选手分别合成语音,如果合成的语音被设备误认为是被模仿人物,则攻破成功。至少攻破一个设备的队伍有资格获奖,以被攻破数量进行排名,数量相同则用时少的队伍获胜。

因为现场蓝牙通讯干扰很大,导致POS机项目组选手第一次挑战破解失败。一位工作人员特地来到雷锋网所在的媒体区告诉大家,跟上述项目一样残酷的是,现场有上百号观众,而选手们要避开嗡嗡的杂音,读取指定的剩下2个被模仿人物的原声。

如果原声读取有问题,势必影响接下来的比赛。

独家专访:5个小组,只有一个女黑客,他们居然要模仿妲己?|极棒 AI 仿声攻防赛

雷锋网(公众号:雷锋网)了解到,这个原声样本中,有两句妲己的为比赛特别录制的声音,另外两句是评委徐昊的声音。剩余17分11秒时,一个队伍(左起第一组)已经率先亮起了两盏灯,这意味着他已经攻破了两个目标。

这位选手,你可是一个人作战的蓝孩子啊!

还剩13分05秒时,包含一个女选手的队伍smartparrot (左起第三组)也亮起了一盏灯。还剩下9分04秒时,左起第四组和第五组选手开始亮灯,第五组亮了两个灯。剩余6分20秒时,第五组亮起了第三盏灯。

只要第五组率先亮起最后一盏灯,他们就赢了!

懂套路的主办方立马切入了第一组(2灯)和第五组(3灯)选手的对比实时PK 视频,第一组(神牛gogo)选手紧张地回了下头。

独家专访:5个小组,只有一个女黑客,他们居然要模仿妲己?|极棒 AI 仿声攻防赛

剩余 57秒时,战局没有变化。

比赛结束时,第五组(清晨李唐王)获胜,达成了三个目标!

独家专访:5个小组,只有一个女黑客,他们居然要模仿妲己?|极棒 AI 仿声攻防赛

现场评委称,有几个仿声攻击方式:人模仿(技艺精湛的配音人员可以做到)、语音合成(相对比较容易抓包)、语音转换(比合成难防,相对比较难)、录音。

“清晨李唐王”中的黄雨晨和王木均来自清华大学,他们告诉雷锋网,赛前收到了妲己的一条语音测试数据,另外一条测试数据是“评委随便说的一句话”。在此次比赛中,“清晨李唐王”成功破解了两句妲己的原声以及一条徐昊录制的智能音箱的开机语,另一条徐昊录制的语音“更上一层楼”没有被“破解”。

 

夺冠者与评委独家揭秘

雷锋网宅客频道独家采访了冠军队伍中的黄雨晨、王木以及极棒该项目的一位评委郑方。有意思的是,郑方也在清华大学任语音和语言技术中心主任,同时是北京得意音通公司的董事长。该公司两个月前发布了一款声纹识别门锁新品,为的就是防黑客。

独家专访:5个小组,只有一个女黑客,他们居然要模仿妲己?|极棒 AI 仿声攻防赛

[王木(左)、黄雨晨(右)]

但这却是郑方和获胜队伍的第一次正式见面,黄雨晨和王木甚至不知道得意音通在两个月前的清华某礼堂内举办过发布会。

黄雨晨和王木隶属于清华的深圳研究所,两人专注的方向都是语音合成,不太涉及声纹识别领域,不过,“清晨李唐王”在赛前准备了两种语音仿制模式的三个模型,分别为拼接合成和参数合成。

让郑方出乎意料的是,他在赛前一天曾预判过所有的选手的破解模式,本来以为拼接合成会更容易让选手达到目标,仿真成功,没有想到,促使“清晨李唐王”达到三个目标的却是参数合成模式。

“其实拼接合成模式合成出来的语音也不错,但是通过外放设备放出来时效果不对了,与设备有关。” 黄雨晨介绍。

王木解释:“拼接是用原声的声纹,做出来的语音会一模一样,参数模式更难,需要‘打补丁’,音色可能不一样,需要看原声语调和参数模型,所以做起来还挺难的。”

得意音通之前的发布会上也曾上演过单纯的最难防的录音攻击,当时智能门禁曾成功识别到底是用户的真人声音还是录音。

雷锋网提出,为什么此次比赛中没有选手直接使用原声的录音,甚至直接使用原声再次录音版进行攻击?郑方认为,恰恰这最简单的攻击方法,却是最有效的攻击手段,也是最难防的,不过在此次比赛中,默认没有防的措施,以及没有录音检测措施。

另一位获得第三名的团队的选手称,录播的话,在现场杂音如此大的情况下,就算把现场主办方给的录音再转录一遍,声纹图像和原来差距会很大。

雷锋网提出一个终极疑问:“虽然你们和评委徐昊不熟,你们没玩过王者荣耀吗?为什么你们不拿妲己的声音训练?”两位诚实的选手表示,绝不能作弊违反规则。

两位选手还称,在现实生活中,只要没有针对录音攻击的防范措施,跟踪一个声纹识别的用户,录制其半个小时的语料,并了解用户开声纹锁的汉字密码,这种攻击方式可以复现。

不过,郑方称,还好他家生产的门锁有应对这种录音攻击的方式,并在几年前就针对现场选手的一些攻击方式进行了防范。

郑方介绍,应对这类攻击,无论合成还是转换,仿真语音和原声在连贯性(时域、频谱)上均有区别,现场演示的其实都算录音攻击,声纹、信号会被破坏,波形图有肉眼看不见但机器能识别的区别。

看来,道高一尺、魔高一丈,到底在现实生活中,能否成功实现此类攻击,完全取决于攻防双方是不是都是上述级别的对手。

注:GeekPwn由国内顶尖信息安全团队碁震(KEEN)于2014年发起并主办,至今已成功举办三年。

原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/110449.html

(0)
上一篇 2021年8月26日 16:14
下一篇 2021年8月26日 16:14

相关推荐

发表回复

登录后才能评论