你滴鹅几在我手上,嫖娼被抓的,你看要不要打点关系疏通一下?
好的,请你转告他,本爸爸不要他了。
这个不好玩?再来一个:
【图片来源:山东商报】
虽然,面临骗子的短信和诈骗电话,搞一出“反调戏”看上去大快人心,但是像雷锋网宅客频道编辑这种被人怼了,十分钟之后才能想出怼回去的话的人,要想出如此机智回复,实在有心无力。还有那些可能连骗局都无法识破的人,他们如何面对套路深的世界?
还好,想必你以前体验过,手机可能会自带一款软件或者你安装了一些软件,可以自动识别一些电信诈骗电话。
为什么一个陌生来电能被这些软件识破?雷锋网特地请教了国务院联席办钱盾反诈平台的专家——阿里巴巴集团安全部的两位安全工程师:李裕宏和侯冬梅。
[李裕宏和侯冬梅]
李裕宏擅长进行时间序列的数据挖掘,比如股票、心电图以及走路的轨迹等,当年,他曾开创一个算法模式比国外的大拿教授的模式提速了10-1000倍。在微软研究院实习时,又进行过位置和轨迹的相关研究。
侯冬梅则对数据应用、大数据及机器学习感兴趣,目前负责欺诈电话的相关数据及算法研究。
他们对三个月内的 10 亿通电话进行了研究,共同产出的恶意电话识别论文“DeMalC: A Feature-rich Machine Learning Framework for Malicious Call Detection” 被机器学习的顶级会议CIKM 2017收录,2017年工业界能被这个会议收录的论文在全球范围内仅有 24 篇。
雷锋网编辑在 8 月底提前阅读了这篇本该在11月发布的论文,发现两人提出了 11 个能够辨别一个陌生来电是否为恶意电话的维度。出于保密及降低对抗几率的缘故,李裕宏和侯冬梅在此只介绍了 7个维度。
发现“骗子”的 7 个指标
为了防止恶意号码的侵扰,一般有两类方案:基于用户打标的黑名单;利用机器学习算法对号码进行风险打分。
第一种方案需要全民安装反欺诈软件,且及时、准确地汇报恶意号码的标签;第二种方案则需要系统能够抽取一堆具有区分度的特征用于模型的训练。
李裕宏和侯冬梅认为,因为数据缺失且不均衡、有限且懒散的用户,以及不可信任的用户标签、无时不在的对抗,恶意号码的检测依然具有非常大的挑战性。
因此,他们在该论文中提出了一个 DeMalC 系统,对恶意号码进行检测。DeMalC系统主要包含两步:第一,利用特征工程对号码进行多维度、全方位的画像;第二,基于号码画像,利用机器学习的算法计算每个号码的风险分,最终给出号码的标签建议。
用通俗的话来说,就是先找出一个嫌疑人,然后再与一些证据进行比对,判断嫌疑人是否为真的“罪犯”。
机器学习算法取得成功的一个重要因素就是挑选出来的特征在正负样本中具有足够的区分度,因此, 在 DeMalC 系统中,李裕宏和侯冬梅提取了号码的 7 大维度的特征,包括号码属性、通话频次、通话时长、号码活跃度、空间分布、设备分布以及历史通话号码间的社交关系。
1.号码属性有三部分:类型、运营商、归属地,属性本身不会随着号码发生变化。但是,属性可以把号码切成很多空间,比如,北京的固话,是哪个运营商的(运营商不止是三大运营商)。电话号码可以分成一小块一小块的,每一小块的欺诈的方式可能都不大一样。
2.一个号码在过去三个月呼入呼出的频次,还有呼入呼出的比例。
李裕宏说:“呼入或呼出的单一比例占比特别大,可能是个问题。第一,可能这个电话号码是放在恶意网页上,诱骗人们拨打,这样呼入比例特别高;第二,主动实施电信诈骗的呼出率比较高。”
3.一个电话打进来,你有没有接通代表了你的态度,通话时长更代表你对这个电话的态度。
按照雷锋网编辑的个人经历,陌生电话打进来,如果是推销,或者一听就是匪夷所思的电话,一般会立马挂掉。
据李裕宏介绍,一个让人哭笑不得的案例是,据说,电信诈骗人员手中也有一份名录,如果一个诈骗电话打进来,你接了很久还舍不得放下,那么接下来你收到诈骗电话的几率更高——骗子觉得,接到电信诈骗电话后,通话时间更长的用户更是潜在受害者。
叫你喜欢唠嗑。
4.号码活跃度。一个正常号码每天拨打频率不会太高,如果一些号码利用率很高,看上去又是正常号码,就需要根据其它维度区分。比如,外卖、推销小哥打电话的频率很高,还有腻歪的异地恋小情侣。
5. 一个号码拨打过多少城市也是特征之一。拨打到这些城市后,在这些城市的分布是怎样的?比如,一个号码拨打了全国 33 个城市,但在这些城市的拨打次数平均分布,与拨打了 33 个城市,但是集中在北京,这两种情况是不一样的。
6. 呼叫了 100 通电话,拨打给一个设备和拨打给一百个设备是不一样的,记录设备的 ID,研究到底一个号码给多少不同设备拨打了电话。
7. 一个号码拨打给几个人,但是,这几个人之间没有任何关系,这不是很奇怪吗?所以,需要指标计算这个号码拨打出去的设备之间联系强不强。
侯冬梅称,在此基础上,一些用户通过软件反馈,给陌生来电贴上标签,以及收集合作方提供的数据和标签,建立一个分类器,对尚未打标签的号码进行标记,然后就可以对一些陌生来电进行在线甄别,推送提醒。
以钱盾的内部系统为例,此前举报三次后,才能认定这个号码是一个欺诈号码,现在只要到接入到这个模型,可能用户举报一次,这个模型又判断它是高风险号码,就可以给用户推送提醒,不需要再等用户打足够多与精准的标签。
这样解释看上去很简单,但还是有一股脑的问题需要回答。
怎样不会误判
雷锋网(公众号:雷锋网):有人给长相打分,而你们根据七个维度给这个号码打分?
李裕宏:会的,我们根据这七个纬度的特征对用户的风险程度打分,打了分以后,我们会再结合用户的举报次数。因为我们的用户是不能覆盖全中国,而且用户有一定惰性,你接到欺诈号码,不一定愿意帮我们举报。
实际上,我们正在做这方面的激励机制,让用户更好地参与到这个过程来,帮我们做恶意号码的举报,但是这块还是有一定局限性,用户本身有一定延迟,甚至有一些人不愿意举报。比如,这个号码现在只收集到一个用户的打标,用户只举报了一次,我们不是很确定地说他举报的是不是真的电话诈骗号码。因为又一些意外的情况:今天有个朋友打电话给你,你对他有点不爽(雷锋网编辑注:尤其是正在生气的女朋友,可能一言不合就举报拉黑),或者运营商打电话给你,干扰了你,你可能会用工具打标成欺诈号码。
我们结合号码行为的打分情况,做一个综合模型,这样,可以让标注情况提早生效。
雷锋网:你们会不会误伤外卖小哥这类人群,人家每天都要给很多人打电话,他们共同的联系可能只有“懒”吧?
李裕宏:外卖小哥在中午、傍晚、深夜等时段打电话的频率较高,这是他“固定”打电话的一个方法,我们会根据这个特别的曲线来刻画和区分。
雷锋网:你们还有什么辅助措施可以防止误判吗?
侯冬梅:欺诈方面的数据和我们的电商数据重合度确实不是特别高,但是信用好的用户是重合度蛮高的,这样我们就不会拦截。
李裕宏:电商行业的数据某种程度上能帮我们更好地提供服务,因为我们有很大的用户量,他们在电商上的行为我们都知道,某种程度上我们可以刻画哪些人是好人,但是坏人有很多种,这个比较难区分。
雷锋网:钱盾对于用户只是提醒吗?能灭了这个电话吗?
侯冬梅:确定在诈骗的黑名单上,我们是直接拦截的,没有犯过案、没有给用户造成过伤害的一些骚扰电话,我们则是提醒。如果用户设置了拦截骚扰,我们也是直接拦截的。
雷锋网:道高一尺,魔高一丈,你们这么拦截,电诈就没什么对抗措施吗?
侯冬梅:对抗的方式有很多,比如说现在的改号软件,现在我们这个模型没有办法去对抗,但是我们也有一些专门的安全团队进行对抗,包括 IP 或者是修改设备号,或者是试图修改设备号,我们有专门的方法。
一个有趣的拉黑故事
雷锋网:你自己有接到过电信诈骗电话吗?
李裕宏:有的,有次我和同事买了同一批打折的东西,结果接到了同一个诈骗电话。
雷锋网:那你是怎么处理的?
李裕宏:我很兴奋地跟他聊了好久,因为我就是做这个事的,我很想知道他欺诈的手段,也想看看我们钱盾在未来有没有可能把它检测出来。
雷锋网:当时还没有检测到?
李裕宏:这个号码是刚用来做的,所以我们把这个模型结合上用户的打标,我们想更快的让这个号码生效,如果我们一直在等着用户打标的话,可能得过三四个礼拜。如果结合他的行为、用户的举报可能就能生效了,所以我当时一直在看欺诈的模式,我们系统内部可以追踪到这个号码,也可以进一步确认。
雷锋网:这个号码最后怎么样?
李裕宏:我举报他了。
雷锋网:但你只是一个人。
李裕宏:我只是一个人举报他,之前不是说我们内部也有一个同事收到同一个电话了嘛,他也举报了。
雷锋网:你们只有两个人,按道理要打标三次才符合模型嘛……
李裕宏:那我直接把它拖到数据库吧哈哈哈哈。
。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/109676.html