字幕组双语原文:MIDAS简介:图形异常检测的最新模型
英语原文:MIDAS: A State-of-the-Art Model for Anomaly Detection in Graphs
翻译:雷锋字幕组(yhfwww)
在机器学习中,诸如自动车辆、GANs和人脸识别等热门话题常常占据媒体的大部分注意力。然而,数据科学家正在努力解决的另一个同样重要的问题—-异常检测。从网络安全到金融欺诈,异常检测有助于保护企业、个人和在线社区。为了帮助改进异常检测,研究人员开发了一种称为 MIDAS 的新方法。
什么是MIDAS?
在新加坡国立大学,博士生Siddharth Bhatia和他的团队开发了 MIDAS ,这是一种新的异常检测方法,在速度和精确度上都优于基线方法。
MIDAS是基于微聚类的边缘(Edge)流异常检测器。顾名思义,MIDAS 可以检测到微聚类异常或突然出现的一组可疑的相似边缘。MIDAS 的一个主要优点是它能够实时检测这些异常,其速度比现有的最先进的模型快很多倍。
图中异常检测的实际用例
简单地说,异常检测是一种寻找模式或异常值的实践,这些模式或异常值偏离了您期望在数据集中看到的内容。它可以帮助我们发现和消除有害内容。Siddharth说:“图的异常检测是在无数系统中发现可疑行为的关键问题,其中一些系统包括入侵检测、虚假评级和财务欺诈。“
这项技术可以帮助Twitter和Facebook等社交网络检测用于垃圾邮件和网络钓鱼的虚假个人资料。它甚至可以用来帮助调查人员识别网上性侵犯者。Siddharth说:“使用MIDAS,我们可以在动态(时间演化)图中找到不规则的边和节点。在Twitter和Facebook中,tweet和message网络可以看作是一个时间演化的图,我们可以通过发现这些图中的异常边和节点来发现恶意消息和伪造的概要文件。”
异常检测的一些其他常见用例包括:
-
垃圾邮件过滤器
-
信用卡欺诈检测
-
数据集预处理
-
网络安全
-
社交媒体
-
内容适当检测
MIDAS优于最先进的方法
Siddharth说:“异常检测是一个经过充分研究的问题,大多数建议的方法都集中在静态图上。然而,许多真实世界的图形本质上是动态的,基于静态连接的方法可能会忽略图形和异常的时间特性。“
MIDAS解决了实时检测异常的需要,以便尽快开始恢复并减少恶意活动(如欺诈性信用卡购买)的影响。
Siddharth解释:"此外,由于顶点的数目会随着边流的处理而增加,因此我们需要一种在图大小上使用恒定内存的算法。此外,许多应用程序中的欺诈或异常事件发生在微群集或突然到达的可疑相似边缘组中,例如网络流量数据中的拒绝服务攻击和锁步行为。"
Siddharth说:“通过使用原则性的假设检验框架,MIDAS提供了假阳性概率的理论界限,而早期的方法没有提供这种界限。”
MIDAS是如何测试的?
Siddharth和他的同事展示了MIDAS在社会网络安全和入侵检测任务中的潜力。
他们使用以下数据集进行异常检测:
-
Darpa入侵检测(450万IP-IP通信)
-
Twitter安全数据集(2014年260万条与安全事件相关的推文)
-
Twitter世界杯数据集(2014年足球世界杯期间170万条推文)
为了比较MIDAS的性能,团队查看了以下基线:
-
RHSS
-
SEDANSPOT
然而,由于RHSS在Darpa数据集上的AUC测量值较低,为0.17,研究小组通过与SEDANSPOT的比较来测量准确性、运行时间和实际有效性。
结果
MIDAS检测微聚类异常的准确率高达48%,比当前的基线方法快644倍。
Siddharth说:“我们的实验结果表明,MIDAS的准确率(在AUC方面)比基线方法高出42%-48%,此外,MIDAS处理数据的速度比基线方法快162-644倍。“
改进MIDAS:未来的工作
“我们已经将MIDAS扩展到M-Stream:快速流多方面组异常检测,”Siddharth说。“在M-Stream中,我们检测具有分类属性和数值属性的多方面数据的异常。”
Siddharth和他的团队说,M-Stream在精确度和运行时间方面也优于一些基线,包括流行的Sklearn算法,如隔离林和局部离群因子。然而,他们在M-Stream上的工作目前正在审查中。
“考虑到MIDAS的性能,我们认为它将成为一种新的基线方法,对异常检测非常有用,”Siddharth说。“此外,探索MIDAS如何在其他应用程序中发挥作用也很有趣。”
如果你有兴趣了解更多关于迈达斯的知识,请查阅Siddharth的论文。您也可以在Github上下载代码和数据集。
雷锋字幕组是一个由 AI 爱好者组成的翻译团队,汇聚五百多位志愿者的力量,分享最新的海外AI资讯,交流关于人工智能技术领域的行业变革与技术创新的见解。
团队成员有大数据专家、算法工程师、图像处理工程师、产品经理、产品运营、IT咨询人、在校师生;志愿者们来自IBM、AVL、Adobe、阿里、百度等知名企业,北大、清华、港大、中科院、南卡罗莱纳大学、早稻田大学等海内外高校研究所。
如果,你也是位热爱分享的AI爱好者。欢迎与雷锋字幕组一起,学习新知,分享成长。
雷锋网雷锋网(公众号:雷锋网)
雷锋网版权文章,未经授权禁止转载。详情见。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/138461.html