联合编译:章敏,高斐
导读:KDD2016是首屈一指的跨学科会议,它聚集了数据科学,数据挖掘,知识发现,大规模数据分析和大数据方面的研究人员和从业人员。文章结尾附论文原文网盘下载链接
2016 SIGKDD Test of Time Award
本奖项颁给过去十年KDD会议中,已经在数据挖掘研究界产生重要影响杰出论文的作者。
获奖者:
Jure Leskovec (Stanford) ;
Jon Kleinberg (Cornell University)
Christos Faloutsos (Carnegie Mellon University)
意义:本文在现实世界的图形和网络随着时间推移,如何增长并发展方面提出了新的发现。这些发现从根本上塑造了我们对于现实世界网络的演变和增长的理解,并在许多领域刺激出了丰富的在线测量、建模结构和网络进化方面的研究。
本文研究了一些不断发展的现实世界网络,并确定了两个网络增长的法则:(1)致密化幂律(the Densification Power Law),和(2)缩径原理(the Shrinking Diameter Principle)。致密化幂律发现,在网络中边缘的数目的增长是网络中节点的数目增长的动力(例如,两倍数目的节点,三倍数目的边缘)。缩径原理发现,网络的直径通常会随着网络中节点的数量而收缩。这两个发现被提出时,与我们所认为的网络演变有着本质的不同:传统的认知是,随着时间的推移,平均度保持不变,网络直径慢慢随着节点的数量而增长。
目前没有网络进化模型能够捕捉到所观察到的经验模式,因此本文同样提出了一系列的网络增长模型,包括“Forest Fire”模型,它生成的图形展示出了致密化幂律,收缩直径,以及其他基本的图形属性,包括强大的聚类和倾斜度分布。
获奖论文:图表随着时间的推移:致密化幂律,收缩的直径和可能的解释(Graphs over Time: Densification Laws, Shrinking Diameters and Possible Explanations(KDD 2005))
摘要:真实图表如何随着时间的推移而发展?在社会,技术和信息网络中,什么是“正常”的增长模式?许多研究已经发现了静态图中的模式,在一个大的单一网络快照,或在一个非常小数量的快照中确定属性;这些包括in-和out度分布沉重的尾部,社区,小世界现象,和其他的属性。。然而,由于缺乏在很长时间中段网络演化的信息,一直很难将这些研究结果转化为观点——随着时间推移的趋势。我们研究了大量的真实图形,而且观察到一些令人惊讶的现象。首先,大多数这些图的密度随着时间的推移增加,随着边缘数目增加节点的数量呈超线性增长。其次,节点之间的平均距离往往会随着时间的推移而收缩,这与传统的认识(这样的距离参数应该是随着节点数量缓慢增加的函数(like O(log n)或O(log(log n)))相反。现有的图形生成模型即使在定性水平,也不会表现出这种类型的行为。我们提供了一个新的图形生成器,它基于“forest fire”的传播过程,具有简单、直观的理由,只需要很少的参数(如“flammability”节点),且产生的图形在前期工作和本研究中,都显示出了最高等级的属性观察。
2016 SIGKDD Dissertation Award
本奖项颁给在数据科学、机器学习和数据挖掘领域做出杰出贡献的研究生。
审查标准:
·KDD相关知识的论文
·论文主体思想是独创性的
·具有科学贡献意义
·论文技术深度且可靠性(包括实验方法、理论结果等)
·论文的总体呈现和可读性高(包括组织、写作风格和阐述等)
获奖者:
Danai Koutra (student) and Christos Faloutsos (advisor) at Carnegie Mellon University
获奖论文:大图形的探索与理解(Exploring and Making Sense of Large Graphs)
摘要:图表代表网页之间不同链接的信息,连接我们大脑中相邻的神经元,并经常跨越数十亿节点。在这海量的数据中,我们如何才能找到它最重要的结构?我们如何检测到关键的事件,如计算机系统受到攻击,或在人类大脑中疾病的形成?本文中舍弃了(I)的可扩展性、原则性算法(结合全球化与地区理解图形),而且(ii)应用在两方面:
·单个-图表的探索:我们展示了如何总结图的重要结构,且进行补充与推理(利用一些先前的信息和网络结构有效地了解所有实体的信息)。
·多个图形的探索:我们总结了模式发现的时空图思想。我们还认为,在许多有着多图标的应用程序中相似性是子问题,并促进了网络对齐与相似性方法的发展。
我们已经将我们的方法应用到了大量的数据中,包括一个有66亿边缘的2Web图,一个有18亿边缘的Twitter图,和有9000万个边缘的脑图。
应用数据科学(Applied Data Science Track)方面
最佳论文:Yahoo搜索中排名的相关性(Ranking Relevance in Yahoo Search)
摘要:搜索引擎在我们日常生活中起着至关重要的作用。而相关性是商业搜索引擎的核心问题。它吸引了来自学术界和工业界的数千名研究人员,并已进行了几十年的研究。现代搜索引擎中相关性已经远远超越了文本匹配,且现在面临巨大的挑战。查询和URLs之间的语义分歧是提高基础相关性的主要障碍。点击有助于提供提示,以提高相关性,但不幸的是对于大多数尾部查询,点击信息太稀疏,嘈杂,或完全丢失。对于综合相关性,结果的新近和位置敏感性也很关键。本文中,我们给出了雅虎搜索引擎中相关性解决方案的概述。我们介绍了三个关于基本相关性的关键技术:排序函数、语义匹配特征和查询重写。我们还描述了对于近因敏感相关性和位置敏感相关性的解决方案。这项工作建立在Yahoo搜索现有20年努力的基础之上,总结了最新的进展,并提供了一系列实际相关性的解法。报告的性能基于Yahoo的商业搜索引擎,其中有数百亿的URLs通过排名系统索引和服务。
第一作者介绍
Dawei Yin
机构:JD.COM研究主任
研究方向:机器学习,算法,数据挖掘, 模式识别等
最佳学生论文:私人助理的语境意图追踪(Contextual intent Tracking for Personal Assistants)
摘要:在智能私人助理方面,一种新的建议形式正在兴起如Apple’s Siri、Google Now和 Microsoft Cortana,它们可以“在恰当的时间推荐恰当的信息”,并积极主动地帮助你“把事情解决”。这种类型的推荐需要精确的跟踪用户当时的意图,即,用户打算知道什么类型的信息(例如,天气,股票价格),和他们打算完成什么任务(例如,演奏音乐,打车)。用户的意图与语境是密切相关的,其中包括外部环境,如时间和地点,以及用户的内部活动(可以由个人助理感觉到)。语境和意图之间表现出复杂的共同发生和序列相关,且语境信号也非常混杂、稀疏,这使得建模语境—意图之间的关系,变成了一项具有挑战性的任务。为了解决意图跟踪问题我们提出了Kalman filter regularize PARAFAC2 (KP2) 实时预报模型,它可以细密的表示语境和意图之间的结构和共同运动。KP2模型在用户上利用了协同能力,并学习每个用户的个性化动态系统,以确保高效的实时预测用户意图。大部分实验使用了来自商业个人助理的真实世界数据集,结果显示KP2模型明显优于其它的所有方法,且在个人助理中部署大规模的主动建议系统方面,提供了鼓舞人心的启示。
第一作者介绍
Yu sun
学校:墨尔本大学计算与信息系统系
研究方向:语境行为挖掘,强化学习,最优位置发现,空间/时间索引,算法设计/分析。
更多论文资讯:
·A Contextual Collaborative Approach for App Usage Forecasting,(UbiComp, 2016)
·Reverse Nearest Neighbor Heat Maps: A Tool for Influence Exploration,(ICDE,966-977,,2016)
科研方面(research Track)
最佳论文: FRAUDAR: 限制运用伪装手段的图表欺诈现象
摘要 :根据用户和他们评论的产品,或跟随者与被跟随者的偶图信息,我们应当如何识别虚假评论或跟风评论?现存的欺诈检测方法(谱检测等)试图识别结点的密集子图表,这些结点与保留下来的图表保持较少的联系。这些欺诈者能够使用“伪装”手段,即通过用真诚的目标增添评论或跟随评论,并使得这些评论看起来“常态化”来规避这些检测方法。更为糟糕的是,有些欺诈者利用诚实用户的“黑客账户”,这种伪装手段确实是有组织的。我们研究的聚焦点在于发现以伪装手段或黑客账户存在的欺诈者。我们提出FRAUDAR,一种用于(a)抵制伪装手段,(b)提供欺诈者有效性的上限,(c)能够有效应用于真实数据的算法。各种各样攻击条件下获得的实验结果表明,FRAUDAR在检测伪装性欺诈和非伪装性欺诈的精度方面都优于其最大竞争算法。此外,在运用推特跟随者-被跟随者14.7亿边缘图表的真实实验中,FRAUDAR成功地检测出一个包括4000多被检测账户的子图表,其中大多数拥有推特账户的人表示他们用的是跟随者购买的服务。
第一作者介绍
Bryan Hooi
学校:卡耐基梅隆大学机器学习系与统计学系博士,
研究方向:图与时间序列异常检测。
学术成果:
·A General Suspiciousness Metric for Dense Blocks in Multimodal Data. IEEE International Conference on Data Mining (ICDM), 2015.
·Matrices, Compression, Learning Curves: formulation, and the GROUPNTEACH algorithms. PAKDD 2016.
最佳学生论文 :TRIEST:运用固定存储容量在全动态流中计数局部与全局三角形
摘要:全动态图表以边缘插入与删除的一个敌对流的形式得以呈现,在这样一种全动态图表中我们对全局三角形和局部三角形的数量进行计数(即由事件到每个顶点),对于最终的三角形数量我们提出TRIEST,一套一通流算法计算其无偏、低方差、高质量近似值。我们的算法一直运用存储的样本及其变形,以实现利用用户专门存储容量。这种算法与要求运用难以选择的参数(例如,一个固定样本概率),并且不能保证其运用的存储数量的先前使用的算法形成鲜明对比。我们分析估计值得方差,所得结果显示出对这些数量新的集中限制。我们基于超大图表的实验结果证实了,TRIEST在精度上超过目前的最优算法,并且展示出小型更新时段。
第一作者介绍
Lorenzo De Stefani
学校:布朗大学计算机科学系博士。
学术成果:
·Reconstructing Hidden Permutations Using the Average-Precision (AP) Correlation Statistic(AAAI 2016: 1526-1532)
2016 SIGKDD年会创新奖
获奖者:PHILIP S.Yu
ACM SIGKDD非常高兴宣布PHILIP S.Yu获得2016年创新奖,Yu在大数据挖掘,融合及匿名化领域的研究做出了科学贡献,并产生了深远影响。
ACM SIGKDD创新奖是知识发现与数据挖掘(KDD)领域的最高技术成就奖,该奖项主要授予在KDD领域做出杰出技术创新,并为推动该研究领域的理论与实践发展产生长期影响的个人或团队。这些个人或团队的科学贡献已经对研究方向与该领域的发展产生重大影响,或者对研究成果的实际应用带来重大革新,并对商业体系的发展起到推动作用。
多年以来,PHILIP S.Yu对制定KDD大会的准则与数据挖掘做出了突出的贡献,并受到一致认可。在“大数据”这一术语在近几年流行起来之前,Yu对于大数据相关问题的研究已经由来已久,研究期间,已经发表了900多篇论文,文章引用次数达到73,000次,为知识发现各相关领域,其中包括频繁模式挖掘、聚类、分类、异常检测、推荐、特征提取、相似性搜索、垃圾邮件检测和数据匿名化等,做出了重大贡献。其研究主要聚焦于挖掘非常规类型的数据,包括数据流,图像/网络,及文本。关于数据流挖掘,其主要贡献表现在实时捕捉概念漂移,在图像/网络挖掘方面,其贡献表现在利用数据或联系的结构框架,这些结构框架在本质上是潜在或不断演变发展的,在这些实体对象中,网络是由各种不同类型的连接和结点构成。为了在大数据时代更好地探索各种数据的可利用性,Yu近来更多的研究是关于多资源学习,主要是指对于从多种资源获取的数据进行融合,包括多视角数据和多模态数据,其研究在多方面得到实践应用,应用领域包括社会网络,电子商务,健康与大脑信息学及智能城市等。
Yu博士获得过许多著名的奖项,其中包括为大数据可扩展的索引、查询、搜索、挖掘及匿名做出突出贡献并带来革新而颁发的2013年IEEE计算机协会技术成就奖,和为其在数据挖掘领域做出开拓性贡献而颁发的2003年IEEE ICDM研究贡献奖。他发表的论文也获得了ICDM 2013年10年最高影响论文奖,和EDBT时间测试奖(2014)。
Yu博士是ACM与IEEE研究员。他是ACM数据知识发现学报主编,是IEEE知识与数据工程学报主编(2001-2004)。
Yu博士获得国立台湾大学E.E学士学位,斯坦福大学E.E硕士与博士学位,及纽约大学M.B.A学位。
前SIGKDD创新奖获得者如下: Rakesh Agrawal, Jerome Friedman, Heikki Mannila, Jiawei Han, Leo Breiman, Ramakrishnan Srikant, Usama M. Fayyad, Raghu Ramakrishnan, Padhraic Smyth, Christos Faloutsos, J. Ross Quinlan, Vipin Kumar, Jon Kleinberg, Pedro Domingos, and Hans-Peter Kriegel。
SIGKDD创新奖包括一块徽章和一张2,500美元的支票,在旧金山于8月14日星期日,在第22届ACM SIGKDD知识发现与数据挖掘(KDD-2016)国际大会上颁发。在颁奖典礼结束后,Yu博士将开始创新奖演讲。
2016年SIGKDD 服务奖:WEI WANG
获奖者:Wei Wang
ACM SIGKDD非常高兴宣布Wei Wang获得2016年服务奖,该奖项用来表彰其在数据挖掘领域基础与实践方面做出的卓越技术贡献及其为数据挖掘协会做出的杰出服务。
ACM SIGKDD服务奖是知识发现与数据挖掘(KDD)领域最高服务奖,该奖项主要颁布给为知识发现与数据挖掘领域做出突出专业服务与贡献的个人与团体。
长期以来,Wei Wang一直服务于数据挖掘领域,以促进该领域的长足发展。作为数据挖掘领域世界级领军研究者,多年来她担任重点数据挖掘会议的核心组织者,其中包括ACM KDD,ICDM,SIAM数据挖掘,也曾在100多个项目委员会任职。此外,她担任过无数个颁奖委员会的主席,是ACM数据知识挖掘学报,IEEE知识与数据工程学报,知识与信息系统,数据挖掘与知识发现,IEEE大数据学报助理编辑。
此外,Wei Wang是将数据挖掘方法应用到生物医药领域的先驱科学家。继首届生物信息学,计算机生物学,生物医学信息学ACM大会召开以来,她曾担任该大学核心组织者。她也曾在其他高级生物信息学大会,如ISMB,RECOMB与BIBM,项目委员会任职,也曾担任IEEE/ACM计算机生物学与生物信息学学报的助理编辑。鉴于其在跨学科领域的领导才能,与2015年当选为生物信息学,计算机生物学与生物医学信息学ACM特殊利益团体董事会成员。
Wei Wang 一直以来全身心投入到征募,启发并提升年轻研究者的事业中,特别是那些女性群体与少数民族群体。为了增加学生,尤其是女性学生和少数民族学生,参加高级会议的机会,她率先将NST基金用于支持学生旅行奖学金,该奖学金金额是过去的五倍,使得成百上千名学生能够有机会出席这些会议。
她在ACM BCB会议上努力提升女性在计算机科学领域的地位,该大会以著名女性学者的主要演讲,女性教师和学生的促进研究的论坛,及为女性学生颁发旅行奖学金为主要特色。
Wei Wang在宾汉姆顿大学获得硕士学位,在洛杉矶加利福尼亚大学获得博士学位。目前,她是洛杉矶加利福尼亚大学教授,同时担任该大学可扩展分析研究所和美国国立卫生研究院BD2K中心-协调中心的联合负责人。Wei Wang对聚类高纬度数据,序列模式挖掘及图像挖掘领域做出了杰出贡献。她是被称为将数据挖掘方法应用到生物医药领域的先驱科学家,曾发表过150多篇研究论文,其中有两篇获得最佳论文奖。她在数据挖掘研究领域的贡献受到极大程度的认可,获得NSF事业奖,称为微软研究院研究员,获得菲利普和鲁思赫特尔曼艺术与学术成就奖,奥卡瓦基础研究奖和CDM杰出服务奖。
14名前SIGKDD服务奖获得者如下:Gregory Piatetsky-Shapiro, Ramasamy Uthurusamy, Usama Fayyad, Xindong Wu, The Weka team, Won Kim, Robert Grossman, Sunita Sarawagi, Osmar R. Zaïane, Bharat Rao, Ying Li, Gabor Melli, Ted Senator, and Jian Pei。
该奖项包括一枚徽章和一张2,500美金的支票,将在旧金山于8月14日星期日,第22届ACM SIGKDD知识发现与数据挖掘(KDD-2016)国际大会上颁发。
via:KDD2016 Awards
原论文下载:百度网盘
PS : 本文由雷锋网(公众号:雷锋网)独家编译,未经许可拒绝转载!
雷锋网原创文章,未经授权禁止转载。详情见转载须知。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/60659.html