华人力量无处不在,微软在发展中寻求突破 | KDD 2017

华人力量无处不在,微软在发展中寻求突破 | KDD 2017

雷锋网(公众号:雷锋网)AI科技评论:SIGKDD是ACM在数据挖掘领域的顶级学术会议,每年都吸引着超过2000位来自世界各地的顶级数据挖掘学者,以及知名企业代表前来参加。然而,大会的论文接收每年却仅约200篇,接收率不超过20%。

今年的KDD大会刚刚于加拿大新斯科舍省的首府哈利法克斯(Halifax)落下帷幕。在KDD 20余年的历史中,越来越多的的华人元素体现在了会议当中。从参与度到科研成就,从影响力到活动组织,华人的力量无处不在且无可替代。作为人工智能和数据挖掘领域的先驱者,微软同样在KDD 2017中表现突出,并在发展中不断寻求新的突破。

厚积薄发的华人力量

无论是从参与KDD会议的人数、论文发表数、论文影响力,还是从获奖情况、参与活动组织和参展情况等多个方面来看,厚积薄发的华人力量正在强势崛起,在KDD领域拥有世界有目共睹的优异表现。

越来越多的华人参与到了SIGKDD当中。KDD 2017的注册总人数达到了1656人,是在美国以外举行的KDD会议中参与人数最多的一次,其中华人注册参会的人数仅次于美国。但今年KDD的两个track的录取率却分别只有17%(Research Track)和21%(Applied Data Science Track),且仅有一半的论文被选为进行口头展示(oral presentation)。

据统计,今年大会的两个研究热点分别是时序数据和图算法。大部分的委员会成员以及提交的论文来自美国和中国。其中中国作者贡献了超过13%的论文。

在华人参与度持续上升的同时,华人作者的研究工作也越来越有影响力。微软学术搜索总结了最近5年KDD最具影响力的作者(如下图所示),图中泡泡的大小表明了最近五年所发表KDD的论文数,横轴表明了作者总体在数据挖掘领域的声望排名,越靠右的排名越高。该排名不仅参考了KDD发表文章的引用次数,还参考了作者之间互相引用的情况。如果一篇文章被高声望的作者引用,那么此文章的质量可能更好。纵轴则表明了作者在KDD的威望排名,该排名主要参考了每篇KDD论文标准化后的被引用数量,位置越高排名就越高。

华人力量无处不在,微软在发展中寻求突破 | KDD 2017

图上的21位学者可以认为是目前在数据挖掘领域最有影响力的代表人物,可以看到华人学者占据了超过半数的位置(13人),且不少都占据了非常有影响力的位置,例如微软亚洲研究院的郑宇博士和谢幸博士。

今年的大会中,不少奖项也都由华人包揽。KDD 2017杰出服务奖(Service Award)授予给了香港科技大学的杨强教授,以表彰他在数据挖掘和人工智能领域非凡的服务和贡献。同时,还特别提到了杨强教授在中国成立的SIGKDD China,以及多年来在中国推动数据挖掘、机器学习和人工智能研究的作用。

华人力量无处不在,微软在发展中寻求突破 | KDD 2017

KDD 2017创新奖(Innovation Award)则颁发给了加拿大西蒙弗雷泽大学的裴健教授,认可了他在frequent pattern mining领域做出的杰出贡献。裴健教授在他的talk里面回顾了当年frequent pattern mining研究的PrefixSpan和FPGrowth,并且展望了未来pattern mining和深度学习以及神经网络进行结合的发展前景。

此外,本届KDD Cup数据挖掘比赛共有3582支队伍参与,覆盖全球50个国家,730所高校,比赛规模史上最大,来自中国的队伍包揽了全部奖项。此次比赛分两个任务:预测车辆从路口到收费站的平均用时和高速收费站车流量预测。其中,由微软、美团、北京航空航天大学组成的Convolution团队将两项任务的第一名都收入囊中,雷锋网AI科技评论也对此团队做过详细的报道和采访,详情请参看《KDD Cup 2017双料冠军是如何炼成的?我们向Convolution团队讨教了他们的“成功方法论”》

华人还在KDD 2017中组织了高品质的活动。在今年的大会上,UCBerkeley的郁彬教授发表了主题演讲,讨论了数据的三个最重要的原则:可预测性,稳定性和可计算性。因此,郁彬教授成为了在数据挖掘领域顶级会议中第一位女性的大会主题讲者。

华人学者们还组织了包括城市计算(Urban Computing)、大规模网络表达学习(Learning Representations of Large Scale Networks)在内的7个专题讲座。KDD 2017的首日下午,大会特别为SIGKDD China举行了中国数据挖掘会议(Data Science @China),吸引了众多听众参与。会议在KDD China秘书长、微软亚洲研究院资深研究员郑宇博士的主持下进行。香港科技大学的杨强教授,罗格斯大学的熊辉教授,微软亚洲研究院的郑宇博士,今日头条AI实验室的李磊博士,滴滴出行研究院的副院长叶杰平博士,西蒙弗雷泽大学的裴健教授,以及清华大学的唐杰和崔鹏教授分别分享了各自最新的研究成果。

华人力量无处不在,微软在发展中寻求突破 | KDD 2017

SIGKDD China主要委员以及KDD两任主席刘兵、裴健和韩家炜教授合影

中国企业在KDD的参与也越来越积极。据主办方介绍,KDD 2017总共的赞助费用超过了54万美元,仅次于去年在旧金山举行的KDD 2016。仔细看一看今年的赞助商列表,就会发现中国公司已经出现在了显著的位置(雷锋网AI科技评论按:去年滴滴同样是钻石赞助商)。

华人力量无处不在,微软在发展中寻求突破 | KDD 2017

持续发酵的微软影响力

作为人工智能和数据挖掘领域的先驱者,微软在本次大会上一如既往地展示了非常多的研究成果。来自微软的研究员们分别组织了五场不同主题的教程演讲(Tutorials)以及一场实践教程(Hands-on Tutorial),内容涵盖了利用对照实验(A/B testing)加速软件创新,群体感知(crowd sourcing),大规模层次数据分类技术,社交网络数据分析,城市计算,以及利用R语言的可扩展的数据科学技术等核心技术领域。其中,微软亚洲研究院资深研究员郑宇博士组织了城市计算的教程演讲。

华人力量无处不在,微软在发展中寻求突破 | KDD 2017

郑宇博士在城市计算教程演讲环节

今年,微软参与发表了9篇KDD论文,涉及领域丰富全面。在来自微软雷德蒙研究院的工作“A Century of Science: Globalization of Scientific Collaborations, Citations and Innovations” 中,研究人员收集了从1900到2015年间所发表的8900万篇已经数字化的学术论文,进而学习了过去一个世纪中科技进步的演化过程。

研究员们发现,科学的进步已经从个人的单独工作越来越多地向共同合作的形式所转变,并且能够很明显的观察到,在作者合作和研究工作的互相引用中,越来越多的国际合作已经展现。但在上世纪初超过90%的创新工作都在英国和美国,而目前这样的比例已经下降到了50%左右。微软研究院的研究人员希望通过分析这些数据可以为业界提供一些启示,让现有的国际科技合作和资助计划变得更有效率。

另外一篇来自微软的论文“ReasoNet: Learning to Stop Reading in Machine Comprehension”则提出了一个利用新的数据网络结构来教计算机阅读和理解文章,并根据文章的内容回答相应的问题。

ReasoNet引入了一种结束状态来缓解推理深度的限制,并且利用增强学习技术,当它能从已有的信息中产生正确的回答时,ReasoNets可以动态地决定是否需要继续理解中间结果或者提前结束阅读。这项技术在许多机器理解的数据库(如 CNN, Daily Mail Stanford SQuAD和 structured Graph Reachability)验证中,都得到了非常好的结果。

我们微软亚洲研究院城市计算组在KDD 2017发表了一篇题目为“Planning Bike Lanes based on Sharing Bikes’ Trajectories” 的论文。该论文的基本思想是利用大量共享单车(摩拜)的轨迹数据,结合政府在市政建设上的限制和要求(如,预算、服务人群以及施工和管理的便捷性),利用大数据和人工智能技术提出自行车道规划的建议。

这项技术未来将能够实现公司、政府和人民群众三赢的局面,把技术更好地融入人们的现实生活中。具体细节请点击阅读《借力摩拜单车轨迹大数据,微软亚洲研究院如何更好规划自行车道?》

除此之外,其他微软在KDD 2017所发表的论文如下:

Discrete Content-aware Matrix Factorization

论文链接:http://www.kdd.org/kdd2017/papers/view/discrete-content-aware-matrix-factorization

Mixture Factorized Ornstein-Uhlenbeck Processes for Time-Series Forecasting

论文链接:http://www.kdd.org/kdd2017/papers/view/mixture-factorized-ornstein-uhlenbeck-processes-for-time-series-forecasting

Deep Embedding Forest: Forest-based Serving with Deep Embedding Features

论文链接:http://www.kdd.org/kdd2017/papers/view/deep-embedding-forest-forest-based-serving-with-deep-embedding-features

A Dirty Dozen: Twelve Common Metric Interpretation Pitfalls in Online Controlled Experiments

论文链接:http://www.kdd.org/kdd2017/papers/view/a-dirty-dozen-twelve-common-metric-interpretation-pitfalls-in-online-contro

Deep Probe: Information Directed Sequence Understanding and Chatbot Design via Recurrent Neural Network

论文链接:http://www.kdd.org/kdd2017/papers/view/deepprobe-information-directed-sequence-understanding-and-chatbot-design-vi

Discovering Concepts Using Large Table Corpus

论文链接:http://www.kdd.org/kdd2017/papers/view/discovering-concepts-using-large-table-corpus


华人力量无处不在,微软在发展中寻求突破 | KDD 2017

原创文章,作者:kepupublish,如若转载,请注明出处:https://blog.ytso.com/128391.html

(0)
上一篇 2021年8月30日
下一篇 2021年8月30日

相关推荐

发表回复

登录后才能评论