大会共收录了216篇 Research Paper、23篇Industry Paper、56篇Demo Paper ,其中入选的最佳研究论文、最佳EA&B论文、最佳工业论文的一作作者均为华人学者,他们分别是新加坡国立大学研究员杨任驰、西蒙弗雷泽大学博士生Xiaoying Wang、加州大学伯克利分校博士生Audrey Chen。
AI科技评论将获奖华人学者及论文信息介绍如下:
最佳研究论文奖
获奖论文《Scaling Attributed Network Embedding to Massive Graphs》论文作者:Renchi Yang,Jieming Shi,Xiaokui Xiao,Yin Yang,Juncheng Liu,Sourav S. Bhowmick本篇论文一作杨任驰,目前是新加坡国立大学研究员。他在2015年获得北京邮电大学工学学士学位;2020年获得南洋理工大学计算机科学系博士学位,师从Xiaokui XIAO教授和Sourav Saha Bhowmick。主要研究大规模数据管理与分析,对图挖掘、海量高维数据设计、高效算法感兴趣。个人主页:https://renchi.ac.cn/论文地址:http://vldb.org/pvldb/vol14/p37-yang.pdf论文摘要:要想获得准确预测的属性网络嵌入( Attributed Network Embedding, ANE)是一项很有挑战性的工作,而将有效的 ANE 计算扩展到包含数百万节点的海量图上,又将其难度推到了一个新高度。现有的解决方案在这种图上基本上会失败,或造成过高的成本、低质量的嵌入,或两者兼而有之。本文提出了一种有效的、可扩展的计算海量图的PANE方法,其在多个基准数据集上达到了最高性能水平,其衡量标准包括属性推断、链接预测和节点分类三种常见的预测任务的准确度。特别是,对于拥有超过5900万个节点、9.8亿条边和2000个属性的大型MAG数据,PANE是唯一已知的可行的解决方案,它可以12小时内在单个服务器上获得有效的嵌入。PANE通过三种主要算法的设计实现了高扩展性和有效性。首先,基于一种新的属性随机游走(random walk)模型,提出了学习目标,而在处理大型图优化任务上,仍然具有挑战性。其次,PANE为解决优化问题提供了一个高效求解器,其关键模块在于精心设计的嵌入初始化,它大大减少了收敛所需的迭代次数。最后,PANE通过对上述求解器的非线性并行化利用多核CPU,从而实现了可扩展性,同时保留了高质量的嵌入结果。通过广泛的实验,在8个真实数据集上比较了10种现有的方法,证明了PANE在结果质量方面优于所有现有方法,同时速度要快几个数量级。
获奖论文:《Optimizing Bipartite Matching in Real-World Applications by Incremental Cost Computation》论文作者:Tenindra Abeywickrama, Victor Liang,Kian-Lee Tan论文地址:http://vldb.org/pvldb/vol14/p1150-abeywickrama.pdf论文摘要:Kuhn-Munkres(KM)算法是一种经典的组合优化算法,在交通等诸多应用场景中被广泛用于最小成本的二部( bipartite)匹配。例如,网约车服务可以用它来匹配司机和乘客,以尽可能地缩短等待时间。通常情况下,给定的两个二部集合,需要计算所有二部对之间边的成本并找到最优匹配。然而,现有研究忽略了边成本计算对整体运行时间的影响。实际上,边计算会大大超过最优分配本身的计算,例如在为乘客匹配司机时,最短路径往往需要很高的计算成本。根据这一观察,我们发现,常见的现实世界的设置表现出一个有用的特性,即允许我们仅在需要时使用最低的下限启发式增量计算边成本。与原始KM算法相比,这种技术显著降低了分配的总体成本,这一点我们已经在多个真实数据集、工作负载上得到了验证。此外,该算法并不限于这个领域,它还可能适用于其他有下限启发式算法的环境。
最佳工业论文奖
获奖论文:《RAMP-TAO: Layering Atomic Transactions on Facebook's Online TAO Data Store》论文作者:Audrey Cheng,Xiao Shi,Lu Pan,Anthony Simpson,Neil Wheaton,Shilpa Lawande,Natacha Crooks,Ion Stoica论文一作Audrey Cheng目前是加州大学伯克利分校计算机科学专业在读博士生, RISELAB成员,师从Ion Stoica教授和Natacha Crooks教授,曾获得伯克利校长奖学金,对数据库与分布式系统感兴趣。个人主页:https://audreyccheng.github.io/论文地址:http://vldb.org/pvldb/vol14/p3014-cheng.pdf论文摘要:与其他分布式数据存储一样,Facebook社交图谱TAO会优先考虑可用性、效率和可扩展性等因素,而不是满足大型、可读性强的工作负载所需要的一致性或保密性。随着产品开发人员在此系统上构建不同的应用程序,他们开始更多地关注业务语义。然而,为选定的应用程序提供高级功能,同时保持系统整体的可靠性和性能一直是一项挑战。在本文中,我们首先描述了开发者多年来的业务需求,以及目前TAO出现的原子级错误(即写),以此探讨了如何引入一个直观的读取业务API。我们通过对潜在异常的测量研究,强调了API原子级可见性的必要性,这些异常通常在没有强读取隔离的情况下发生。我们的分析表明,1500次批量读取中有1次反映部分业务性更新,这可能使开发人员体验变得复杂化,并产生意外的结果。为了缓解这个问题,我们提出了RAMP-TAO协议,这是一个基于读取原子级多分区(RAMP)协议的变体,支持最小开销的部署,同时确保大规模读取优化工作负载的原子级可见性。