人工智能告诉你如何组队发文章？KDD 2018论文提出多元多类型集合的表征学习方法

雷锋网 AI 科技评论按：在即将召开的数据挖掘顶会 ACM SIGKDD 2018 上，圣母大学计算机系 DM2 研究团队（DM2 Laboratory, CSE, University of Notre Dame）的论文《Multi-Type Itemset Embedding for Learning Behavior Success》被主会录用。本文作者为圣母大学计算机系 DM2 研究团队三年级博士生王达恒，导师是圣母大学计算机系助理教授蒋朦。

Multi-Type Itemset Embedding for Learning Behavior Success(ACM SIGKDD 2018)

DM2 Laboratory, CSE, University of Notre Dame （圣母大学计算机系DM2研究团队）

引出问题

对于博士学生来说，如何提高科研质量和产量一直是学术生涯里的中心话题。相较于高年级的博士生而言，刚踏入科研领域的低年级博士生往往由于缺乏足够的知识积淀与经验，对于估计论文中稿的可能性与找出提高中稿率的办法显得力不从心。我自己作为一名刚刚跨过第二个学年的博士生，对这一点的体验格外深刻。

理想情况下，当我们开始一个新的以论文发表为导向的研究项目的时候，我们希望拥有合适的研究团队（其中包含多个技能互补的学者与专家），足够清晰的研究问题，科学合理的研究方法，以及定位恰当的目标会议。但在现实中，我们往往很难在一开始就达到这样的配置。那么我们能否利用人工智能来从大量的成功经验（以往成功发表的论文）当中建立起预测模型来帮助我们判断呢？更进一步地，我们是否能够让人工智能算法给我们推荐能够提高论文中稿率的办法呢？是否邀请自己院系当中的另外一位教授参与进来就能够大大地提高项目成功的可能性？或者说有哪些优秀的文章值得一读、甚至必须一读，以提高论文中稿率？这些都是非常实用且有趣的问题。

问题难点

客观上来说，每一篇学术论文都是一个非常复杂的行为产物，包含了多种不同类型的上下文信息。常见的成功发表论文一般会有多个作者，一些框定研究领域和具体问题的关键词，大量的文献引用，以及发表的会议信息。因此，准确地判断一篇论文在目标会议上的命中率也是一个尤为困难的问题。而从数据中千千万万的备选中找出最具备技能互补性的研究者来推荐给我们，更是困难。我们需要的是一个能够有效地表示论文行为以及其上下文信息的载体。

传统的方法是利用矩阵或者张量分解来得到低维度的数据对象表示。也就是说，我们可以构建一个巨大的矩阵，其中包含了所有论文以及上下文项的信息，然后通过分解这个矩阵来得到论文与上下文项的低维度表示。但这这并不适用于多个上下文项属于同一种类型的情况，例如在一篇论文中有多个作者与引用。而当我们的数据量变得更大的时候，用单个庞大的矩阵来表示整个数据集显然也不是个高效的选择。

表征学习的方法为我们提供了一些较好的思路：如果我们能够学习到论文以及其包含的上下文项的向量表征的话，我们关心的预测以及推荐问题将会迎刃而解。值得提到的是近两年比较流行网络嵌入学习。这些方法基于保存节点与节点之间邻近度的思路，能够将网中的节点快速地学习成向量表征。当拥有了节点的向量表征之后，我们能够轻易地利用向量內积来运算出节点与节点之间的相似度，从而帮我们完成节点分类与边预测等任务。但网络嵌入学习的方法并不能适用于我们的情况：我们关心的是由一组由多类型上下文项构成的论文是否能够在未来成功发表，而不是该篇论文是否和某一个作者在网中有较高的相似度。

我们的方法

针对于这些问题，我们提出了全新的嵌入学习方法。首先，我们将所有的行为看做一个多类型集合的结构。例如一篇论文就可以被看做一个由作者、关键词、目标会议、引用等四种类型组成的集合结构；其中作者、关键词、引用允许有多个上下文项，而一篇论文只对应一个上下文项。