iPIN 研究员李双印博士独家解析：循环聚焦机制如何与主题模型碰撞火花？

雷锋网(公众号：雷锋网) AI 科技评论按：李双印博士曾在香港科技大学攻读博士后，师从香港科技大学计算机系主任杨强教授。他的主要研究方向主要包括数据挖掘、人工智能、文本建模、深度学习，论文曾被 IJCAI、ICDM、UAI 等顶级国际会议收录。李双印作为第一作者的论文《Recurrent Attentional Topic Model》入选 oral presentation，入选口头展示论文（oral），雷锋网AI科技评论与李博士日前进行了交流，并整理成文与读者分享。

李双印博士

李双印在 iPIN 的工牌号为 intern01。在公司里，大家只知道叫他「大师兄」，但他与 iPIN 的渊源，很多在公司实习的研究生们也不甚清楚。这一切最早还要追溯到 2013 年，当时李双印还在中山大学跟随潘嵘教授攻读博士，并在微软亚洲研究院（MSRA）实习，主要的工作是用深度学习的方法实现半结构化文本建模。彼时 iPIN 成立伊始，CEO 杨洋邀请潘嵘教授一同合作，李双印也跟随导师到 iPIN 参与算法研发工作，自然成为了第一号实习生。

雷锋网此前对 iPIN 做过不少覆盖和报道，目前 iPIN 在信息提取、语义认知及检索排序等积累了实践经验，涵盖高考志愿填报、招聘及生涯规划等领域。在李双印看来，iPIN 的业务主要集中人和企业的商业价值挖掘，凭借语义认知平台，将人从繁琐的工作中释放出来，聚焦更具价值的商业决策。「在技术上，我们的进展还是比较突出的，比如文本生成、文本分类、检索排序等、都有很深的基础和经验。」而李双印在 AAAI 2017 上发表的这篇论文，则属于在语义认知方面研究工作的一个探索。

循环机制与聚焦机制在深度神经网络上的应用十分广泛，而李双印之前一直是做主题模型的相关课题，因此他很自然地想到，能否将这两种方法应用于主题模型上，并提出了名为「Recurrent Attentional Topic Model(简称 RATM)」的新概念。句子作为一种文本信息的基本组成单元，RATM 主要基于文本中句子之间的主题连贯性，利用文档中的单词信息，以及句子间的序列信息对文档进行有效建模。文档建模与分类是一个非常古老的问题，对于它的解决没有止境。不论是之前的基于贝叶斯理论的主题模型，还是当前火热的深度学习技术等，在文本特征提取与分类上，本质上都是提供了一种提取文本特征信息的方法。

在 AAAI 2017 oral presentation 时，李双印博士介绍了 RATM 如何应用于社会经济图谱，这是一个针对整个经济社会的各个主体，以及主体间关系进行建模和量化的一个庞大系统。其中的各个主体（比如人、职位、学校、公司、行业等），这些比较高层次的信息相当于金字塔的塔顶。而基础概念（类似于百科和 wiki 中的词条）相当于塔底，即语言系统中基础信息的认知、关系以及推理，「缺少这些基础的信息认知，社会经济图谱就像空中楼阁。因此，我们还需要对语言系统中的基础信息进行建模和认知。我们在单词，句子及文本上的建模研究和探索，比如提出 RATM 模型，都是在试图解决社会经济图谱和基础信息之间的鸿沟，并希望能够将社会经济图谱构建的更加完善和落地。」

作为研究性课题，李双印表示目前该论文成果尚未应用于实际场景中。他认为，此工作未来的主要研究方向，依然会集中于充分利用文本特点，如何快速提取有效的文本及句子的特征向量，以及向量的可解释性。此前雷锋网 AI 科技评论在报道国内企业的 AAAI 2017 论文收录情况时，也提及了这篇论文。iPIN CEO 杨洋在接受采访时也表示，他们会尝试将机器在决策中的分析过程以逻辑的形式梳理出来。相信在未来，iPIN 在认知框架上会有更多的尝试和突破。

。

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/72644.html

iPIN 研究员李双印博士独家解析：循环聚焦机制如何与主题模型碰撞火花？

相关推荐

发表回复