由中国中文信息学会社会媒体处理专委会主办、哈尔滨工业大学承办的第七届全国社会媒体处理大会(SMP 2018)于 2018 年 8 月 2 日- 4 日在哈尔滨召开。雷锋网(公众号:雷锋网)作为独家战略媒体带来合作报道。SMP 专注于以社会媒体处理为主题的科学研究与工程开发,为传播社会媒体处理最新的学术研究与技术成果提供广泛的交流平台,旨在构建社会媒体处理领域的产学研生态圈,成为中国乃至世界社会媒体处理的风向标。
本届 SMP 大会主席由哈尔滨工业大学教授刘挺与伊利诺伊大学芝加哥分校教授 Philip S. Yu 担任,程序委员会主席由哈尔滨工业大学秦兵教授与清华大学刘知远副教授担任。SMP 2018 的六位特邀报告嘉宾包括:李宇明(北京语言大学)、林学民(澳大利亚新南威尔士大学)、林鸿飞(大连理工大学)、张洪忠(北京师范大学)、胡小华(美国德雷赛尔大学)、李兵(中央财经大学)。
开幕式于 8 月 2 日上午隆重召开,开幕式之后是四场特邀报告,涉及到世界知识的中文表达、图数据分析、幽默计算、社交网络中的 AI 机器人。
第一位特邀报告嘉宾是北京语言大学语言资源高精尖创新中心主任李宇明教授,他的报告题为《世界知识的中文表达问题》。
报告伊始,他表示,我国面临着两个问题:向世界讲好中国故事和向中国讲好世界故事,这两个问题互有关联,而在今天将重点讨论世界知识的中文表达,即向中国讲好世界故事。
他提到中文在国际学界「边缘化」的问题,通过对 2006-2015 年全世界各语种发表论文情况分析,发现 SCI 论文中中文占比仅 0.59%,在所有语言中排在第三位,在 SSCI 论文中,中文没有进入前 10 位。
这时候,主要有三个应对之策。
其一是全民学英语,但是用外语实现知识获取是有问题的。不可能人人都把一门外语学好,想要将英语达到母语水平几乎不可能。此外,知识分类越来越细,不同领域的知识鸿沟越来越深,通过英语直接阅读了解多方面科技知识难度极大,同时这种方法减少了使用汉语表达现代科技知识的机会。
其二是机器翻译,让机器把世界的知识都翻译成中文,供国人使用。
他表示,随着信息技术的发展,机器翻译在不久的将来有望实现这一目标。但这时候,为中国人获取信息而设计的翻译系统,翻译的轴心语必当是中文。此外,中国必须解决知识源头问题,必须建立中国知识库存的共同体。
但机器翻译也存在「后遗症」,如知识获取永远「慢半拍」,要与「知识源」保持良好关系,同时也容易导致原创知识产权缺失。
这时候,应对之策三是提升中文刊物声望,这时候需要力挺中文文本的学术评价体系,他强调,用外文提升中国学术界的国际地位是策略,提升中文的国际学术地位才是根本,需要提倡科研成果中文首发。
最后他对自己的报告内容做出总结,他表示,解决世界知识的中文表达问题十分不易,需要有耐心、有恒心、有信心,国家和知识界须有危机意识,更要通过政策支持建立「中文自信」的学术评价体系。
澳大利亚新南威尔士大学的林学民教授做了题为《Towards Big Graph Processing: Applications, Challenges and Advances》的特邀报告。
他首先介绍了图数据在金融诈骗检测、产品推荐、投资分析、零售服务、反洗钱、网络安全等多个领域的广泛应用,并以 k-Core、k-Truss、k-Edge Connected、k-Vertex Connected 等多种算法为例,结合 ICDE 2016 最佳论文《I/O Efficient Core Graph Decomposition at Web Scale》,SIGMOD 2015 年《Index-based Optimal Algorithms for Computing Steiner Components with Maximum Connectivity》等论文,阐述了 Cohesive Subgraph 的相应定义及核心思想。
结合上述算法,他介绍了两个领域的研究探索,一个是给定社交网络,判断对应的核心用户在留存及离开时,对于团体产生的影响分析;另一个是结合子图搜索研究以社交网络为代表的多维属性,并让图表在每个维度上都呈现稠密性。
结合与多家知名企业及团队的合作,他也展现了 Cohesive Subgraph 在不同领域上的应用,比如在华为公有云上实现人物识别、社区发现及好友推荐等功能,并将其延伸到时间维度上;此外,他们也与阿里巴巴合作构建 FLASH Query Language、Biclique 欺诈检测及 RT Cycle 检测,在相应的电商业务、金融业务上实现毫秒级应用。
随后,大连理工大学的林鸿飞教授带来令全场笑声不断的特邀报告《幽默计算探讨》。
林老师介绍幽默从通俗层面讲,形容的是有趣或可笑且意味深长的内容,而理论定义则是产生于对于同一陈述两种不同解释框架的混合,是期望与实际结果之间的差异、冲突或不协调。
围绕幽默点定义及相应设计,他阐述了确定幽默强度的基本原则,包括数量、表达方式的间接性、递进性、双关语成分及因果关系等五大方面。随后,他借助大量的例子,介绍了言语幽默、指称幽默等类别,并结合幽默的相关理论背景引出幽默计算框架:以认知语言学、情感图谱、自然语言处理为技术基础,以双关、谐音、隐喻、反讽为表达方式;以笑话、相声、喜剧、歇后语为呈现载体;最终划分为幽默识别、笑点识别、幽默等级、幽默理解及幽默生成等应用领域。
与之相应地,他分别介绍了以 SemEval 2017 Task6 为代表的幽默等级识别,以 SemEval 2017 Task7 为代表的双关语识别、定位与推断,以 CCL2018 任务 2 为代表的中文隐喻识别与情感分析,以 CCL2018 任务 4 为代表的中文幽默计算等多项评测任务。
他在最后分享了谐音双关语、语义双关语、谐音幽默生成及相声包袱识别等幽默计算研究在学界及业界的相应尝试与实践。他也指出,目前幽默计算的难点在于常识知识的应用,而中文幽默的挑战在于「音形义结合的表示+基于常识的推理」。他总结道,幽默计算是一件并不幽默的事情,不懂幽默的智能只是机械的匹配,缺乏情感的计算也只是无趣的代码,也进一步强调了幽默计算于自然语言理解的重要性。
北京师范大学新闻传播学院张洪忠教授的特邀报告主题是《社交网络中的 AI 机器人:新问题与新范式》。
报告伊始,他提到社交媒体中的 AI 机器人无处不在,如微软小冰、腾讯 babyQ 等。他表示,AI 机器人的分类,可以从功能类别上划分,也可以从价值上(即「好」和「坏」)进行划分,还可以从人机关系的角度划分。社交网络中的 AI 机器人则分为聊天机器人、垃圾机器人、移动电话助手三类。
从传播学角度看,社交网络中的 AI 机器人定义为:在线社交网络中对人的身份的扮演、拥有不同程度的人格属性、与人进行互动的虚拟 AI 形象。
他表示,社交网络中 AI 机器人现在有两条研究路径:
一是从计算机科学的角度,这里有基于社交网络信息的机器人识别系统,如机器人排名,群组识别算法,联结免责,「蜜罐陷阱」算法,还有基于众包方式和人工手段的机器人识别系统,此外还有基于特征工程的机器学习识别技术。
二是从社会科学的角度,这里可以从四个方向探讨,一是注重效果测量的计算方法取向,二是注重道德问题的文化批判取向,三是偏重政策分研究取向,四是着眼未来趋势的探索反思取向。
他表示,AI 机器人已经成为计算机科学和社会科学都共同关注的一个新事物,一个交叉学科的研究对象。
接下来,他介绍了自己学生的一个实验案例,从选题背景和文献回顾、实验设计和分析、仿真模型设计和分析等多个方面进行了讨论。他们将社交媒体群组中不存在机器人的原始实验和社交媒体群组中存在机器人的第二次实验对比,得出如下结论:社交机器人参与社交群组讨论会改变社交群组的意见表达形势;由于机器人缺乏对外部意见形势的感知,尽管社交机器人的效用优于普通账户,但不如关键少数派用户。
之后,他表示对社交网络中机器人影响的研究应该成为一个重要方向,这里他还简单介绍了印第安纳大学 Shao 等学者,Murthy 等学者,Vosoughi 等学者的研究。
而在报告的最后,他表示,随着技术的快速迭代,AI 机器人越来越具有人格化特征,但这些人格化特性不同于我们正常的「人」,会为社会科学带来新的问题。他强调,社交网络中的 AI 机器人将引来社会科学研究的新范式。
大会第二天的两场特邀报告,内容包括文本摘要和大数据应用。
德雷塞尔大学计算与信息学学院教授胡小华作为第一位上台嘉宾,他的报告主题为《Question-based Text Summarization》。
在报告中,他首先谈到 Facebook、IBM 和 Google 的文本摘要模型,Facebook 模型有 bag-of-words encoder、convolutional encoder、attention-based encoder,当时在 DUC-2004 数据集上达到顶尖水平,IBM 在 Facebook 基础上提出一些改进,encoder 是 bi-directional GRU,decoder 是 uni-directional GRU,随后,Google 又在这两个模型基础上提出改进,取得了非常不错的效果。
随后,他提到文本摘要的一些案例,他表示,大多数摘要受限于陈述句,这时候,提出了这样一个观点,问句能否帮助文本摘要?
做基于问题的摘要主要有如下原因:问题读起来更有吸引力,问题能帮读者变得更具互动性。他表示,基于问题的摘要并不是要替换掉陈述性摘要,而是能用来反映源文件的主旨。
之后,他提到研究问题的主要目标是确保生成的问题与文本相关,同时文本能回答生成的问题。这时候衍生出三个主要研究问题:一是问题存在于哪里,二是如何测量问题和文本间的相容性,三是如何评估基于问题的摘要的有效性。
他提到这一系统的整体架构,第一步是问题选择,这里涉及到目标、方法等等,第二步是问题多样化。接下来是一些实验,涉及到实验数据集、实验设置、网络模型、评价指标、实验结果等各个方面。
他做出如下总结:这是一个信息检索和自然语言处理的交叉任务,包含问题选择和多样化的两层框架。在问题选择上,他探讨了基于检索的方法和数据驱动的方法。未来,他们将会延伸到多文本摘要,也将继续扩展至不同的文本,例如新闻、科学类文章、社交媒体等等。
在报告的最后,他提到即将于 12 月在美国召开的 IEEE Big Data 2018,希望大家踊跃参与。
最后一位特邀报告嘉宾是中央财经大学国际经济与贸易学院的李兵副教授,他的报告主题是《经济学中的大数据应用》。他指出,经济学(社会科学)的数据困境目前面临追求因果关系、实验数据有限、测量成本高昂等因素,而大数据为经济学研究提供了低成本、客观、迅速的有利条件。
借助卫星遥感数据、网络平台数据、行政管理数据和文本数据等多种数据,研究者可以对经济学进行更加深入的研究。比如,通过植被覆盖率的变化,研究者可以推断其对温室效应造成的环境影响,甚至关联到国家治理问题;通过银行数据的调查,可以印证凯恩斯等经典经济学理论,并延伸到阶层固化问题于经济增长的意义。
他随后介绍了几个研究案例,以夜间灯光数据库为样本,他的团队测算出各国 GDP 增长率的灯光拟合值及最优拟合值,并通过这种方式补全了部分数据缺失的国家GDP(如罗马尼亚、阿富汗)。同时还以此为线索,发现了一些GDP数据被高估/低估的国家。
此外,通过爬虫抓取大众点评上的商店名称、地理位置、商品等公开信息,团队将数据与第六次人口普查数据进行地理匹配,探讨人口数量、人口流动及菜品之间的关系。他指出研究显示「人口的集聚会从消费端带来不可贸易品的集聚,最终给人口更加集聚的城市带来更大的多样性福利」。同时,人口流动的放开与限制需要权衡多种因素,政策制定也需要精巧的设计。
不论是考察电子商务平台对企业出口市场进入和出口规模的影响,或是基于报纸关键词集的测量判断对经济政策的影响,本质上都是借助大数据对经济学进行更加广泛的研究和调查。他最后总结道,上述成功案例表明,在用大数据研究经济学问题时,需要关注重大现实问题,验证重要理论问题,并发明简单实用的方法。未来,学科交叉将成为大趋势,学术研究的模块化也会成为研究的新方向。
以上就是 SMP 2018 特邀报告全部内容,相信听完这六场报告,大家势必对社会媒体处理的内涵和外延产生了更丰富的认识和见解。接下来,雷锋网将会持续带来更多现场报导,敬请期待。
本文图片来源:哈工大 SCIR 李家琦,特此感谢。
雷锋网
。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/134319.html