雷锋网AI科技评论按:全国社会媒体处理大会(SMP)由中国中文信息学会社会媒体处理专委会主办,专注于以社会媒体处理为主题的科学研究与工程开发,为传播社会媒体处理最新的学术研究与技术成果提供广泛的交流平台,旨在构建社会媒体处理领域的产学研生态圈,成为中国乃至世界社会媒体处理的风向标,会议将以社交网络的形式改变传统的学术会议交流体验。
据雷锋网了解,第六届全国社会媒体处理大会(SMP 2017)由中国科学院计算技术研究所承办,将于2017年9月14—17日(也即这周四到下周一)在北京友谊宾馆召开。四天的会议都有哪些内容呢?本篇文章将对SMP大会做一个完整的梳理,以方便准备参加会议的老师、同学准确地找到自己感兴趣的内容,而不至错过。
简单来说,这次大会包含四个部分:4场讲习班、8场特邀报告、8场专题论坛、2场技术评测颁奖典礼及4场论文报告会。
讲习班
为进一步推进计算科学和社会科学的交叉融合,迸发出更多更好的思想火花以及促进研究成果的落地,SMP专委会从2017年开始推出全国社会媒体处理讲习班(SMP Tutorials),旨在选择计算科学和社会科学交叉融合的重点领域和关键技术进行系统深入的讲解。讲习班的讲者包括领域大咖和一线青年骨干,讲习班本着梳理脉络、引领方向、探索未来的思路组织,以冀为社会科学和计算科学的交叉融合提供新动力和新思潮。
讲习班将于9月14日上午开始,到9月15日下午结束,共四场。
第一天为社会科学专场,邀请了社会科学领域著名学者中山大学梁玉成讲授、北京师范大学的张伦博士和南京大学王成军博士,介绍计算社会学和计算传播学的研究进展。
第二天为计算科学专场,邀请了社会媒体计算和数据挖掘领域的青年才俊微软亚洲研究院的唐建博士和清华大学的崔鹏博士,介绍网络表示学习方面的最新研究进展。
专题(一):计算社会学的理论与方法
讲者:中山大学 国家治理研究院副院长 梁玉成 教授
讲习摘要:不同于传统社会科学所依赖的调查问卷,来自社交网络的电子行为踪迹呈现了微观,异质,实时,大规模,和相互关联等特征。在此基础之上,基于互联网的大数据,以及传统的问卷调查与行政大数据结合,都成为新的研究平台,帮助学者来认识从人类行为和社会原理。计算社会科学属跨学科的新领域。许多重要的工作来自计算机科学,物理学和数学。我将介绍这些跨学科的方法,主要包括传统调查数据与大数据结合的法则、跨越社会宏观与微观结构的社会计算、基于文本数据的社会理论研究等。
专题(二):计算社会科学视角下的计算传播学
讲者:南京大学新闻传播学院 王成军 副教授
北京师范大学艺术与传媒学院 张伦 副教授
讲习摘要:基因是生物学飞跃的原因,货币是经济学发展的关键。人类传播行为所隐藏的计算化“基因”是什么?计算传播学是计算社会科学的重要分支。它致力于寻找传播学可计算化的基因,以传播网络分析、传播文本挖掘、数据科学等为主要分析工具,大规模地收集并分析人类传播行为数据,挖掘人类传播行为背后的模式和法则,分析模式背后的生成机制与基本原理,可以被广泛地应用于数据新闻和计算广告等场景。注重编程训练、数学建模与计算思维。本次讲座将介绍计算传播学的概念、内涵、应用、工具,并讨论如何开展跨学科合作、计算传播学的研究策略等问题。
专题(三):Learning Representations of Large-scale Networks
讲者:HEC Montreal & MILA Jian Tang Ph.D
讲习摘要:Large-scale networks such as social networks, citation networks, the World Wide Web, and traffic networks are ubiquitous in the real world. Networks can also be constructed from text, time series, behavior logs, and many other types of data. Mining network data attracts increasing attention in academia and industry, covers a variety of applications, and influences the methodology of mining many types of data. A prerequisite to network mining is to find an effective representation of networks, which largely determines the performance of downstream data mining tasks. Traditionally, networks are usually represented as adjacency matrices, which suffer from data sparsity and high-dimensionality. Recently, there is a fast-growing interest in learning continuous and low-dimensional representations of networks. This is a challenging problem for multiple reasons: (1) networks data (nodes and edges) are sparse, discrete, and globally interactive; (2) real-world networks are very large, usually containing millions of nodes and billions of edges; and (3) real-world networks are heterogeneous. Edges can be directed, undirected or weighted, and both nodes and edges may carry different semantics.
专题(四):Network Embedding: Enabling Network Analytics and Inference in Vector Space
讲者:Tsinghua University Peng Cui Associate Professor
讲习摘要:Nowadays, larger and larger, more and more sophisticated networks are used in more and more applications. It is well recognized that network data is sophisticated and challenging. To process graph data effectively, the first critical challenge is network data representation, that is, how to represent networks properly so that advanced analytic tasks, such as pattern discovery, analysis and prediction, can be conducted efficiently in both time and space. In this tutorial, we will review the recent thoughts and achievements on network embedding. More specifically, a series of fundamental problems in network embedding will be discussed, including why we need to revisit network representation, what are the research goals of network embedding, how network embedding can be learned, and the major future directions of network embedding.
特邀报告
本次大会共邀请八位嘉宾做特邀报告。特邀报告将于9月16日和17日上午进行,每天各四场。
9月16日上午:
报告主题:腾讯的自然语言应用和研究
嘉宾:张潼
报告摘要:我在这里介绍一下腾讯的自然语言应用场景,现阶段取得的一些进展,遇到的挑战和今后的前沿研究方向。
报告主题:大数据在社会经济及行为分析中的应用
嘉宾:周涛
报告摘要:以几个典型的事例,呈现大数据社会经济宗教教育系统中的典型应用,包括区域经济发展决策、宏观社会经济态势感知、与人有关的行为分析、风险评估和行为预测、宗教网络结构分析等方面的应用,总结大数据特殊的方法手段以及大数据给经济社会研究可能带来的重大变化。
报告主题:社会媒体中的语言情感分析
嘉宾:秦兵
报告摘要:社会媒体是以社会网络为基础,互联网用户发表和分享信息为主要形式的在线交互媒体。在这些信息中包含大量的用户情感文本信息,并通过社会媒体影响现实世界。因此,社会媒体的发展一方面为情感分析的研究提供了海量的数据和资源,另一方面为情感分析新的任务和应用的发掘提供了新的契机。本报告将结合文本情感表达和社会媒体的特点,从情感分析研究面临的任务说起,深入探索目前情感分析的热点任务和相关算法,进一步分析和思考情感分析未来的研究趋势、以及情感分析在各个领域的应用中所面临的机遇和挑战。
报告主题:社交影响力与行为预测
嘉宾简介:唐杰
报告摘要:社会网络已经成为沟通真实物理世界和虚拟互联空间的桥梁。我们在互联网络中的行为直接反映了我们在真实世界的活动和情感。我将介绍在大规模真实网络中(如:微信、微博、Twitter、 AMiner等网络)如何分析用户之间的交互影响力和基于网络拓扑的结构影响力,并基于影响力预测用户行为。模型同时考虑了网络结构、用户属性和网络用户的偏好。并设计了针对大规模网络的并行学习算法。在实际真实在线社交系统中得到了验证。
9月17日上午:
报告主题:从舆情分析到态势感知
嘉宾:施水才
报告主题:推动人工智能发展 ——来自人类社会的启迪
嘉宾:刘铁岩
报告摘要:近年来,人工智能技术取得了飞速的发展,不仅在某些特定任务上接近人类水准,在与产业结合方面也迈出了坚实的步伐。那么,人工智能到底距离人类智能还有多远?如何才能进一步提高人工智能的水平?本报告中,我们指出目前主流的人工智能技术忽略了在人类社会(尤其是其教育体系)中扮演重要角色的两个因素:同学和教师。因为有同学,我们在成长道路上互相帮助、共同进步,“听君一席话,胜读十年书”;因为有教师,我们被因材施教、被系统地传道受业。那么如何在人工智能技术中体现同学和教师的作用呢?本报告将介绍我们最近的两项研究成果 – dual learning和learning to teach。前者利用多个智能体之间的互相协作,可以从无标签数据中学习高效的人工智能模型,也可以提高有监督学习和推断的性能。后者自动地为机器学习过程选择合适的训练数据和损失函数,实现因材施教;并通过教与学的互动,实现教学相长。我们以机器翻译为例展示dual learning 和 learning to teach 的效果,并探讨如何更多地借鉴人类社会机制,以促进人工智能技术的进一步发展。
报告主题:Modeling Dynamic Networks
嘉宾:Wei Wang
嘉宾简介:Wei Wang is the Leonard Kleinrock Chair Professor in Computer Science at University of California, Los Angeles and the director of the Scalable Analytics Institute (ScAi). She received her PhD degree in Computer Science from the University of California, Los Angeles in 1999. She was a professor at the University of North Carolina at Chapel Hill from 2002 to 2012, and was a research staff member at the IBM T. J. Watson Research Center between 1999 and 2002. Dr. Wang's research interests include big data analytics, data mining, bioinformatics and computational biology, and databases. She has filed seven patents, and has published one monograph and more than one hundred seventy research papers in international journals and major peer-reviewed conference proceedings.
报告主题:Bridging Digital Divide: Online Opinion-Policy Nexus and Government Responsiveness in China
嘉宾:孟天广
报告摘要:The widespread use of information and communication technology (ICT) has reshaped the public sphere in the digital era, making both digital democracy and digital divide for political life. Internet is widely touted for its potential to facilitate government responsiveness and reduce inequality in political influence among citizens through lowering participation cost and amplifying pressure from below, but few research examined the online opinion-policy nexus. Based on a series of big data analytics to massive administrative data of online citizen-government interaction in China, the study provides new micro foundations for both the facilitating effect and equalizing impact of Internet-based participation on local government policies in the regime level. The study finds that China government is considerably responsive to citizens' opinion with a rapid growth of response rate in both individual and policy level, and the popularity of online participation led local government to produce pro-redistributive policy, which disproportionately benefit the lower class.
论文报告
论文报告将在9月16日下午14:00-16:00分四组同时进行,分别为社会网络分析、自然语言处理、文本挖掘与情感分析、数据挖掘与知识发现,每组分别有6场报告。
1、社会网络分析
-
Divergence
or Convergence: Interaction between News Media Frames and Public Frames
in Online Discussion Forum in China(Lun Zhang) -
传播源估计中有效观察点部署策略研究(Dong Liu, Jing Zhao and Hao Nie)
-
异质信息网络中基于元路径的社团发现算法研究(Yuyan Zheng, Mingsheng Wang, Rui Wang and Chuan Shi)
-
When Dragon and Crescent are in the Same Tweet: Exploring
the Country Co-Occurrence Network in the Twittersphere in an
International Economic Event(Xinzhi Zhang) -
Hierarchical
Community Structure Detection based on Multi Degrees of Distance and
Submodularity Optimization(Shu Zhao, Chengjin Yu and Yanping Zhang) -
The 2016 US Presidential Election and its Chinese Audience (Jiahua Yue, Yuke Li and James Sundquist)
2、自然语言处理
-
Neural
Chinese Word Segmentation as Sequence to Sequence Translation(Xuewen
Shi, Heyan Huang, Ping Jian, Yuhang Guo, Xiaochi Wei and Yikun Tang) -
Entity
Set Expansion on Social Media: A Study for Newly-presented Entity
Classes(He Zhao, Chong Feng, Yuxia Pei and Zhunchen Luo) -
Opinion Target Understanding in Event-level Sentiment Analysis(Suyang Zhu, Shoushan Li and Guodong Zhou)
-
基于DQN的开放域多轮对话策略学习(宋皓宇, 张伟男, 刘挺)
-
EEG: Knowledge Base for Event Evolutionary Principles and Patterns(Zhongyang Li, Sendong Zhao, Xiao Ding and Ting Liu)
-
融合深度匹配特征的答案选择模型(Wenzheng Feng and Jie Tang)
3、文本挖掘与情感分析
-
TLRank:一种新的社会化协同排序推荐算法(李改, 陈强, 李磊)
-
Supervised Domain Adaptation for Sentiment Regression(Jian Xu, Hao Yin and Shoushan Li)
-
Dependency-Attention-based LSTM for Target-Dependent Sentiment Analysis(Xinbo Wang and Guang Chen)
-
Deep Transfer Learning for Social Media Cross-Domain Sentiment Classification(Chuanjun Zhao, Suge Wang and Deyu Li)
-
基于协同表示学习的个性化新闻推荐(Shiwei Liang, Chenrui Zhang, Lei Cao, Hongbo Xu and Xueqi Cheng)
-
Context Enhanced Word Vectors for Sentiment Analysis(Zhe Ye and Fang Li)
4、数据挖掘与知识发现
-
社会网络中基于主题兴趣的影响最大化算法研究(Yong Liu)
-
Supervised Hashing for Multi-labeled Data with Order-Preserving Feature(Dan Wang, Heyan Huang, Xian-Ling Mao and Hua-Kang Lin)
-
异构数据源论文集成(Fanjin Zhang, Xiaotao Gu, Peiran Yao and Jie Tang)
-
Inferring User Profile using Microblog Content and Friendship Network(Zhishan Zhao, Jiachen Du, Qinghong Gao and Ruifeng Xu)
-
在线技术社区的用户技能与兴趣发现(张东雷, 林友芳, 陆金梁, 马语丹, 万怀宇)
-
A
Markov Chain Monte Carlo Approach for Source Detection in Networks(Le
Zhang, Tianyuan Jin, Tong Xu, Biao Chang, Zhefeng Wang and Enhong Chen)
技术测评
本次大会共有两个技术评测,分别为:CSDN用户画像技术评测和中文人机对话技术评测。两次测评的颁奖典礼及测评报告将在9月16日下午16:00-18:00分场同时进行。
CSDN用户画像技术评测
本次CSDN用户画像技术评测吸引了来自全球200多家单位的757名选手报名参赛,共组建了329支参赛队伍,最终共有52支队伍完成比赛并提交了完整有效的评测结果。
在大会期间(9月16日下午),将会为获奖队伍举行颁奖典礼,并邀请获奖队伍做评测报告。
中文人机对话技术评测
中文人机对话技术评测主要包括两项任务:(1)用户意图领域分类;(2)特定域任务型人机对话在线评测。经过近五个月的筹备和角逐,目前已顺利落下帷幕,关于任务一(包括封闭式和开放式)和任务二的评测结果如下:
任务一:用户意图领域分类
1、封闭式评测
2、开放式评测
任务二:特定域任务型人机对话在线评测
在大会期间(9月16日下午),将会为获奖队伍举行颁奖典礼,随后将邀请获奖队伍做评测报告。
专题论坛
SMP 2017大会共有八个专题论坛,分别为:
1、智能教育论坛(9月16日下午16:00-18:00)
2、计算传播学论坛(9月16日下午16:00-18:00)
3、智能金融论坛(9月17日下午14:00-16:00)
4、情感分析论坛(9月17日下午14:00-16:00)
5、计算社会学论坛(9月17日下午14:00-16:00)
6、表示学习论坛(9月17日下午16:00-18:00)
7、推荐系统论坛(9月17日下午16:00-18:00)
8、企业论坛 (9月17日下午16:00-18:00)
1、智能教育论坛
时间:2017年9月16日下午 16:00-18:00
论坛简介:当前人工智能与教育的深度融合正在对教育领域的发展发挥着越来越重要的作用,其核心在于促进传统教学方式、学习方式、评估方式及教学管理模式的智能化转型与变革,以更有效地服务于个性化教育、学习与管理,实现因材施教及教育资源的优化配置。本论坛将集中展示多位智能教育领域的专家探析智能技术促进教育、学习的研究。内容包括:对教育大数据科学基础、服务模式及机遇与挑战的深度解析;阐述大数据和移动学习背景下的语言教学技术;介绍机器智能阅卷技术及推广应用。
论坛主席:何婷婷(华中师范大学教授)
报告主题:教育大数据:机遇与挑战
嘉宾简介:刘三女牙,华中师范大学教授
报告摘要:随着大数据时代的迅猛而至,大数据已经开始冲击着各行各业,并影响着教育的方方面面。当前,“数据驱动学校,分析变革教育”已逐渐成为共识,教育大数据已引起业内外的高度关注。教育大数据在促进教与学,推进教育决策的科学性,完善教育质量监控体系,变革教育管理,实现教育评价的全面性和客观性,助力智慧教育等方面带来了重大的机遇。但是,教育大数据的发展才刚刚起步,还面临诸多挑战:如何界定教育大数据?大数据环境下的教育伦理如何构建?如何量化教育场景及相应主体?教育大数据的科学基础是什么?如何打造面向未来的教育大数据服务模式?机遇与挑战并存,唯有抓住机遇,迎接这些挑战,教育大数据产、学、研健康发展才有根本保障,精准化、个性化、智慧化的未来教育新生态也才能取得理想效果。
报告主题:How AI help MOOCs
嘉宾简介:唐杰,清华大学副教授
报告摘要:Massive open online courses (MOOCs) boomed in recent years and have attracted millions of users worldwide. It is not only transforming higher education, but also provides fodder for scientific research. In this talk, I am going to first introduce the major MOOC platforms in China, for example XuetangX.com, a similar platform to Coursear and edX, is offering thousands of courses to more than 7,000,000 registered users. I will also introduce how we leverage AI technologies to help enhance student engagement on MOOCs.
报告主题:面向移动学习的汉语教育技术
嘉宾简介:荀恩东,北京语言大学教授
报告摘要:语言教育技术面向语言研究、语言学习和语言相关服务,为老师、学生和语言服务者提供信息技术支持,现代语言教育技术是多个方向组成的技术群,本报告对涉及到技术进行梳理,介绍大数据和移动学习背景下语言教学技术的相关研究和开发工作。介绍研发的教育技术系统,包括BCC语料库、卡片汉语和汉字书写练习等。
报告主题:讯飞超脑智能阅卷——AI让教育更加公平高效
嘉宾简介:付瑞吉,科大讯飞研究院北京分院副院长
报告摘要:阅卷是老师教学工作中,非常重要的一环,同时也十分耗时耗力。随着科技的发展,机器可以协助我们进行数据计算、体力劳动等工作。那么,“阅卷”是不是也可以由机器代劳呢?答案是肯定的。科大讯飞的研究员们就实现了口语和中英文作文的自动评阅,并且在全国多地开展应用。机器“阅卷”标准统一,不会受体力、情绪等主观因素影响,更加公平高效。教师们将会有更多的时间和精力被解放出来,投入到对教学方法、教学手段等创造性工作的研究中,学生们也会因此获得更好、更全面的教育。这样的未来,你期待吗?
2、计算传播学论坛
论坛时间:2017年9月16日下午 16:00-18:00
论坛简介:计算传播学致力于寻找传播学可计算化的基因,以传播网络分析、传播文本挖掘、数据科学等为主要分析工具,大规模地收集并分析人类传播行为数据,挖掘人类传播行为背后的模式和法则,分析模式背后的生成机制与基本原理。最近几年,计算传播学正在成为计算社会科学中重要的研究领域。本次论坛邀请了香港城市大学计算社会科学讲座教授祝建华博士、北京师范大学新闻与传播学院吴晔教授以及今日头条算数中心总监赵蕾女士,分别从学科反思、研究案例以及业界应用三个层面对计算传播学进行多面向探讨。
论坛主席:沈浩 教授(中国传媒大学)
报告主题:计算传播学的金矿与泥坑
嘉宾简介:祝建华,香港城市大学教授
报告摘要:计算传播学研究日益普及,现在既有可能、也有必要回顾总结一下相关的成果与问题。根据我们的研究来看,计算传播学大多采用文本挖掘方法以研究特定事件的报道和评论内容。这种研究路径,既有其价值和贡献、但也含有内在局限,尤其是难以回答主流传播学更关心的理论问题,如社会媒体的使用与效果。后者含有更多的理论金矿,需要更广泛地借助于行为挖掘或在线实验。
报告主题:人行为中的厚尾现象及其在传播中的影响
嘉宾简介:吴晔,北京师范大学教授
报告摘要:自2005年复杂网络的先驱A.L.Barabasi教授从书信和Email的实证中发现人的通信行为是非泊松过程,其连续事件之间的时间间隔是一个厚尾的幂率分布之后,越来越多的实证证据表明厚尾现象在人的行为中是一种常见现象,由于厚尾现象中的幂率分布的均值经常是发散的,故会对基于人的行为的各种集群现象产生很大的影响,比如传播,选举,意见形成,同步等。本报告将介绍我们组在这方向的一些进展,主要是人的短信行为,论坛发帖行为,大众点评行为中的厚尾现象,以及厚尾现象对传播的影响。
报告主题:个性化推荐资讯平台的数据应用探索
嘉宾简介:赵蕾,今日头条总监
报告摘要:报告主要介绍头条两款大数据产品媒体实验室、头条指数,头条数据在手机行业的应用。
3、智能金融论坛
时间:9月17日下午 14:00-16:00
论坛简介:当前人工智能与金融的深度融合正在对金融领域的发展发挥着越来越重要的作用,其核心在于用人工智能技术自动化和智能化金融交易,并促进传统金融业的投资、分析、管控的智能化转型与变革。本论坛将集中展示多位智能金融领域的专家探析智能技术促进金融领域的研究。内容包括:大数据、人工智能与中国金融机遇。
论坛主席:刘挺 教授(哈尔滨工业大学)
报告主题:区块链、人工智能与社交金融新思路
嘉宾简介:白硕,阡寻科技董事长
报告摘要:社交账户具有高度的稳定性和持续性。社交平台可利用去中心化方式打造;付费社交可通过区块链技术结算和打赏;用户画像可进一步延伸到金融维度;用户身份证明可充分利用社交信息。区块链、人工智能正在通过深度渗透和融合,逐渐改变社交平台的特性,形成信息、知识、价值三者之间良性互动的生态。
报告主题:AI Challenges to Finance and Economics: When all agents are fully rational.
嘉宾简介:邓小铁,上海交通大学教授
报告主题:大数据、人工智能与中国金融机遇
嘉宾简介:叶强,哈尔滨工业大学管理学院教授、院长
4、情感分析论坛
论坛时间:2017年9月17日下午 14:00-16:00
论坛简介:近年来,情感分析已成为社会媒体处理领域中的研究热点问题之一。随着互联网上异构数据的不断涌现,对于多模态信息情感分析的研究也逐渐成为社会媒体处理领域中新的研究热点。为了进一步推动情感分析技术向纵深方向发展,促进社会媒体处理领域的前沿技术交流,本次论坛邀请了来自苏州大学、清华大学和腾讯公司的三位专家讲者,分别从文本情绪分类,跨媒体领域的情感计算和基于社交媒体的舆情监控等方面展现情感分析研究的前沿动态。具体报告内容如下:文本情绪分类是情感分析中一项重要的基础研究,苏州大学李寿山教授将针对文本情绪分类中标注语料匮乏问题介绍其相关研究工作;针对如何从互联网海量异构数据中获取用户情感、以及如何把情感与心理健康分析相关联等技术挑战,清华大学贾珈副教授将介绍其在网络海量数据的情感计算与交互方面开展的相关研究工作;情感分析技术在业界具有广泛的应用前景,腾讯公司杨巍将结合具体应用场景以及海量社交数据,介绍腾讯公司在舆情技术方面的探索以及基于相关技术的商业化尝试。
论坛主席:秦兵 教授(哈尔滨工业大学)
报告主题:文本情绪分析关键技术研究
嘉宾简介:李寿山,苏州大学教授
报告摘要:情感分析是自然语言处理方向的一个重要研究子方向。文本情绪分类是情感分析研究中的一项基础内容。本报告主要针对文本情绪分类中标注语料匮乏问题,介绍了近几年的部分研究工作。具体内容包括:文本情绪分类体系构建和相关语料库建设;基于协同训练的读者情绪半监督分类方法;基于标签传播的读者情绪半监督分类方法;基于图标信息的词向量学习方法及其在文本情绪分类方面的应用。
报告主题:网络海量跨媒体数据的情感计算
嘉宾简介:贾珈,清华大学副教授
报告摘要:针对如何从互联网海量异构数据中获取用户情感、以及如何把情感与心理健康分析相关联等技术挑战,本次报告将系统介绍报告人在网络海量数据的情感计算与交互方面开展的研究工作,重点介绍情感维度属性与情感认知表征的关联方法、融合深度学习与因子图的海量跨模态异构数据的情感预测模型、以及面向心理健康的情感计算方法等。此外,报告还将展示基于网络海量数据情感计算的其它相关应用研究,例如如何让计算机学会欣赏人类眼中的美学。
报告主题:基于社交媒体的舆情分析及商业化探索
嘉宾简介:杨巍,腾讯AI平台部基础技术中心和游戏AI中心总监
孙钟前,腾讯AI平台部大数据方向负责人
报告摘要:舆情分析已经有较长的研究历史,但随着科技发展和社会进步,舆论在传播渠道、形式、时效性、数据量等方面都与以前有较大的差异,同时,舆情分析的作用也不再局限于舆情安全,对商业活动同样具有非常重要的意义。在不断深化的大数据和网络时代,如何使用技术的手段对海量数据进行分析,以获取有价值的信息?这些信息如何作用于商业活动,给企业带来商业价值?本报告主要介绍两方面内容:一是基于海量社交数据,腾讯在舆情技术方面的探索。二是,结合腾讯的应用场景,舆情分析在商业化方面的尝试。
5、计算社会学论坛
时间:9月17日下午 14:00-16:00
论坛简介:大数据时代的到来,既向传统的社会科学分野及其方法论范式提出了挑战,又为全新的学科发展及其方法论范式的突破准备了基础条件;“计算社会科学”(computational social science)应运而生,形象地概括了社会科学在大数据时代所呈现出的新发展、新动态和新前景。计算社会科学旨在探讨如何立基于海量数据和大数据方法的发展,以研究人类社会的结构、行为和关系,社会运行的属性和规律等涉及社会科学基本范畴的问题,对于构建有中国特色的社会科学具有极其重要的意义。计算社会科学立足于“第四范式”,强调在科学研究和技术应用方面,要更多地利用数据,要在科研领域发展并推广数据采集、数据存储、机器学习、数据可视化等方面的技术,促进数据和科研成果的分享和更加广泛的使用,推动定性研究和定量研究的融合。本论坛将集中展示多位计算社会科学领域的专家,利用社交媒体数据、政务数据和行政记录数据等多元数据集,探析大数据在社会学、政治学、经济学和公共管理等领域的应用。内容包括:网络媒体大数据中的用户建模研究;基于网络问政平台开展公众网络反腐败参与的大数据研究;基于广州政务论坛探讨地方政府在线回应现状及影响因素;基于行政数据开展老年人共病对北京市城镇职工医疗保险支出的影响的卫生大数据研究。
论坛主席:孟天广 副教授(清华大学)
报告主题:网络媒体大数据中的用户建模研究
嘉宾介绍:王莉,太原理工大学教授
报告摘要:人是技术进步的驱动者、使用者和终极服务目标,了解用户是政府管理与决策、商业服务、教育培训等各领域的重要内容。用户建模就是对用户的人口特征、兴趣偏好、关系结构、行为模式等不同维度属性进行标签化,网络媒体大数据为用户建模提供了新的契机和挑战。本报告将针对网络媒体大数据环境中多源异构数据汇合带给用户建模的新契机、新挑战以及相关研究工作、解决策略进行汇报和讨论。
报告主题:公众网络反腐败参与研究——以全国网络问政平台的大数据分析为例
嘉宾介绍:李莉,中国政法大学教授
报告摘要:贪腐问题不仅是党和政府致力于解决的重大社会问题,也是民众网络政治参与的重要诉求内容。本文通过网络问政平台获得的民众网络举报腐败投诉的海量信息,综合应用自动文本分析、空间分析和统计分析方法,描述和统计了民众网络投诉的数量变化、议题类型分布状况以及不同身份的投诉主体的诉求内容。民众通过网络这一信息平台进行腐败投诉的行为不仅是新媒介环境下实现政治参与的有效手段,而且也是观察十八大以来反腐倡廉工作成效的渠道。
报告主题:地方政府在线回应现状及影响因素探究:基于广州市政务讨论板的大数据分析
嘉宾简介:郑跃平,中山大学研究员
报告摘要:随着信息技术与互联网的快速发展,网络参与逐渐兴起,地方政府越来越多地采用政务讨论板来鼓励公民参与并提升政民互动水平。然而数据表明,地方政府在回应公民网络参与方面的表现不佳,阻碍了政府与公民之间的良性互动。现有文献试图从技术、预算、人力资源等政府能力视角来解释地方政府在线回应不足,但公民参与对政府在线回应的影响并未充分讨论。为此,本研究选取广州市政务讨论板作为研究对象。使用Python对2.7万条市民咨询投诉数据进行分析,并将文本转化为相关变量通过回归模型来检验公民网络参与对政府在线回应的影响。研究结果表明,公民参与会显著影响地方政府的在线回应,参与主题及形式的差异会带来政府在线回应的不同。
报告主题:老年人共病及其对北京市城镇职工医疗保险支出的影响:一项公共卫生大数据研究
嘉宾介绍:陈鹤,北京大学讲师
报告摘要:共病(即患有至少两种慢性病)是老年患者中的普遍问题,越来也受到各国医疗政策制定者的重视。但是,关于中国老年人共病的研究比较稀少。以北京市城镇职工医疗保险在2015年具有支付记录的参保人为总体,本研究采取系统抽样抽取2%的参保人,即按照年龄对受访人排序后,每50人抽取1个样本。针对被选择的参保人,提取所有的医保支付记录。进一步,再从中选取年龄为60岁及以上的参保人的医保记录进行分析。共得到193.64万支付记录。基于共病测量的方法论综述以及全球疾病负担2013结果,选取对老年人疾病负担重要的33种疾病,包括肿瘤、脑血管病、缺血性心脏病、糖尿病、抑郁等。基于此,本研究计算了共病在北京市城职保老年参保患者中的现患率、分布情况以及对医保支出的影响。
6、表示学习论坛
论坛时间:2017年9月17日下午 16:00-18:00
论坛简介:表示学习旨在学习研究对象的语义表示,是机器学习和人工智能的重要研究课题,最近在语音、图像、语言以及知识、社交网络等方面取得了很多成果。该论坛旨在分享表示学习的最新研究趋势和现状,研讨该方向的重要问题与挑战,推动表示学习在社会计算中的研究与应用。
论坛主席:刘知远 助理教授(清华大学)
报告主题:表示学习在推荐系统中的应用
嘉宾简介:赵鑫,北京大学博士,中国人民大学信息学院讲
报告摘要:推荐系统已经成为电子商务平台和社交网络平台必不可少的重要功能组件,其中一个重点就是如何设计更为有效的推荐算法。传统的推荐算法主要是基于协同过滤、矩阵分解等。作为一个较为新兴的研究方向,表示学习最近几年得到了广泛的研究和应用,包括推荐系统。本次报告试图打通领域间的界限,讨论表示学习在推荐系统中的应用。特别地,将介绍word embedding、network embedding、knowledge graph embedding和metric learning等技术在推荐算法中的借用和移植,从多个角度来分析表示学习在推荐系统的一些最新进展。
报告主题:自然语言表示学习
嘉宾简介:韩先培,中国科学院软件研究所副研究员
报告摘要:自然语言的表示学习是深度自然语言处理方法的基础,极大的提升了自然语言处理多个任务的性能并降低了系统构建难度。本报告介绍面向自然语言表示学习,介绍了当前的研究现状,从早期的离散表示,到分布式表示,再到分散式表示;并进一步总结目前不同方法之间的内在关联,以及存在的问题和挑战。最后对未来的发展趋势做出展望。
报告主题:语言表示学习与计算社会科学
嘉宾简介:刘知远,清华大学计算机系助理教授
报告摘要:语言是人类交流的工具、人类文化的载体,是了解人类社会的重要视角。近年来随着表示学习在自然语言处理中的应用,语言表示学习也为社会科学研究提供了全新的技术工具,特别是面向在线社会媒体的大规模用户产生内容进行用户和内容分析,具有很大优势。本报告将介绍语言表示学习技术在计算社会科学方面的最新动态,探讨该方向的未来发展趋势。
7、推荐系统论坛
论坛时间:2017年9月17日下午 16:00-18:00
论坛简介:推荐系统在金融、电商、零售、社交媒体等领域有着广泛的应用。近年来,人工智能在语音识别、计算机视觉、自然语言处理等领域取得了重大的突破,但在推荐系统领域的研究与应用仍处于早期阶段。本论坛邀请了多位推荐系统领域的学者,共同分享他们在这个领域的最新研究成果,以及对推荐系统未来的思考。论坛内容包括:融合用户上下文的个性化推荐;今日头条的人工智能技术实践;基于循环神经网络的序列推荐;以及冷启动推荐的思考与进展。
论坛主席:谢幸 研究员(微软亚洲研究院)
报告主题:融合用户上下文的个性化推荐
嘉宾简介:张敏, 清华大学计算机科学与技术系副教授
报告摘要:各类电商和社交平台积累了丰富的用户数据,在推荐系统的设计中,如何有效的利用用户信息来提升推荐的精度和用户体验是一个尚待解决的问题。本次报告试图从模型设计和理论探索角度出发,讨论我们在推荐系统中融合用户上下文的思路和最新进展。报告将从三个方面介绍我们利用用户上下文拓展传统推荐方法的尝试,包括如何对社交网络和推荐系统中的隐式反馈进行精细建模,如何利用神经网络和用户社交信息对经典的SVD++ 进行拓展,以及如何将个性化推荐拓展到群组推荐并利用帕累托最优方法来同时确保推荐效益和公平性。
报告主题:今日头条的人工智能技术实践
嘉宾简介:曹欢欢,今日头条算法架构师
报告摘要:近几年人工智能技术的发展如火如荼,一个突出的表现就是很多传统行业正在被人工智能技术深刻影响。2012年上线后迅速崛起的明星产品今日头条就是一个用人工智能技术颠覆信息分发行业的经典案例。那么今日头条到底应用了哪些人工智能技术?这些技术是如何提升了用户和内容生产者使用体验的?在这个报告里,我将尝试简要的解答上述问题,希望能给各位业界同仁一些有益的启发。
报告主题:基于循环神经网络的序列推荐
嘉宾简介:吴书,中国科学院自动化研究所副研究员
报告摘要:随着互联网应用的快速发展,推荐系统逐渐成为了信息检索、数据挖掘等领域中的研究热点。它不仅能提升用户体验,同时也能为应用平台创造更多价值。在广泛存在的序列推荐场景中,传统方法在还存在着一系列的局限性,同时在面对实际应用场景时传统方法常无法建模好其中的关键因素。报告围绕序列推荐中存在的一些主要问题,构建基于循环神经网络的序列推荐模型框架,详细讲述针对情境建模、时序建模提出的策略,介绍如何更为有效的利用时空情境信息、有效建模一般情境和时序情境、把握多行为关系等方面的一系列探索,以期构建更为有效可靠的序列推荐模型。
报告主题:冷启动推荐的思考与进展
嘉宾简介:赵鑫,北京大学博士,中国人民大学信息学院讲师
报告摘要:推荐系统已经成为电子商务平台和社交网络平台必不可少的重要功能组件。长期困扰推荐系统的一个问题就是“冷启动推荐”问题。冷启动推荐问题通常包括两种:新用户推荐和新物品推荐。本次报告试图对讲者以及其他学者最近的一些研究进展进行一次梳理和总结,给出对于冷启动推荐的部分解决思路。报告主要涵盖两大块:新物品和新用户推荐。新物品推荐主要介绍最新的一些深度学习的研究进展(非讲者工作),新用户推荐主要介绍基于用户属性的方法与基于物品代表的方法(讲者工作)。
8、企业论坛
论坛时间:2017年9月17日下午 16:00-18:00
论坛简介:近年来,社会媒体处理技术的发展如火如荼,一个突出的表现就是IT创新企业几乎涵盖了与社会媒体处理技术相关的各类业务。本论坛旨在分享与社会媒体处理技术相关的企业主要业务、分析行业发展趋势,使之一方面有效增进校企合作、产研结合,另一方促进相关领域的高校人才培养,更好的服务企业,服务社会。
论坛主席:李斌阳(国际关系学院)
报告主题:新浪微博Feed流机器学习实践
嘉宾简介:刘博,高级架构师,新浪微博高级架构师
报告摘要:Feed流如何实现内容高效分发是近几年业界互联网公司探索的问题。新浪微博以月活 跃用户3.6亿规模的绝对优势,领跑社交媒体行业。在如此大的用户规模下,如何通过机器学习实时捕捉 用户行为并对内容做及时调整,是微博机器学习研发部一直探索与实践的问题。报告将围绕在微博关系流 中用到的机器学习技术、这些技术如何提升用户发现和消费内容效率等进行概要介绍。
报告主题:知识图谱在司法领域内的一些尝试和应用
嘉宾简介:舒怡,国双司法大数据事业部总经理助理
报告摘要:专业领域知识图谱如何搭建,专业领域知识图谱如何支持应用一直是大家关注的主题。国双公司作为中国首家赴美上市的大数据及云计算企业级软件公司,进年来深耕法律领域,组建了强大的司法实务专家团队,与数据工程师紧密结合,依托公司大数据技术探索了司法知识图谱的搭建,并成功推出了“法信”、“知识产权案例指导服务平台”及一系列服务司法的工具型产品。均受到最高人民法院、政法委领导的高度评价。本次报告希望通过知识图谱概述和知识图谱构建的主要技术与应用介绍,简述国双公司在知识图谱领域的实践经验。复盘国双公司在司法知识图谱搭建过程中的探索经历,比如如何与传统知识库对接,以应用为导向改造传统知识库等,总结国双公司司法知识图谱与应用场景结合的方式与方法,提出我们对构建专业领域知识库的设计思想。展示国双公司在司法领域事件图谱的新尝试。
报告主题:三角兽对话系统的技术框架与理论研究进展
嘉宾简介:王宝勋,三角兽公司首席科学家、合伙人,前微软小冰机器学习科学家
报告摘要:三角兽是由百度度秘、微软小冰核心团队组成,提供对话式交互解决方案和端对端交互系统,是国内人工智能语义领域发展最快,技术落地领域最广的公司,已经与BAT、微软、移动、新浪、小米、富士康、锤子、光明网、扶贫办、恒生、新东方、Rokid、Jibo等达成合作。开创了微软小冰和百度度秘聊天技术,情绪识别准确率 99%,拥有超百亿语料,逐步去结构化,具备领域无关的高度泛化统计模型,从零建设了百度度秘中控。本次分享人将概述对话系统,就对话系统由技术路线及商业实践进行介绍。
雷锋网(公众号:雷锋网)注:了解更多信息可参看 「SMP 2017官网」
。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/128477.html