基于 transformer 等模型的新冠疫苗情感极性分析：中美民众分别如何看待？

AI 科技评论报道

作者 | 罗杰波团队

编辑 | 陈大鑫

中美民众分别是如何看待新冠疫苗的呢？

这是一个需要我们认真研究的问题。

当今开发新冠疫苗，并在全球范围内使用疫苗，成为了终结此次疫情的优先选项。然而当全世界科学家及医学专家都在开发和测试新冠疫苗的同时，美国民众对于是否接种疫苗产生了不同的意见。根据皮尤研究中心最近的一次调研[1]，2020年5月，71%受调研的美国民众认为如果有疫苗，他们将一定或可能进行接种。然而这一比例在2020年9月骤降至51%。该调研指出，美国民众担忧的是疫苗的安全、有效性，以及疫苗的批准使用进程是否合规。

疫情如此严重，美国民众对疫苗的接受度反而出现这种反复，不由得让人想知道个究竟。同样的，中国民众是如何看待新冠疫苗的，也成为了我们关心的问题。

美国罗切斯特大学罗杰波教授团队进行了两项基于社交媒体的相关研究：

（1）基于超过一万名推特用户在2020年9-11月期间发布的对于疫苗态度的相关推特，使用人机耦合机器学习框架，捕捉美国民众对于新冠疫苗的态度；

（2）基于超过五万名微博用户在2020年1月底到11月初期间发布的与新冠疫苗相关的14余万条微博，使用机器学习框架对中国民众的情感倾向进行了统计归纳，并且根据相应的用户组和不同话题进行分类，探讨在不同子集上的情感倾向。

美国民众如何看待新冠疫苗

以美国民众为研究对象，团队发现，对疫苗持不同态度的人群比例变化大致与疫情相关事件相对应，并且美国东南地区对疫苗的接受度相对较低。为了研究美国民众态度的范围和起因，本文使用多类别逻辑回归，比较了支持、犹豫、反对这三组人的性别、年龄、社会资本、收入、宗教、政治倾向、地理位置、与疫情相关及不相关经历的情感、以及官方统计到的郡层面疫情严重程度，并发现了显著的区别。平均上于社会经济状况处于劣势的人群更容易持有极化意见（支持或反对）。

对与疫情相关经历持有最负面情感的人群，往往更可能对疫苗持反对意见。使用虚拟反事实分析，本文发现美国民众在谈及潜在疫苗时，最关注的是安全、有效性已经政治因素。另外，改善民众与疫情相关的经历有利于提高对疫苗的接受度。本文在社交网络层面，对美国民众对于新冠疫苗的态度研究，有助于未来制定更为有效的疫苗接种政策与方案。

本文利用基于 transformer 的自然语言处理模型，使用人机耦合机器学习框架，捕捉人们对于新冠疫苗的态度，并将其分为三组：支持疫苗、犹豫、反对疫苗。提出三项假设：

假设一：这三组人的性别、年龄、社会资本、收入、宗教、政治倾向、地理位置有差异。

假设二：个人与疫情相关的经历对其形成何种态度有影响。

假设三：郡层面疫情严重程度对其形成何种态度有影响。

人机耦合机器学习框架

简单地说，本文先通过标注一部分推特所呈现出的对疫苗态度，然后将其作为训练集，训练基于transformer的自然语言处理模型，并将其用于推断剩下推特所表现的对疫苗态度。

然而，不同于以往的研究，本文收集的推特中，绝大多数都与表达对疫苗态度无关。由于本研究真正关心的是那些对疫苗表达态度的推特，所以找出这些有关推特是首先要面对的问题。同时，在训练时样本不均衡，将会不仅使人为标注的过程变慢，也会抑制训练出的分类器的表现。为解决这一问题，本文使用了人机耦合机器学习框架。

本文先从 244,049 条推特中随机抽样2,000条不同的推特。三名研究者独立地阅读推特，并判断该条推特是与表达态度不相关、支持疫苗、犹豫、反对疫苗四类中的哪一类。该条推特的类别将由三名研究者的投票结果产生。如果三人的标注的类别均不相同，那么将由三位研究者讨论，给出最终结果。

这 2,000 条标注好的推特作为训练集C_train，用 XLNet 模型训练，输出为四分类，记该四分类模型为H_1。模型的表现将由另外再标注的400条推特验证集D_validation进行验证。由于样本的不均衡（绝大多数为与表达态度不相关的推特，占比84%），本文通过再训练一个二分类模型来主动寻找与表达态度相关的推特。具体来说，本文将2,000条的四分类标签改为二分类，与表达态度不相关的为一类，剩下的支持、犹豫、反对合并为一类。这2,000条用XLNet模型训练，输出为二分类，记该二分类模型为H_2。用于训练H_1和H_2的训练集除了标签分别为四分类和二分类以外没有区别。

训练完的H_2用于在最早的244,049推特集中主动寻找与表达态度相关的推特。具体操作上，本文从244,049推特中随机抽样4,500条推特，使用H_2进行分类，抽取H_2认为最有可能是与表达态度相关的推特的前10%（450条）。再随机从剩下的4,050条抽样50条。这500条推特将由前文提到的三名研究者再度进行四分类标注，加入之前的2,000条，用于扩充训练集C_train。值得注意的是，本文从4,050条中随机抽样50条目的为保证一定的多样性。接下来，本文用2,500条训练集重新训练H_1，并用D_validation进行验证。这一人机耦合过程为一轮，每一轮往C_train中扩充500条推特。

在进行五轮人机耦合标注后，最终训练样本包含4,500条不同的推特。与表达态度相关的推特占比从最早的16%上升至最终的40%。这一人机耦合机器学习框架主动搜索与表达态度相关的推特，以此来均衡样本，从而更有效地标注推特态度及构造模型。