HOME > 研究成果 > 时评
时评 COMMENTARY
非本院作者
蒋旭栋
日本网友对安倍政府的“情绪”
蒋旭栋 2018-10-22


文尝试通过自然语言处理对雅虎日本论坛“Textream”内两个帖子中的4643条与14624条评论,进行描述统计。


1  引言


若论近期日本政坛热点,定提及安倍成功连任。然就其连任而言,本就无甚悬念。日本政治精英照着编排好的剧本来演,底下吃瓜群众看看热闹,听听媒体“吹拉弹唱”“读读旁白”,好不热闹。

一出政治喜剧过后,留下的是政治强人的足迹,彰显的是世家政治的强悍,也许背后还有美国“总导演”的暗暗鼓掌。安倍的政治力量,不仅源于自身之坚持,亦源自美日两国政治精英的共同扶植。安倍连任所带来的政治隐喻不单纯是一党一派之绝对强势,亦有安倍对美国所做之承诺“Japan is back”所言非虚。

客观而言,无论是安倍外交学、安倍经济学,都有一定成效。日本的外交局面在其任内确有“俯瞰地球仪”之架势,日本的经济颓势亦有止跌回升之势头,两者相交,诸相呼应,对外赢得美国赞扬,对内取得国内财团之认可。

视线转向另一边,在安倍的所作所为中恰恰看不到普通民众的身影。对于日本的普通民众而言,闲暇时在网络上发发牢骚,宣泄不满;翌日清晨,洗漱完毕,伸伸懒腰,接着上班。日复一日,年复一年。日本上层建筑之变化,对底层民众来说无非就是“年年岁岁花相似,岁岁年年人不同。”

在日本最大的门户网站“雅虎日本”的论坛“Textream”上,早在2014年12月20日就发起了一则名为“第3届安倍内阁”的帖子。而日本自民党决定将“连任2届共6年”的总裁任期上限延长至“连任3届共9年”还要在两年后的2016年。

这则具有预言价值的“帖子”,也许在当时仅是戏虐,但在今天却是现实。因此,笔者饶有兴趣地翻看一番,并对其作为样本采集。看看,日本的网友到底是怎么看待安倍第三次连任的?

通过基础的文本阅读可做质性分析的判断,即日本网友在网络上对安倍政府多有不满。然而,做好坏之判断容易,但具体“好”“坏”到什么程度?却难判断。故而,笔者引入“情感分析”,尝试对日本网友的“情绪”进行度量。


2  案例一:对帖子“第三届安倍内阁”的分析


首先,笔者采集了自2017年9月1日~2018年9月30日间的数据,合计评论数:4643条。

之所以选择这一区间:一是因为日期较为规整,二是因为采集过早的数据其现实意义并不强。就日本国内政治而言,安倍连任之心虽是“路人皆知”,但直至2017年才愈发凸显其现实意义。这也是为何会在2017年才接连爆出“森友”、“加计”丑闻,意在为安倍连任制造困难。当然,现在看来丑闻亦未动摇安倍的根基。

其次,笔者利用日本工业大学高村大也团队所制的《日语单词情感极性对照表》为基础,匹配每一条网友评论中的“情感词”并取平均数得出“情感值”。

高村团队所作的《日语情感词表》,主要标注了日语的情感极性。情绪极性是一种二元属性,表示该词是否具有积极意象(正面)或消极意象(负面)。该《词表》中的词语取自《岩波日语词典》,情感区间为-1到 1。越接近-1,情感越是负面(-1~0);反之,越接近 1,情感越接近正面(0~ 1)。故本文的“情感值”简写为“PN值,positive&negative”)。

最后,在数据预处理与可视化后,可知:

(图一)

(1)从图一中可看出日本网民评论的分布区间,对安倍的评论基本都是负面(注:PN 为情感值,),都集中在(-0.6~-0.4)的区间内,中位数是-0.517205。

(2)在添加时间序列后,可得图二,看出日本网民在一年的时间区间内对“第三届安倍内阁”的评论情绪的变化。

(图二)

(3)利用LDA主题模型取出关键词。LDA(Latent DirichletAllocation)最初是由David Blei,Andrew Ng和Michael I. Jordan于2003年撰文提出。它的本质是一种概率论。LDA假设每一篇文章中都包含多个主题,而每个主题各对应一组词汇。反过来,多种主题亦构成了整篇文章,而构成文章的词汇则是基于一定概率相互排列。因而,可通过计算概率分布,找出对应主题。

另一方面,由于网友评论难有单一见解,往往分属不同主题,如森友、加计为代表的腐败问题;如朝核危机为代表的安全问题;又如特朗普同安倍会谈为代表的外交问题,各式各样,难以穷尽。因此,本文采用无监督学习方法中的LDA模型,尝试抽取5个主题。结果如下:

(表一)

从主题分析的结果可见,在日本的内部事务中,选举、野党、天皇、自卫队等词总是如影随形的出现,是日本国内关注度颇高之话题。另一方面,在日本的外部事务中,朝鲜半岛与中国仍是日本关注最高的地区,亦可窥得日本网民之“视界”。其中,凡是提及中美两国,则往往与经济问题联系在一起,由是可知日本经济对中美依赖之深。


3  案例二:对帖子“安倍才是有资格担任日本首相的人”的分析


在笔者对案例一的分析完毕后,关注到同一论坛中有题为“安倍才是有资格担任日本首相的人”这一帖子。

该帖自2013年发起,当前70万条留言置于其下,旁观者数倍之,是论坛中政经栏目下最活跃的帖子,故而笔者决定对该帖进行同样的数据分析,测试这一看似命名“积极正面”的帖子,日本网友是否会在此处对安倍政府做积极的评价?

因而如法炮制上述步骤,但因该帖内数据量较大,故便于分析,仅取2018年9月1~30日,一个月内的数据,合计共14624条评论。可见该帖之活跃,仅一个月内的评论就已是“第三次安倍内阁”帖下评论数量的3倍之多。

在同样利用“情感分析”测量后,如下图所示:

(图三)

(图四)

    (1)由上述两图可知,在“安倍是有资格担任日本首相的人”这一看似积极正面的命名下,日本网友的评论依旧负面居多(主要集中在-0.6 ~ -0.4),这与”第三届安倍内阁”相似(表二)。

(表二)

(2)如图三、图四所示,与案例一不同,在本案例中可以看到部分“情感值”颇为正面,甚至接近于 1。然而,细读之,可发现积极正面的评论多是“讽刺”言语,如图五所示:

(图五)

(3)同样利用LDA主题模型取出5个主题:

(表三)

其中,值得关注的是,第5组主题与“第三届安倍内阁”帖下的第5组主题在关键词上高度重合(表四),可窥得日本网友看待安倍内阁之共识。

(表四)


4  研究方法的缺陷


出于对日本网友对安倍政权评价的具体程度的好奇,笔者尝试对“雅虎日本”进行“情感分析”。然而,本次笔者所利用情感词典取平均数的方法,进而获得情感值的“情感分析”。但在实际运用中仍有缺陷,主要表现在:

(1)当前所用方法无法判断“讽刺”语言,如(图五)所示。

(2)当前所用方法仅能根据情感词汇赋值,难以结合特定“场景”做判断,如案例二中的2018年9月27日的一条评论,情感值为(-0.428192)(图六),粗看起来颇为“中性”,但展开细读之,可知并非如此。

(图五)

 笔者将上述评论中省略部分展开并翻译如下:

      【在左翼人士的看来,安倍连任是“保守派没有做好的判断”,而保守派则认为左翼没有脑子。就像有的分析师说股票年底会涨,也有人会说下跌,但最终是涨是跌只有天知道。左派最大的缺点只相信有利于他们的信息,而忽略对他们不利的消息。最糟糕的是,左派总是说他们的意见和你所要的东西一样。由于左派不断重复说这些内容,就像他们总说‘打工的人要和公务员拿一样的工资’这类傻话,致使其信誉大打折扣。他们就像是群只会做减法的瘟神一样。】

       原文中的评论其实是在批判日本左翼而实际褒扬保守派。它的真实意思是赞同安倍连任,故而应当属积极评价,但在机器的眼中却是负面的。故而说明笔者所用之算法,仅能对原文中的词汇的情感进行赋值,而无法判断特定之“场景”。此为该算法的一大缺憾。日后,仍需尝试不同的机器学习的算法加以克服与改进。

(3)对于LDA主题模型的利用,实际在调参后的表现高于笔者预期。但不可忽视LDA对短文本分析的固有缺陷,仍需日后改进。

(4)两个案例的时空差异,仅作测试用。



文献来源:观察者网“风闻社区”