READr透过机器学习(Machine Learning)分析 Twitter释出的中国网军资料,透过暸解被删除账号的活动特征、以及千万笔随机账号的贴文模式,推测 Twitter删除这些账号的可能原因,进一步找到“网军”的辨别方式。“网军”是近几年各国都想要厘清的现象。乘着社群网络普及,开始有人尝试以组织性的行动去影响一般人对特定人物、或特定议题的看法,如美国参议院情报委员会就调查过俄罗斯透过网军干预了2016年的美国选举。2018年台湾选举后,民进党政府也一再宣传假讯息的危险性,并将敌人指向与我们关系一向敏感的中国。台湾即将迎来2020年总统大选,对于可能已经展开的资讯战,我们准备好了吗?8月19日,Twitter第三度发布它们监测到的政治网军行为,并释出相关资料集。我们在前两篇报导探讨了“反送中”账号的行为模式,决定再更进一步透过机器学习(Machine Learning)暸解被删除账号的活动特征、以及千万笔随机账号的贴文模式,去推测 Twitter删除这些账号的可能原因,找到“网军”的辨别方式。Twitter释出的资料分成两组,但并没有解释这两组的区别。在 READr第一时间对这批资料的报导中,我们发现只有11%的被删除账号发过和反送中运动相关的内容,而这11%的账号,都在 Twitter公布的第一组账号清单中。除此之外,这一组账号在近两年来使用 Twitter的软件跟过去有蛮大的差别。原本使用网页推文的比例非常低,到2018年之后却开始增加。但第二组却没有这么明显的趋势。从“是否发过反送中相关推文”及“账号推文软件变化”两个例子就可以看出两组账号的行为并不完全相同,却都在 Twitter删除的名单当中。我们认为透过机器学习也许可以找出第一组账号和第二组账号的共通性,来推测 Twitter删除账号的原因,也就是网军可能有的行为模式。我们发现,相关性最高的主要是“发文时间”以及“账号跟他人之间的追踪关系”。也就是说,当某些账号经常在特定的时间发文,但是其实看起来朋友的数量又远低于平均,那么这些账号就有可能是网军的账号(注:相关的因子非常多,我们只是列举相关性最高的进行讨论)。网军发文时间集中在亚洲时区上班时间这次被删除的两群账号中,发文时间比例最高的是半夜一点到三点。通常系统会储存的时间会是世界协调时间(Coordinated Universal Time),如果以台湾跟中国的时区来看,高峰时间则是早上9点到中午12点,到下午4点过后比例就明显下滑。这和之前昵称 Air-Moving Device网友所写的分析结果相当接近。我们取得大量随机账号,分析他们的贴文方式,发现一般使用者发文的时间相对平均,这些网军发文的时间却相当集中,且集中在亚洲时区的上班时间,印证了网友戏称的“领薪水上网”。
twitter被删除账号推文时间分析但单从发文时间判定有一定的危险性。因为此次 Twitter公布的936个删除账号中,有高达50个账号其实从来没有发过文。网军账号没有在“交朋友”我们从机器学习找到了另一个两组账号的共同特征:账号追踪与被追踪的人数,这两个数据某种程度代表这些账号是不是真的是使用社群网站来“交朋友”。同样地,我们也取得大量随机账号,比较两者的差别。在去除极端值之后,我们发现被视为“网军”的账号,无论被追踪人数(follower)多寡,他们都会追踪大量的人(following)。网军账号通常追踪很多人,但是追踪人数比一般人低,验证了另一篇报导中的网军互动模式:这些账号会尝试标注(mention)其他流量较高的账号,但他们实际上很少透过 Twitter跟别人社交。
从散布图看 twitter网军的社群行为(注:为了让图表内的特征表现更明显,我们去除极端值,只留下追踪其他账号个数以及追踪者人数都低于15,000人的账号呈现)长期研究网军、台北大学犯罪学研究所助理教授沈伯洋在 READr的上一篇关于 Twitter的报导中提到,网军行动通常有不同分工,作为“节点”功能的账号,会在乎双向追踪;作为“海量发文”功能的账号,就比较不在乎他人是否追踪。从这些账号特征一致性,再次彰显“这批中国网军的分工没有那么细”。再加上这批账号明显在亚洲上班时间发文,“很遵守《劳基法》。”沈伯洋笑道。他指出,中国的省台办、市台办有自己的网军,这种就是很有系统地在上班;另一种就是外包给行销公司,而发文时间算是近年 Twitter会去注意的标准,“如果外包给行销公司还这么守时,那就是很低级的错误。”“但这可能是件好事。因为就我所知,台湾的行销公司都不会犯这种低级错误,那至少这批中国网军不是外包给台湾公司做的。”沈伯洋说。高度“工人智慧”,辨识网军变更难除了以上两个行为,从“网军账号”跟“随机一般账号”的使用行为比较中,另一个可能的歧异是“使用者回报地点”(user_reported_location)。由于此字段可以自行填写,从我们作为随机样本的1227个账号中,共有595个不同的答案(48%);而这批940个网军账号只有181个不同的答案(19%),比例低了很多,且删除账号中有相当高的比例的回报地点是“空白”,也成为一种特征。除了发文时间外,网军与一般账号的差别程度
除了发文时间外,网军与一般账号的差别程度(注:由于“发文时间”完整呈现在另一张图表,此图排名已扣除“发文时间”,否则影响辨识网军账号与一般账号差别程度的前三名应该是发文时间1时、21时、20时)我们透过几次不同的随机账号取得,总共测试超过千万笔贴文模式,让机器学习的结果有更好的理论基础,虽然明确地找出几个可疑的特征,但我们相信 Twitter仍然隐藏了部分资料没有公布,而这些隐藏的资料可能是判断网军账号与否的重要依据。随着俄罗斯网军影响美国大选的证据慢慢浮上台面,社群平台也开始重视这些可能是以国家资源支援(potential state-backed)、在社交平台上影响各国政治的活动。如 Twitter于2016年在美国国会承诺,将定期公布他们对外国势力如何干预 Twitter上政治议题的调查成果。2018年10月,Twitter首次公布删除的伊朗网军账号资料集,至今已经有数以千计的研究人员下载这些资料进行研究。今年6月,从 Twitter的新闻稿中可以看见他们的调查成果以及释出的资料,包括伊朗、俄罗斯、西班牙、委内瑞拉的网军,随后,就是8月公布的中国网军。按照往例,Twitter会释出这些被删除资料集,代表他们已经调查一段时间了。Twitter的调查工作除了例行性的监测,有所发现时会花数天至数月的时间进行深入调查,除了技术人员与研究单位以外,他们也与当地的执法机关合作,在调查结束后,也会将相关的结果交给同业及相关执法机关。从机器网军发展到国家资源支持的政治网军,有困扰的不只是社群平台,还有被动摇民主的政府体系、以及直接被不实讯息或片面资讯影响的一般大众。社群平台尝试透过增加透明度来对抗,如何将这股力量延续到最基层的民众,培养辨识网军的认知,将是民主社会的巨大挑战。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
喜欢就支持一下吧