杨慧芸 | 隐形操纵与数据污染：社交媒体中的机器人水军

昵称52684583 2020-07-01

展开全文

隐形操纵与数据污染：社交媒体中的机器人水军

机器人水军并非网络世界中的新客，但是作为网络世界中的一种冒充人类网络用户，与“真人”共处的隐秘存在，网络营销等领域常常隐晦的将其称为“机刷”，配合真人水军完成刷量、刷评论等专项任务。作为一种先进技术“明珠暗投”的应用，机器人水军近些年来持续侵入人类用户的社交网络，成为政治、经济、文化等多个领域中“看不见的手”，借助互联网的强大威力，持续发挥负面影响。

一、机器人水军的定义及技术更替

国内的研究中，机器人水军被视为社交机器人中的一类，张洪忠等认为社交机器人是在社交网络中扮演人的身份，拥有不同程度人格属性，并且与人进行互动的虚拟AI形象，而社交机器人包含了聊天机器人和垃圾机器人两类，机器人水军属于垃圾机器人。郭爽认为“社交机器人”是自动控制社交媒体账户的计算机程序，它们可以表现得像真人用户一样，在社交平台上就某一话题发帖或转发其他账号的内容，给这些内容评论、点赞，甚至还可以参与网络对话和讨论。一些“社交机器人”被设计用于提供某些类型的网络服务，也有一些故意冒充人类使用者，充当“水军”。赵爽等认为机器人水军是“软件机器人代替传统人工使用社交媒体账号进行舆论宣传”。

国外的研究中，Socialbot（社交机器人）与本课题界定的“机器人水军”指代的内容一致。Boshmaf将Socialbot定义为：指一种在线社交网络中自主运行社交账号并且有能力进行自动发送信息、发送链接请求的智能程序，强调其能够实施自动信息传播行为，区别于网络中的垃圾邮件程序。而Robert W描述了Socialbot的特征：是一种被设计在社交网站上从事人类内容生产活动的智能程序，它们通过模仿社交网络中的其他真实用户来习得人性。它们分享照片，更新状态和发布微博，与其他SNS用户进行自动交流对话，并能够自动发送和接受好友请求。它们被设计成目的不一，但是常常包括促成在线互动的社交网络实践。总之，社交机器人是一种计算机算法，可以自动生成内容并在社交媒体上与人交互，试图模仿并可能改变他们的行为，是旨在模仿社交网络中的人类行为的计算机程序，它们习惯于追求各种目标，包括但不限于传播信息和影响目标。

综合文献研究的相关内容，本文认为，机器人水军是社交机器人中的一种垃圾机器人，是一种能自动控制网络账户、冒充人类用户提供目的明确的多项网络服务的计算机程序。

据业内人士介绍，我国机器人水军的发展历史可以追溯到论坛兴起的2003年左右。当时，“发帖机”伴随着论坛的红火，被用于代替人工进行内容的规模推送，当时的网络账号没有实名制要求，所以发帖机的后台操作者可以注册多个账号来进行运作，但是发帖机只能实现对同一内容的大量转发，通过设置标题、内容，添加链接等操作，依托大量账号在多个网络平台实现短时间、大规模地内容传播。2015年前后，随着各个网络平台风控系统的升级，发帖机已经基本不能使用，取而代之的是一种叫“群控”的技术。群控系统是指采用一台电脑PC机采用USB线控制多部手机，实现自动化脚本运作，通过不同的手机设备码来骗过网络平台的风控系统，实现信息在网络上的海量投放。在自动化脚本运行的过程中，手机群控系统可以集中一些大数据的优势，能够编制出一定量的话述有针对性地投放到社交媒体平台中，智能程度较之使用发帖机阶段有了一定的提高，不仅能够骗过社交网络平台的风控系统，也因为体现出一定的智能性而具备较强的网络迷惑性。

与此同时，另一种“云控”的方式也开始被业界投入使用。云控是一种“群控”加上“云服务器”的技术，是指“通过无线连接，电脑、平板、手机通过后台发送指令到云端，云端的指令再发到手机群，继而执行任务。理论上，一台电脑可以控制上千台手机。”云控系统用在不同的平台上用以完成不同的工作，除了在微信和QQ营销加粉引流变现外，“云控系统运用于映客、花椒等平台主要是实现主播关注、点赞、留言，而陌陌则是发动态、点点、自动通过关注、附近打招呼以及自动回复新消息等”通过云端服务器操作，更稳定，而且不用常年开机。

所以，机器人水军的技术更迭与其说是一种主动的进化，不如说更像是一场猫抓老鼠的游戏，在巨大的市场需求下，机器人水军与网络平台风控系统不断博弈而被动发展。在这个过程中，机器人水军的研发者充分地了解了各个社交网络平台互动规则，从而能在各个不同的网络平台中发展出与平台使用相契合的机器人水军的参与方式，甚至能够实现“针对一款新的APP量身定制适合的机器人水军的参与方式”而随着网络平台风控壁垒的提高，现有的机器人水军技术可能在一夜之间“武功全废”，但是，市场的需求持续存在的情况下，新的机器人水军技术又会涌现出来。

二、机器人水军的研究现状

（一）机器人水军的国内研究现状

国内对于机器人水军的研究非常有限，在为数不多的文献中，关注了两个方面的问题：

1.机器人水军的影响

杜鸣浩认为经历了从“僵尸粉”到“活粉”到现在的机器人水军的进化过程，现在的机器人水军拥有了在虚拟世界进行主动社交的能力。赵爽等认为机器人水军的舆论场影响力不断扩大，通过有针对性地对贴文进行自动追踪、点赞和转发，营造舆论假象和虚假共识，制造假热点，占据网络传播信息资源，加快信息传播速度，达到影响舆论的目的。曾志毅认为机器人水军的发展呈现出拟人化、智能化的趋势，对网络空间治理提出挑战，政府应该进一步落实网络实名制，从技术层面加强对机器人水军的管控。蔡润芳通过对综述欧美学界关于Social bots的研究成果，归纳了Social bots社会功能的三个维度：信息社会中的自动化信息生产工具，实践情感劳动的“交往对象”以及人机社交网络中的技术“行动者”。张洪忠等认为在当下的人工智能时代，社交媒体的生态已经从完全由人主导变成了“人社交机器人”的共生状态，社交机器人成为社交媒体中的一个有机组成部分。而虽然共生于同一个网络空间，但不能简单按照真人用户的行为规律来研究社交机器人，传播学需要引入新的研究范式。

2.机器人水军的检测

刘蓉等认为，目前许多社交网络都推出了反机器人机制，但是反机器人机制一般都是针对单进程行为的检测，而一些社交机器人在实施恶意行为时往往将活动分布在多个进程上，让每个进程都承担一部分任务，这类机器人能够轻易逃过检测。研究提出了一种从并行化角度设计的恶意社交机器人检测方案。程晓涛在研究中建立了一种基于局域信息的微博网络信息传播模型,并通过分析正常传播与水军鼓动的非正常传播的差异,实现对水军群体的定位。然后通过对传播者用户关系网络的分析,提出一种融合关系图特征的微博水军识别方法,对新型微博造势水军有更好的识别效果。李岩等认为，水军用户或是被机器人操控，或是被人为操控，发布的微博特征与普通用户不同，包括：微博的数量，微博字符的平均长度，微博的平均评论数、平均点赞数、平均转发数以及微博转发占比。正常用户由于较强的交流、分享特性，微博相关特征的波动较大；水军用户长期潜伏并短期内以提高话题热度、操作话题等目的才发布微博，微博相关特征的波动较小。他们提出以半监督模型为基础、动静行为特征相结合的构造在线水军检测模型检测社交网络上的水军用户。

（二）机器人水军的国外研究现状

国外对于机器人水军的研究非常活跃，主要关注三方面的问题：政治传播领域的机器人水军、机器人水军检测以及机器人水军渗透到网络中带来的隐私隐患。

1. 政治传播领域的机器人水军研究

国外对于机器人水军对政治传播的影响，呈现出两种迥异的研究结论：

一部分国外学者研究认为，机器人水军对政治传播产生了影响：Summer Lightfoot通过比较机器人在2016年美国总统大选、2017年法国和德国大选中的使用情况、使用策略、使用的机器人类型以及它们各自的效果中的使用情况，以及机器人在2017年法国和德国大选中的使用情况。通过比较，认为社交机器人不仅对美国政治产生了影响，还对全球政治尤其是法国和德国的政治产生了影响。T.V.Ignatova认为社交媒体用户的账户创建任务可以完全自动化，使得僵尸网络渗透到了一些社交媒体中影响受众，传播虚假信息和改变公众舆论。在俄罗斯已经有很多应用僵尸网络来塑造社交媒体中的公众舆论的案例。C Shao分析了在2016年美国总统竞选和选举期间以及之后的1400万条在Twitter上传播的信息后认为，社交机器人在假新闻传播中扮演着关键角色。那些积极传播错误信息的账户更有可能是机器人。自动账户在病毒式宣传的早期传播阶段尤其活跃，而且往往针对有影响力的用户。人类很容易受到这种操纵，转发发布假消息的机器人。抑制社交机器人可能是缓解网络虚假信息传播的有效策略。Velázquez E通过对墨西哥推特中社交机器人对一份人权滥用报告的影响进行文本和情感分析来比较机器人和人类用户推文之间的差异。分析结果表明，机器人有助于人类用户的信息扩散。

而另一部分国外学者的研究表明，机器人水军对政治传播是否产生影响并不明确：Tobias R. Keller等采用目前识别社交机器人最复杂的公共工具Botometer，分析了7个德国政党在2017年大选之前和大选期间在推特上的所有Twitter关注者账户。结果显示，在竞选期间，社交机器人的比例从之前的7.1%上升到了9.9%。对最具影响力和最活跃的机器人发布的内容进行的分析表明，它们很少使用政治标签，而且几乎没有涉及德国政治。研究认为，在德国2017年的全国大选中，社交机器人几乎没有造成任何伤害。 Abokhodair N研究了Twitter中的一个特定的社会僵尸网络，这个网络对叙利亚社交机器人发出约3000条阿拉伯语和英语推文，该网络在关闭前在Twitter上活跃了35周。从分析的定性编码来看，不清楚该网络是否真的试图模仿和复制人类行为。相反，它似乎最感兴趣的是在与叙利亚内战有关的标签上大量添加与战争无关的话题。

2. 机器人水军检测

Ferrara E将文献中提出的机器人识别方法分为三类：基于社交网络信息的机器人检测系统、基于众包和利用人类智能的系统。同时提出了一组结合这三种主要方法的思想的方法：基于图形的社交机器人检测。Stukal D认为可以通过三种方式检测社交机器人，一是使用无监督的机器学习方法进行机器人检测。二是使用人类编码来创建Twitter帐户的训练集，然后可以将其用于训练监督学习算法。三是开发机器人检测工具对高精度的机器人进行识别。而Bessi等人提出，检测机器人的两个最重要的功能类别是与用户帐户相关的元数据和使用统计信息。他们认为，区分机器人与人类有几个维度：1.公共Twitter个人资料看起来是默认的还是自定义的；2.地理元数据判断；3.活动统计数据，例如推文总数和发布频率、转推比例超过原始推文、比例关注者的追随者、帐户创建日期，用户名的随机性等进行判断。Duh A等认为，在Twitter上检测和识别社交机器人的最复杂系统之一Bot Or Not，它使用超过1000个功能将用户分类为人类或类似机器人。这些功能分为六类：网络，用户，朋友，内容，情绪和时间。

3.机器人水军大规模渗透到网络中带来的隐私隐患

Boshmaf Y等建构了一个社交机器人网络，在Facebook上对7.5亿用户在线社交网络进行了8周的社交机器人网络操作用来收集与用户相关的行为数据。结果表明，机器人网络对Facebook的渗透成功率高达80%，一个成功的渗透会导致侵犯隐私，甚至使更多的用户数据暴露。而在线社交网络的安全防御，并不能有效探测和阻止发生大规模渗透。而社交机器人的出现，作为娱乐、研究和商业活动的手段，通过信息不对称和未能提供知情同意，给在线隐私保护带来了额外的复杂性。在美国，缺乏明确的隐私权，以及联邦政府倾向于自由放任的公司监管，使得用户在向网站和在线服务(尤其是社交机器人)提供个人数据时，面临着隐私受到侵犯和不公平待遇的风险。

此外，社交机器人在健康传播领域的应用也受到了部分学者的关注。

通过对机器人水军研究现状的梳理可知，国外学者对于机器人水军的问题有更为深入、系统的研究，特别是机器人水军对于政治领域的影响，成为近几年学界的一个研究热点。而我国的学者对于机器人水军的研究还处于起步的阶段，机器人水军对于政治、经济、文化的影响研究，还非常欠缺。

三、研究机器人水军的现实意义

（一）包括机器人水军在内的恶意机器人流量在网络世界占比巨大，但是目前学界对它们的认识还存在巨大“黑箱”

Distil Networks是一家成立于2011年的网站内容防盗服务提供商，主要开展避免网站被其他人或竞争对手恶意抓取内容和欺诈点击等业务。Distil Networks网站连续数年对网络数千个域名，上千亿次的访问进行分析，发布《恶意机器人流量报告》（Bad Bot Report）。报告中的“机器人”(bots)指的是互联网上的爬虫、自动机或者是模拟器。部分“机器人”流量来自于搜索引擎爬虫、自动更新的RSS订阅服务器等，属于正常机器流量（Good Bots）。另外一部分由恶意爬虫、自动机、模拟器等产生，伪造真实用户发起的请求，属于恶意机器流量（Bad Bots）。这些流量通过在应用层攻击网站、App或是API（应用程序接口），以达到获利的。报告指出，2017年间，42.2%的互联网流量来自于“机器人”（Bots），而非真实用户。2018年间，37.9%的互联网流量不是人为的。

笔者统计了《恶意机器人流量报告》中的相关数据，整理了2014-2018年的互联网流量表：

Distil Networks《恶意机器人流量报告》

2014年—2018年的互联网流量表

从互联网流量表中可以看到，虽然机器人流量在所有流量的占比在近5年呈现轻微浮动，但是恶意机器人流量在机器流量中的占比在近三年均超过一半。这些恶意机器人流量中就包含了机器人水军产生的流量。

目前，我们对恶意机器人流量的认识更多是从企业的网络风险控制的视角出发的。就社交媒体中的恶意机器人流量而言，社交媒体平台在吸引巨量的用户真实流量的同时，也吸引了大量的恶意机器人流量。国外主流的社交媒体如推特、脸书等均大受影响：由于推特开放自身编程平台并允许用户设置匿名账户，因此更容易受到机器人的影响。而对于脸书而言，由于其边际算法非常看重社交参数，因此获得较高点赞和分享的文章更有可能出现在新闻推送中，而国内的社交媒体平台以及点评类平台、电商平台等，都活跃着大量人工水军和机器人水军，在娱乐行业、企业营销等多个领域发挥效能。据《北京商报》报道，“艾漫数据在微博上随机抽测了在2018年8月20日至8月26日期间2000个娱乐领域KOL(Key Opinion Leader,关键意见领袖）的微博数据，使用自然语言处理技术、人工智能算法及机器学习模型对于无效用户及无效用户行为进行识别，KOL水军转评赞的占比数据显示，部分KOL的水军占比已经超过五成。”

随着时间的推移和技术的迭代，社交网络中机器人水军的参与比重和社会影响还有可能继续加大，形成一股隐形而强大的社交媒体操纵力量。学界对机器人水军给予的关注还非常不充分，对机器人水军的认识还存在巨大“黑箱”。

（二）机器人水军的存在，严重侵蚀了社交媒体的正常舆论生态

社交媒体现在“已成为最强的舆论载体，兼具媒体与社交功能，使得大量信息和社交活动正通过这一最新平台传递，包括全国各地发生的各种新闻和案件，均经由这些渠道迅速成为传统新闻媒体关注乃至跟进的焦点。其中网民发表的言论，也正日益影响着政府公共事务的决策和政治权力运作的方式。”

而在当下各种类型的社交媒体上，组织、企业、明星等都有可能成为机器人水军消费的甲方对社交媒体进行隐形操纵。甲方可能与一些公关公司合作，也可能依托一些舆情服务机构提供一些包括机器人水军、人工水军在内的网络公关工作。而之所以使用机器人水军，是因为公关公司等机构，为了达到KPI（Key Process Indication，企业关键业绩指标）达标的目的而进行刷量。“相比人工水军，使用机器人水军成本很低，可以24小时工作。机器人水军写的东西常用一些表情包、和情感相关的内容，有些并不通顺，但是速度很快，几秒钟就能自动生成几页评论”。而这样的社交媒体操纵，往往是在多个社交媒体平台，遵循不同的社交媒体平台互动方式，在短时间内进行点赞、转发、评论等相关内容的大量投放，打造出各种“虚假热度”和“虚假共识”，对普通网民进行误导。由于规模大，渠道多，速度快，普通网民无法对虚假的数据进行辨识，也常常不能区分机器人水军产生的评论，容易受到类别相同而数量巨大的评论内容的影响，产生社会心理学上所说的“流瀑效应”。

麻省理工学院Zaman和Hunter研究团队在社交网络中建立了一个意见动态模型，引入预先设定好观点的机器人，并开发了一种算法了识别机器人可能影响的目标人群，这些人的特点是对某一问题的观点还不确定。目标确定后，机器人就开始向特定目标人群推送信息，衡量这个过程有效性的方法是看网络中的平均观点是否在机器人的作用下发生改变，特别是有多少人的观点会超过特定的阈值（超过阈值意味着人的行为受到观点的影响而发生改变）。研究结果发现，在两极分化的网络中，一些机器人能够将一部人的观点转移到一个阈值以上。而许多现代社交网络都呈现出两极分化的结构，大多数人只与意识形态相似的人保持朋友关系，该研究证实了机器人水军具备改变人们既有观点，影响网络舆论的能力。

以发展的眼光来看，机器人水军由于其体量的增加而将具有越来越强大的传播影响力，能够引导受众认知，煽动社会情绪，在一些重要的议题上将制造出更多的“社会共识”，导致社交媒体的正常舆论生态受到侵蚀。

（三）机器人水军的存在导致社交媒体大数据受到污染，影响了学界社交媒体分析的数据测度准确性

网络信息时代的到来, 不仅改变了人们的生活方式, 同时也给学术研究范式带来深刻变革。现实世界与网络世界紧密关联,彼此缠绕,人类行为痕迹以数据形式大量涌现。在这样的背景下，依托编程语言（如Python、R）、自动化数据爬取工具（如八爪鱼）和分析技术（如网络分析）等手段，学术界获得了记录个体网络行为的数据，在此基础上，计算社会科学、计算社会心理学、计算传播学等多个学科领域与信息技术的交叉研究展现出了巨大的学术后劲。借助以社交媒体为主的海量个人网络数据，多个学科领域的研究受益于大数据的Volume——体量巨大、Variety——多样性、Velocity——速度快的特点，依托各自的专业领域展开了多样化的学术研究，从大数据挖掘与分析中发现问题，分析问题，并产出了一批颇有学术洞见的研究成果。

但是，社交媒体中机器人水军的大量存在对社交媒体大数据研究的有效性提出了巨大挑战。Tobias R.Keller等认为，数字公共领域的社交机器人对已确立的社会科学概念的理论、对检测和测量影响的经验以及对社交媒体分析的普遍有效性的方法论均提出了挑战。

机器人水军参与到以社交媒体为代表的网络社会，通过对意图明显的倾向性信息的大规模生产和病毒式传播，创造出与人类网民的观念表达、网络行为迥异的另一番图景。学术研究中大量使用一些热点社会事件、文化现象、商业评价等的点赞量、转发数、评论数及评论内容和等用于量化和衡量人类网民的行为特征、网络参与及观点意见，如果这些数据和内容中掺杂了机器人水军的“机刷”成果，而采用的数据未经过对机刷内容的辨识和排除的话，借助社交媒体大数据研究的相关领域将无法呈现科学准确的研究结论。有研究指出，对社交媒体大数据进行抽样的过程中，社交媒体数据的不确定性使得分析结果的真实性难以确保，“如果一些机器人账号和数据被选择了，那么我们的研究将值得质疑。”

棘手的问题在于，机器人水军的操作隐蔽性强，混杂在海量数据中难于辨识，数据校准难度大，技术要求高并且不能达到100%的辨识，所以对学术界基于社交媒体大数据分析学术问题提出了更高的技术要求——学界在运用社交媒体大数据进行学术研究的过程中，不仅需要针对大数据所固有Value——价值密度低的特性进行“去粗存精”，还需要在此基础上进行水军数据的辨识，实现数据的“去伪存真”。

结语

基于以上的分析，本文认为，近年来机器人水军在技术迭代的过程中不断发展，在与各个社交媒体风险控制系统进行博弈的过程中利用各种伪装在网络世界产生各种虚假数据和虚假现象，在多个领域产生隐形操纵，社会影响恶劣。

对比国外学术界对于机器人水军的巨大关注，我国的学术界对机器人水军巨大的负效应并未引起足够的重视。本文希望抛砖引玉，能够让更多的学界人士重视机器人水军问题的研究，从机器人水军的技术辨识、信息传播特点、社会各领域影响、政府规管、网络平台风险控制等多个视角进行跨学科的深入讨论。

杨慧芸，

大理大学文学院副教授，

北京师范大学新闻传播学院博士

全文参见《新闻知识》2020年第1期。

编辑|石中甫