一周内，你会在网上遇到坏人吗？这个AI看聊天频率就能预测

谢芪 2021-12-06

展开全文

图片来源：pixabay

在匿名的网络社会中，即使是现实中看似和善的人，也有可能释放内心的恶意，这也滋养了越来越多违规甚至违法的行为。当传统监管手段不够用的时候，人工智能挺身而出：科学家发现，“犯罪”意图就藏在用户数据中，而人工智能在学习这些特征后，甚至能从茫茫“人海”中，精准找到潜在的犯罪者，并且预测不法行为发生的时间。

撰文 | 孙琳钰

审校 | 二七

随着网络的普及，网络违法事件也成为了不容忽视的社会问题。互联网消弭了潜在违法者和受害者之间的时空距离，使得人人都有客观条件违法，而人人也有被伤害的危险。中国司法大数据研究院发布的《网络犯罪特点和趋势（2016.1~2018.12）》报告指出，社交类平台，尤其是QQ、微信等已经成为虚拟犯罪的主要工具，不法分子通过它们在网络上策划、实施犯罪行为。这种过程不需要现实接触，因此非常难捕捉，给执法系统带来了许多的困难。

（图片来源：《网络犯罪特点和趋势（2016.1~2018.12）》，http://www.court.gov.cn/upload/file/2019/11/22/14/42/20191122144257_13346.pdf）

近日，德岛大学的计算机研究者联合日本大型网络公司代理商Cyber Agent在《人类行为计算》（Computers in Human Behavior）上发表论文，他们用机器学习的方法，分析了Cyber Agent旗下一款社交类游戏的使用数据，并且在不监测聊天内容的情况下，仅基于聊天次数、聊天对象、聊天时间等基本信息，就能较为精准地识别出潜在网络违法者，并预测出违法行为的大概时间（本研究中的违法定义为日本法律规定的侮辱、诈骗、性骚扰等行为）。

“疑犯追踪”的理论基础

这不是一个异想天开的想法，因为尽管在游戏中大家只是隔着网线交流，但我们在网上的行为也留下了海量数据，为预测网络违法行为提供了丰富的材料。

研究者基于两种传统犯罪学理论开发了这套算法：日常活动理论（routine activity theory）和社会传染理论（social contagion theory）。

日常活动理论提出，许多犯罪行为并不是随机发生的，犯罪者和被害人往往在日常活动中有交集。例如，在现实生活中，小偷会在盗窃前会去目标地点“踩点”，并观察目标人物的行为规律；同样地，网络上的犯罪者更需要提前与“猎物”取得联系，套取信任。因此，玩家的社交活动数据中或许就藏着“犯罪预告”。

另外，社会传染理论还补充了重要的一点：违法倾向或违法行为也会 “传染”。最常见的例子就是“网络暴力”。“网络暴力”往往来源于某种过激情绪的广泛传播：在群体的裹挟下，有的人不知不觉就失去了独立判断能力，无意间成为了网上的施暴者。有研究指出，在“目睹”群体内其他人的网络骚扰行为后，旁观者也很容易再次攻击同一名受害者，或者尝试骚扰其他人。这样的传染行为也为预测网络违法事件提供了重要的对象和时间线索。

聊天室里的暗流涌动

在这两种理论的基础上，研究者开始尝试搭建一种可以预测违法行为的算法。他们选择的是一款名叫Pigg Party的手机游戏。它主打社交功能，用户登录账号后，可以装扮虚拟的房间和个人形象，与朋友或陌生人以私聊、群聊、公聊的方式进行交流。研究人员采用擅长从复杂数据中提取特征的算法——多层非线性模型来分析55万用户6个月内产生的聊天数据，其中包括每名用户的聊天频率、聊天时间和消息的接发者。此外，为了识别用户的违规行为，研究者还使用机器算法自动检测和识别用户聊天内容中的“危险”内容，并递交审核人员人工确认和归类。

Pigg Party 游戏界面（图片来源：Pigg Party游戏宣传图，https:///JILbyPxKvJM）

在2020年1月1日至2020年6月30日的记录中，研究者共识别出18万条违法记录。其中包括7万余起性骚扰和10万多起违反用户协议的行为（如非法交易等）。违法用户有2.8万人，受害者则达到了4.3万人。

分析了用户聊天时间后，研究人员发现，正常情况下晚上8点后私聊和群聊的频率会逐渐下降，而此时网络违法活动的频率反而会上升。周末两天，用户的正常交流频率达到了一周内的峰值，但违法行为的发生频率也达到了最高。周末凌晨1到4点还活跃在平台上的用户中，违法者和受害人占比较多。另外，对违法事件和违法者社交关系的分析还显示，私聊和公聊中发生的恶性事件会显著“传染”给其他人。无论是在私聊、群聊还是公聊中，用户接触到违规事件后的一个月内（尤其是第一天），进行违法行为的概率最高。

这些分析证明，日常行为理论和社会传染理论确实适用于网络违法行为。而机器学习可以基于这些真实数据进行分析，尝试“理解”违规账户的聊天特点，形成处理和预测能力。

想做坏事的心是藏不住的

研究者组合多种神经网络模型和算法，搭建了预测违法事件的人工智能（AI）。性能测试结果显示， AI能根据全面的用户数据，较为准确地预测未来的违法者和受害者账户。在完美区分违法者得分为1的前提下，输入用户两个月内聊天的时间、频率、对象，AI对接下来两个月内违法账户的预测准确率可以达到0.8485，对受害者账户的预测准确度也接近0.85。

除了对个体账户违法或受害的风险有较好的预测能力外，只需提供1周内的用户活动数据，AI就能几乎精准地预测接下来的1周社区里发生违法事件的时间，对小时和日期的准确率高达0.9583和0.8571，并且结果与受害预测给出的时间相吻合。更有趣的是，AI分析数据后预警的危险时间，并不一定处在在以往发生违法事件的时间段中，可见它掌握的并不仅仅是固定的规则，还有违法者言、行中的真正“逻辑”。

图片来源：Pixabay

违法预测 AI将海量零散分布的用户日常活动记录压缩转化成可以定量分析的数据，并从中提炼、理解规律，最终形成了强大的预测能力。研究者认为，借助AI，系统管理员能更好地维护网络安全和用户权益。尽管目前的AI尚且需要一些人工的判断，并且不能进一步预测违法事件的具体类型，但它或许能抓住网络上“隐形”的违法者，更好地保护我们的安全。

论文链接：

https://www./science/article/abs/pii/S0747563221004222?via%3Dihub

参考链接：

http://www.court.gov.cn/upload/file/2019/11/22/14/42/20191122144257_13346.pdf

http://www./2021/ssfx1_0711/18324.html

https:///JILbyPxKvJM