AI能识别假新闻吗？

Triumph 2018-10-05

展开全文

【网易智能讯 10月5日消息】假新闻源于Collin在2017年的讲话。在一年一度的常规政治新闻中，高调的丑闻震撼了我们对人性的信念，人们痛苦地发现，区分新闻中的现实和虚构变得越来越难。社交媒体的兴起也造成了一种似乎无法阻挡的虚假信息传播力量，这些错误的信息在今年早些时候以剑桥分析公司丑闻的形式显现出其丑陋的侧面。这引发了人们对社交媒体问责制以及那些运营网站的人员如何能够切实解决他们自己造成的“怪物”问题的严重质疑。

麻省理工学院CSAIL（计算机科学与人工智能实验室）和QRCI（卡塔尔计算研究所）于昨天（10月4日）宣布了一个新项目，该项目旨在识别虚假新闻在传播之前的来源，或可能将不可信赖的新闻信息自动分类。尽管增加真实性检测的益处是无法估量的，但是，当处理像假新闻这样不可预测的“野兽”时，这些新功能是否只不过是路上的一次撞击罢了？

Bullsh * t检测

在当下，检测假新闻很困难，在造成太多损害之前公布虚假声明，像Snopes和Politifact这样的网站承受着比以往任何时候都要大的压力。问题在于处理个人索赔非常耗时，一旦错误的信息泄露，损害就已经造成。麻省理工学院CSAIL和QCRI的项目旨在通过识别持续传播错误信息的网站和具有重大政治倾向的网站来解决这个问题（因为这些网站通常是假新闻的主要提供者）。

该系统查看来自该网站的文章及其维基百科页面、Twitter帐户、URL结构和网络流量，以及搜索表明强烈政治偏见或错误信息的关键词和语言特征（例如，虚假新闻媒体经常使用更多夸张性语言）。使用来自媒体偏见/事实检查（MBFC）的数据，该系统检测网站的“ 事实性”水平的准确率为65％，检测到政治偏见的准确率大约为70％。

虽然该项目还处于初期阶段，但共同作者普雷斯拉夫·纳科夫（Preslav Nakov）相信这将有助于现有的事实核查服务，使他们能够“立即查看假新闻分数，以确定给予不同观点的有效性。 ”这将是该项目如何在实践中发展和使用的一个关键点，因为人们仍然需要检查这些分数，以确定新闻信息是否跨越虚假信息的界线，或者只是用情绪化和说服力的语言来扭曲事实。

过多的信任

至少目前，该项目与手动事实检查器一起使用最为有用，但是随着机器学习算法进一步发展，理论上它将能够提前识别这些站点并告知媒体监管机构风险所在。然而，那些主要通过社交媒体上不受限制的频道进行广泛传播的假新闻提出了一个重要问题：拥有人工智能检测的承诺，是否会让读者陷入虚假的安全感？

Facebook 今年早些时候发布了一项广告宣传活动，宣布他们致力于处理假新闻、虚假账户、点击攻击和垃圾邮件，这是马克扎克伯格将Facebook带回其核心价值观的更广泛战略的一部分。在成为历史上最引人注目的数据泄露之一的中心之后，Facebook正在努力说服用户相信他们可以被信任。

Pew Research在2017年9月进行的一项研究发现，45％的美国成年人使用Facebook获取新闻，尽管任何人都可以在社交媒体上发帖。但是，当有必要监控超过20亿用户时，如何控制人们对非官方信息来源的依赖？Facebook显然希望向用户和监管机构保证他们的算法能够解决这个问题，但证明新闻是错误的，就像在墙上贴上果冻：最好的情况是耗费时间，最糟糕的情况是不可能发生。事实上，Facebook的实力和麻省理工学院的检测系统可能会引导人们放松警惕，更愿意相信他们所读的内容。

人们是问题所在

相信耸人听闻的信息的意愿是一种真实存在的现象，揭露虚假信息并不总能改变人们的思想。发表在《Intelligence》杂志上的2017年11月的一项研究发现，那些认知能力较低的人在被告知有关虚构人的诋毁信息是假的之后，仍无法改变原来的印象。正如麻省理工学院CSAIL论文本身所说的那样：“即使揭穿是由声誉良好的事实检查组织来完成，这也无助于说服那些已经相信虚假信息的人”。

一项麻省理工学院的研究发现，真实新闻到达用户的时间是相关信息触达Twitter用户时间的6倍，而“70%的假新闻比真相更有可能被转推”。因此，社交媒体用户加剧了假新闻的传播，并且很少有机器学习可以改变已经根深蒂固的坏习惯。

实施机器学习以对抗假新闻的传播是值得肯定的，并且这个问题需要被解决，因为主要媒体机构的可信度受到质疑。但随着社交媒体加剧了错误信息的传播，检测和揭露虚假新闻的来源能够让人类克服本能来相信我们被告知的内容吗？

MIT人工智能实验室最新研究成果：AI系统不仅可以识别假新闻，还能辨别个人偏见

互联网时代，假新闻铺天盖地，而且极具迷惑性，Facebook一度深陷虚假新闻的泥淖，不但被控影响了美国总统大选结果，甚至引发了德国政府的巨额罚金。

甚至连以公信力著称的BBC也难以幸免，比如BBC北安普顿分站的推特账号就曾发过这样一条消息：Breaking News: President Trump is injured in arm by gunfire #Inauguration.（劲爆消息：特朗普总统在就职典礼后遭遇枪击，手臂受伤。）

至于国内的假新闻，也是花样百出，甚至微信对话也能伪造，PS技术出神入化，比如一度引爆互联网圈的这个截图：

注：此截图被证实为经过PS伪造

AI系统：建立多维度向量进行数据检测

10月4日，麻省理工学院计算机科学与人工智能实验室(CSAIL)在其官网发布了一则新闻，宣称该实验室与卡塔尔计算研究所(Qatar Computing Research Institute)的研究人员合作，已经研究出一种可以鉴别信息来源准确性和个人政治偏见的AI系统，该研究成果将于本月底在比利时布鲁塞尔召开的2018自然语言处理经验方法会议(EMNLP)上正式公布。

研究人员用这个AI系统创建了一个包含1000多个新闻源的开源数据集，这些新闻源被标注了“真实性”和“偏见”分数。据称，这是类似数据集中收录新闻源数量最多的数据集。

研究人员写道:“打击'假新闻’的一种(有希望的)方法是关注消息来源。”“虽然'假新闻’(帖子)主要在社交媒体上传播，但他们仍然有最初来源，即某个网站，因此，如果一个网站曾经发布过假新闻，很有可能未来还会发布。”

AI系统的新颖之处在于它对所评估的媒介有广泛的语境理解，没有单独从新闻文章中提取特征值(机器学习模型所训练的变量)，而是兼顾了维基百科、社交媒体，甚至根据url和web流量数据的结构来确定可信度。

该系统支持向量(SVM)训练来评估事实性和偏差，真实性分为：低、中、高；政治倾向分为：极左、左、中偏左、中偏右、右、极右。

根据该团队所述，系统只需检测150篇文章就可以确定一个新的源代码是否可靠。它在检测一个新闻来源是否具有高、低或中等程度的“真实性”方面的准确率为65%，在检测其政治倾向是左倾、右倾还是中立方面的准确率为70%。

注：AI系统分析示例

在上图显示的文章中，AI系统对文章的文案和标题进行了六个维度的测试，不仅分析了文章的结构、情感、参与度(在本例中，分析了股票数量、反应和Facebook上的评论)，还分析了主题、复杂性、偏见和道德观念，并计算了每个特征值的得分，然后对一组文章的得分进行平均。

“真实性-偏见”预测模型图

维基百科和Twitter也被加入了AI系统的预测模型。正如研究者们所言，维基百科页面的缺失也许说明了一个网站是不可信的，或者网页上可能会提到这个问题的政治倾向是讽刺的或者明显是左倾的。此外，他们还指出，没有经过验证的Twitter账户，或者使用新创建的没有明确标注的账户发布的消息，不太可能是真的。

该模型的最后两个向量是URL结构和web流量，可以检测试图模仿可信新闻来源的url(例如，“foxnews.co”)，参考的是一个网站的Alexa排名，该排名根据网站总浏览量进行计算。

该团队在MBFC（Media Bias/Fact Check ）网站的1066个新闻源上对此AI系统进行了训练。他们用收集的准确性和偏见数据手工标注网站信息，为了生成上述数据库，研究人员在每个网站上发布了10-100篇文章(总计94,814篇)。

正如研究人员在他们的报告中煞费苦心的介绍所示，并不是每一个特征值都能有效预测事实准确性或政治偏见。例如，一些没有维基百科页面或建立Twitter档案的网站有可能发布的信息是公正可信的，在Alexa排名靠前的新闻来源并不总是比流量较少的新闻源更公正或更真实。

研究人员有一个有趣的发现：来自虚假新闻网站的文章更有可能使用夸张和情绪化的语言，左倾媒体更有可能提到“公平”和“互惠”。与此同时，拥有较长的维基百科页面的出版物通常更可信，那些包含少量特殊字符和复杂子目录的url也是如此。

未来，该团队打算探索该AI系统是否能适应其他语言(它目前只接受过英语训练)，以及是否能被训练来检测特定区域的偏见。他们还计划推出一款App，可以通过“跨越政治光谱”的文章自动回复新闻。

该论文的第一作者、博士后助理拉米巴利(Ramy Baly)表示:“如果一个网站以前发布过假新闻，他们很可能会再次发布。”“通过自动抓取这些网站的数据，我们希望我们的系统能够帮助找出哪些网站可能首先这么做。”

当然，他们并不是唯一试图通过人工智能打击假新闻传播的机构。

总部位于新德里的初创公司MetaFact利用NLP算法来标记新闻报道和社交媒体帖子中的错误信息和偏见；SAAS平台AdVerify.ai于去年推出beta版，可以分析错误信息、恶意软件和其他有问题的内容，并可以交叉引用一个定期更新的数据库，其中包含数千条虚假和合法的新闻。

前文中也提到过，Facebook一度深陷假新闻的泥淖，已经开始尝试使用“识别虚假新闻”的人工智能工具，并于近期收购了总部位于伦敦的初创公司Bloomsbury AI，以帮助其鉴别消除假新闻。

假新闻会被消除吗？

然而，一些专家并不相信人工智能可以胜任这项任务。卡内基梅隆大学机器人研究所(Carnegie Mellon University Robotics Institute)的科学家迪恩波默洛(Dean Pomerleau)在接受外媒 the Verge 采访时表示，人工智能缺乏对语言的微妙理解，而这种理解是识别谎言和虚假陈述所必需的。

“我们最初的目标是建立一个系统来回答'这是假新闻，是或不是?’”他说，“但我们很快意识到，机器学习无法胜任这项任务。”

但是，人类事实核查者做的不一定比AI更好。今年，谷歌暂停了“事实核查”(Fact Check)这一标签，该标签曾位于谷歌新闻报道栏，此前保守派媒体也曾指责谷歌对他们表现出了偏见。

不过，无论最终鉴别假新闻和个人偏见的解决方案是AI系统还是人工，抑或两者兼而有之，假新闻被彻底消除的那一天都不会立刻到来。

据咨询公司Gartner预测，到2022年，如果目前的趋势不变，大多数发达国家的人看到的虚假信息将会多于真实信息。

选自：forbes

作者：Charles Towers-Clark

编译：网易智能

参与：nariiy