分享

用大数据进行预测,你下一句说的话不小心被他知道了!

 爱科技爱软件 2019-02-13

​ ​这里有许多引人注目的刑事案件,通过被告家庭成员存放在公共数据库中的DNA得以解决。有一个教训是,我们的隐私并不是完全在我们的控制之下;通过与你分享DNA,你的家人有能力选择别人对你了解多少。

用大数据进行预测,你下一句说的话不小心被他知道了!

现在,一些研究人员已经证明,我们的话中也存在类似的情况。通过使用过去的tweet数据库,他们能够有效地挑选出用户可能使用的下一个词。但是,如果他们能够简单地访问某人的联系人在Twitter上所说的话,他们就能够更有效地做到这一点。

用大数据进行预测,你下一句说的话不小心被他知道了!

这项工作是由佛蒙特大学的三名研究人员完成的:詹姆斯·巴格罗、刘锡培和刘易斯·米切尔。它以三个不同的概念为中心,这些概念与Twitter上消息的信息内容有关。第一个是熵的概念,在本文中,熵描述了平均需要多少位来描述未来单词选择的不确定性。一种方法是,如果你确定下一个单词将从16的列表中选择,那么熵将是4(24是16)。一般的社交媒体用户有5000个词汇表,因此从中随机选择一个词的熵将略大于12。他们还考虑了复杂性,即熵16产生的值,在我们刚才使用的例子中,熵是4。

用大数据进行预测,你下一句说的话不小心被他知道了!


他们使用的最后一个概念称为可预测性,即准确预测下一个词使用的概率。

为了了解这些概念在社交媒体世界中的作用,研究人员求助于一个由约14000名Twitter用户组成的数据库,这些用户总共产生了超过3000万条tweet。在这一点上,他们确定了927个用户和15个用户,每个用户都最经常与之交互。考虑到过去发生的事情,他们的互动史被纳入了一个衡量未来词汇使用可预测性的算法中。

​ ​一般来说,人们是相当可预测的。这些927用户中的大多数聚集在熵在5.5到8位之间的区域,这意味着下一个词通常位于45到256个词之间的列表中。然后,他们选择最经常与之交互的用户。交叉用户熵通常在6到12位之间。这个范围的高端大致相当于选择随机词,但低端远远低于随机词,对应于在64个列表中找到的词。换言之,用户自己的历史给出了40-70%的可预测性,而他们朋友的历史给出了0-60%的可预测性。

用大数据进行预测,你下一句说的话不小心被他知道了!

​ ​但是大多数用户都与各种各样的在线用户进行交互,有些交互可能比其他交互更相关。因此,作者继续添加交互用户,发现每个用户都提高了可预测性(换句话说,降低了熵)。第九个交互用户的熵实际上比使用用户自己的词生成时要低。换句话说,知道你的朋友说了什么比知道你说了什么更容易预测。熵的下降持续到他们为工作设定的15个用户限制。 这并不是说你的朋友比你更了解你自己。相反,如果您包括一个用户及其联系人,那么您可以提高可预测性甚至更多。

用大数据进行预测,你下一句说的话不小心被他知道了!

作者认为其中一些可能是语言结构的产物。因此,他们混淆了交互用户,将他们与没有交互过的人联系起来。这大大降低了可预测性,表明语言不是万能的。以同样的方式,他们带来了不相关的推文,这些推文是同时发出的,以确认可预测性不仅仅是人们谈论当时流行的主题的产物。

用大数据进行预测,你下一句说的话不小心被他知道了!

接下来,作者分析了用户在Twitter上的行为是否预示了他们的可预测性。每天定期发布8条或更多微博的人往往更容易预测。此外,他们活跃在类似级别的互联用户对预测贡献不大,因为他们经常在推特上谈论不相关的事情。而一个更强大的社会关系(根据用户拥有的连接数衡量)往往意味着对可预测性的贡献更大。

如果一个连接的用户经常启动与关键用户的联系,那么该连接增强了可预测性。但是,如果中心用户是联系的用户,那么它就没有联系。这表明,可预测性的部分关键可能是,给定的tweet响应连接的某些提示。 你不能离开

这对隐私有一些明显的影响。如果一个人离开了一个社交网络,但他们的历史仍然存在(就像Twitter的情况一样,这里分析的那个),那么应该可以重建他们的社交网络并分析它,以对试图变得更加匿名的人有一些了解。此外,如果你能重建一个人的离线关系,并在社交媒体上找到它们,那么你就有可能了解到一个从未加入该服务的人的一些情况。正如本文作者所描述的,“如果一个人放弃使用社交媒体平台或删除其帐户,但其社会关系仍然存在,那么该平台所有者可能仍然拥有该个人未来活动可实现的预测准确性的95.1±3.36%。”

提供这些社交媒体服务的公司显然在分析这些网络方面处于更好的位置。因此,例如,Facebook可能推断出一个从未加入的兄弟姐妹的存在,然后建立一个该人的帖子可能听起来像什么的个人资料。

用大数据进行预测,你下一句说的话不小心被他知道了!

但这里绝对有限制。这并不意味着我们可以预测一个人的更多信息,而不是他们更可能的社交媒体帖子,更具体地说是对他们关系的社交媒体帖子的反应。这与少数族裔报告的可预测性相差甚远。但是,考虑到从市场营销人员到俄罗斯情报机构的每个人似乎都对找出用户的社交媒体倾向感兴趣,你甚至不必在社交媒体上做出推论的发现并不是特别令人欣慰。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多