社交网络：数据科学家眼中的金矿

探骊取珠 2014-05-03

展开全文

　　信息传播的建模

　　在社交网络上，每个人都是个自媒体。与传统媒体依靠内容作为传播主题的形式有所不同，社交网络上的信息传播，更加依赖于发布者的影响力以及社会关系，通过好友或粉丝的关系将信息扩散到社交网络中。这种信息在社交网络中会被好友及粉丝看到，并以一定的概率被分享和转发，从而进行传播。图2对一条微博的传播过程进行了可视化的显示。

图2 单条微博信息的传播图(来自www.doodod.com)

　　部分学者用传染病在人群中的传播、谣言在社会中的传播等现象来类比并刻画社交网络中信息的传播，进而利用传染病动力学及复杂网络理论来对社交网络的传播行为进行建模和预测。更直观地说，如果将整个社交网络看作一个图的结构，把社交网络中的用户看成图中的节点，并将用户之间的关系看为图的边，那么信息的传播的过程就是从起点用户的节点开始，沿着相邻边进行信息的传播，相邻的节点用户会根据时间及主题不同，会以一定概率传播或者终止该信息。对于传染病动力学模型来说，通常将网络中的节点定义为三类：传播节点、未感染节点和免疫节点。传播节点的特点是接受并有能力传播邻居节点信息;未感染节点没有接受过来自邻居节点的信息，但有机会接受信息，即有概率会被感染;免疫节点表示该节点已接受邻居节点的信息，但不具有传播能力，由此可以定义一些传播规则：

　　如果一个传播节点与一个未感染节点接触，则未感染节点会以概率成为传播节点;

　　如果一个传播节点与一个免疫节点接触，则传播节点会以概率成为免疫节点;

　　传播节点不会无休止地传播，会以一定速度停止传播，变为免疫节点，无需与其他节点接触。

　　由此便可以通过传染病动力学中的方法对信息的传播过程建立状态转移方程。在确立传播模型后，我们可以通过检验起点传播者节点的度(也就是好友或粉丝的数量)、关系强弱(边的权值)，对信息传播造成的影响程度，从而发现信息在社交网络传播中的规律。

　　虚假用户的识别

　　虚假信息和虚假用户的识别在社交网络的深入研究及实际应用中是一项基础性的工作，并具有重要的意义。信息在社交网络上的传播过程中，不免会遇到虚假内容或虚假的水军用户进行干扰。如果能够识别出虚假用户和虚假内容可以更好地还原出舆论的真实想法和状态，为企业的市场营销以及政府了解民意提供更加真实有效的数据。一般来说，识别社交网络的虚假用户要比匿名论坛相对容易，因为可以从更多的维度进行考察。在社交网络上，虚假账号一般不会有真实的社交互动，关系网络中大部分链接也都是虚假账号，此外通过账号的转发行为及内容的识别判断来有效地辨别虚假用户。我们在新浪微博上对虚假用户的判断采用了以下8种用户行为特征。

　　`博主的创建时间的一致性

　　`博主的头像和名字

　　`关注与粉丝比例

　　`博主的粉丝质量

　　`发布微博数量

　　`最近200次转发的对象分布

　　`转发同一条微博的频率

　　`转发时所写的内容

　　针对以上8种特征，利用机器学习的分类算法训练模型，并利用模型进行后续虚假用户的预测，可以有效地发现虚假用户，在舆情分析中将其剔除，还原出真实的信息传播情况及舆情(公众发表在网络上的言论)状态。

　　用数据预测未来

　　社交网络数据最吸引人的研究工作就是对未来的预测。社交网络每天吸引数亿人在网络上发布自己的数据、状态、心情，这种规模化并具有群体性的海量数据给了数据科学家从海量数据中发现人类未知规律的机会。

　　美国科学家通过监控Twitter中公众的情绪数据，发现公众的情绪数据与很多社会现象及事件具有很强的相关性。例如，有些研究者发现无论是“希望”的正面情绪，还是“害怕”的负面情绪的体现都预示着美国股市指数的下跌。有研究者认为，只要有公众在社交网络的情绪突然改变，都会反映出对股市的不确定性，因此可以利用这种信号来预测股市未来的走向。

　　在流行病预测方面，英国的科学家根据Twitter的数据来跟踪流感的爆发。他们主要基于用户发布信息中的关键词，例如“我头痛(I am having a headache)”等，并结合用户的发布地点，按区域与英国卫生部的官方数据进行了比较，最终建立起一个预测模型。创业团队“SickWeather”甚至以预测疾病为主题开展了自己的创业项目。

　　还有很多研究者也利用数据挖掘的方法对电影票房、美国大选的趋势和结果进行预测，并取得了令人惊喜的成果。

　　然而，我们对于利用社交网络数据的预测能力的态度也不能过于乐观，因为社交网络的预测是基于海量数据的，但目前对于海量文本数据的分析算法尚未达到理想的准确率。尤其对于从文本信息来进行情绪判断这个看似简单的问题，其本质是自然语言处理与情绪心理学的交叉问题。但目前的自然语言处理方法主要利用概率统计的方法，以及词法和句法的分析进行解读。对文本情绪的判断也以基于词库及语法结构的判断和基于机器学习的方法为主。然而这些方法对于稍显复杂的、尤其是带有反讽和隐含意的语言很难进行有效的判断。此外，对于社交网络的使用群体不能完全代表有效的人群，因为使用社交网络的人群与年龄、地域、种族等方面都有很大差异，因此仅利用社交网络产生的数据进行预测很可能会与最终结果产生偏差，所以从人群角度进行科学有效的取样方法对于社交网络预测也是尤为重要的一个环节。

　　总结

　　人们对社交网络数据的认识和挖掘还处于相对初级的阶段，对这种大规模、高维度数据的挖掘方法还在不断地演化。目前来看，文本语言的情感分析、社交网络的传播预测等很多基础性问题还不能得到有效解决，对深入研究社交网络造成了一些限制。但随着人工智能研究水平的不断提高，尤其是认知神经科学与人工智能技术相结合的研究，让我们看到了人工智能的新希望。当我们真正有能力解决这些问题以后，社交网络将会成为帮助我们预测未来趋势的有利工具。然而，充分使用社交网络数据也意味着暴露用户越来越多的隐私，因此，如何能够在用户隐私和数据完整中找到一个平衡点，也是今后数据工作者所要面临的问题。

　　作者张文浩，独到科技(Doodod)创始人，清华大学计算机系博士，主要关注社会关系网络分析、文本情感挖掘等领域的研究和发展。