大数据给社会学带来什么挑战？

智者的声音 2015-07-09

展开全文

大数据给社会学带来什么挑战？

(2015-06-02 13:51:20)

　　今天下午（2015年5月29日），我准备与大家讨论三个问题：第一，什么是大数据。关于大数据大家说的很多，但是其中错误概念也非常多，我想从我的角度来给澄清一下大数据是什么。第二，大数据和社会学研究到底有没有关系。相信这也是大家比较关心的议题。第三个，大数据对社会学研究带来了什么挑战。大数据给当今社会带来的挑战非常多，但对社会学研究而言，到底有什么样的挑战呢？我自己有三点看法与各位分享。首先，我们来看一下什么是大数据。

1什么是大数据？

大数据是痕迹数据汇集的并行化、在线化、生活化和社会化。

　　对社会学研究，我们最熟悉的是社会活动，我称其为人类活动。其实今天，不仅仅社会活动，你的私密活动也在数据之中，我没有加“社会”两个字，道理就在于人类的活动都在慢慢地数据化。在人类活动中，有一个概念叫做造痕，考古挖掘的，就是人类社会生活留下的痕迹。过去，我们通常拿这些痕迹做证据，比如考古学、历史学和社会学的许多研究活动。这些证据有一些会被数据化，数据化了的证据就叫做数据。

　　既然很早以前就有“数据”，今天怎么就出来一个大数据呢？一个非常重要的因素，就是网络化汇集和网络化存储，把过去的数据集中起来，这才构成了大家讨论的大数据。
　　那么，什么叫大数据？麦肯锡从行业和业务价值链的角度给了一个定义：数据，已经渗透到当今每一个行业和业务职能领域，成为重要的生产因素。人们对于海量数据的挖掘与运用，预示着新一波生产率增长和消费者盈余浪潮的到来。麦肯锡认为，大数据将是一个生产力的来源。今天，我们在讲“互联网+”，背后有一个非常重要的概念，叫数据驱动。过去，我们的研究活动叫理论驱动，今天，数据驱动已经变成了人类社会研究中非常重要的概念。　　“大数据”概念最早从哪里来呢？没有确切的证据，但是IBM很早就开始谈大数据了。IBM给大数据的定义是“4个V”：数量(Volume)、形态(Variety)、价值(Value)、速度(Velocity)。这是从数据本身做的定义。

　　沿着IBM提出的“4个V”，先做一个简单的说明和解释。首先，从数量来看，大数据的数据量已经超出了任何个人在可接受时间范围内搜集、利用、管理和处理数据的能力了。2012年，对数据的计量已经从MB级跃升到TB级了。现在讲大数据，基本都是在PB级及以上。这个量级，超出任何单部计算机乃至大型机的处理能力。　　其次，从数据形态来看，传统的数据，通常是结构化数据，大数据则是混合形态的数据。在大数据中，有一部分是结构化的数据，如SQL（结构化查询语言）数据，更多的则是非结构化的数据，如日志、音频、视频、图片和地理位置等数据，大都是非结构化的。　　第三，从商业领域来看，大数据的价值密度比较低。传统的数据，通常是目标导向数据，有非常明确的价值，比如说CFPS（中国家庭动态跟踪调查）。大数据则是记录导向的，是为了记录数据而不是为了得到某个特定事件的数据，不是为了解释某个事件而记录数据。这是数据获取方式上非常重要的变化。　　大数据第四个重要特征是速度。传统的数据，从测量到可用，需要相当长的时间，赫尔曼?霍尔瑞斯在统计1890年人口普查数据时，发明了读卡机，用1年的时间完成了原本耗时8年的人口普查活动；CFPS从调查结束到数据可用，也需要1-2年的时间。大数据，几乎随时可用，每时每刻都在记录数据，每时每刻这些数据也可用；不过，可用，也有一定的约束性。对研究而言，不是针对一个具体研究问题可用，而是说，如果你想研究某个尚未模型化的问题，可以随时截一段数据来，进行数据清理的可用。　　从社会研究的视角，我自己给大数据一个定义——大数据是痕迹数据汇集的并行化、在线化、生活化、社会化。　　数据汇集的并行化是一个计算机科学概念。并行，指可以同时运行很多个线程。在线化，就是数据本身在线上，不在你的桌面计算机或移动硬盘中。社会化，指每个人都有可能是数据的提供者。在过去，大多数都是由机构或者个人找“样本”提供数据；但是今天，每个人，只要接触传感器，甚至走在大街上，都是数据的提供者，同时，也是数据的使用者。生活化，则指数据的无处不在，无论是工作中还是生活中，数据始终伴随着人们。

　　简单地说，大数据，就是形态数字化、非结构化、在线流动着的数据，容量至少在PB级或以上，与社会行为相伴生、通过设备和网络汇集的数据。大数据是完整的，却不一定是系统的，它无时无刻都在记录着人类的行为。

　　因此，对社会学研究而言，大数据是一种新的研究数据来源，一种永不停息的、流动的研究资源，不一定是对其他来源数据的全面替代。

２大数据和社会学研究有关系吗？

大数据和社会学研究关系密切，对其应用，目前，看起来似乎没那么紧迫，且主要对实证社会学产生较大的影响，逐渐地就会影响到社会学，甚至整个社会科学。

　　在社会学想象力的前提下，我把社会学的研究分为三大类。

　　第一类——思辨的社会学，社会学的鼻祖们，基本上都采用了思辨的方法在研究社会学。后来的，比如说帕森斯、福柯、吉登斯等也是。思辨的社会学，主要采用“概念”工具，而不讲求对概念工具的测量，这些社会学家们，基本不用数据。

　　第二类——诠释的社会学，从胡塞尔以降到舒茨式的现象学社会学等。这些学者，主要是围绕“意义”进行研究。对他们来说，现象的代表性或许是没有意义的，现象本身却具有意义。他们的任务，就是阐释现象的意义。这一类社会学研究，或许也不用数据。　　第三类——实证的社会学，主要源于年鉴学派，也是社会学研究中作品量比较大的一类。如果把这一类社会学与前两类社会学做一个简单的区分，就在于是否使用假设检验和经验检验。

　　目前，数据与社会学研究关系最密切的，是第三类——实证的社会学，实证社会学研究离不开数据。

　　实证社会学有一个发展的过程。1998年，Platt对美国社会学研究做了一个长时段的回顾，发现：1915年-1924年，35%的社会学研究文章中用的是个案，53%用的是统计；到1964年使用统计方法的研究上升到了76%，尤其是ASR(American Sociological Review)和AJS(American Journal of Sociolog)两个主流的刊物。在今天，除非做纯粹的社会理论研究，只要涉及到社会事实的文章，似乎都需要用数据进行检验。在中国也一样，王文韬在2000年的研究，也证明了中国社会学研究实证化的趋势在迅速加强。

　　过去，实证社会学研究的数据主要来自于调查活动。二战以后，从密西根大学建立ISR（Institute for Social Research）开始，数据科学开始慢慢兴起。在大数据到来之前，主要有三个数据来源，分别代表了三种资源来源和三个群体的权力。第一，行政数据，各国政府、各级政府，掌握的各种ID、身份、流动、登记、就业、生产、消费等信息；第二，商业数据，比如说过去近三百年的金融数据、生产交易数据、劳动工资数据等，都在商业机构手里。直到1930s开始，社会科学家逐步认识到数据的重要性，开始寻找数据。二战以后，ISR逐步发展了一整套依靠学术力量获取数据的方法，并建立了覆盖人类社会、经济、教育、健康生活的各类调查数据。在一定意义上，调查数据，成为学者手中一项资源，也是学者在社会中发出声音的一种依据。　　由此看来，从社会学研究发展的视角来看，大数据和社会学有密切关系，只是，目前看起来冲击似乎并不大，也主要是针对实证社会学的冲击。在将来可能就不是这样了，对大数据的应用不仅对社会学而言会变得十分紧迫，甚至对所有社会科学而言都将如此。

３大数据给社会学带来了什么挑战？

今天，社会研究依然需要通过调查获取数据。或许大数据研究的范式重在发现，而不是重在推论。社会研究的基本目标还是要把握事物之间的关系模式，不过，在大数据中，这种把握的技术变了，需要运用数据挖掘技术。不仅如此，大数据给带来的更大挑战，在于对整个教育体制的挑战。

　　在大数据应用日益广泛的现代社会中，进行社会研究依然需要调查数据。的确，对于大数据而言，无需调查，只需选择。调查数据，是有目的、有假设地去搜集数据。对于大数据而言，没有任何人可以做某个单一的研究假设，也没有任何人有能力做普适的研究假设。正是在这个意义上，对大数据的分析，重在发现。而且目前主要是机构性的应用，尤其是商业机构，比如阿里巴巴对大数据的应用，在世界范围内名列前茅。

　　如今的学术研究，还没有运用到PB级数据。社会学的研究，运用的基本上是大数据中的数据，访员不再向调查对象去搜集数据，而是向数据（机器）搜集数据。

　　2013年，哈佛大学的G. King教授做了一项研究，从社交媒体获得数据来看中国沉默的表达，他从1382个社交媒体网上，运用网络爬虫获取数据，是大数据中的数据。

　　2012年我做的“谁在开网店？”用的是淘宝600万个店家数据中的1%店家数据，也是大数据中的数据。

　　那么，大数据来自于哪里呢？

　　大数据的第一个来源，是传感器。人类社会的对传感器的运用，2005年只有1.3亿个，到2010年就发展到了30亿个，今天，大概有45亿个。什么叫传感器呢？广义地硕，任何可以监测、数据化、传输的工具，都是传感器，手机、手环、大街上的探头等，都是传感器。　　大数据的第二个来源，是互联网。谷歌每天要处理大约24PB的数据，百度每天大概新增10TB的数据。　　大数据的第三个来源，是社交网络。像Facebook每天要处理23TB的数据，Twitter每天处理7TB ，腾讯每日新增加200-300TB的数据，中国电信大概每天也有10TB的话单，30个TB的上网日制和100TB的信令数据。　　还有，如金融、零售、科研以及政府等部门的数据。譬如，每个交易周期，纽约证券交易所要捕获1TB的交易信息。淘宝每日订单超过1000万，阿里巴巴已经积累的数据量超过100个PB。

　　大数据给社会学研究带来的挑战到底在哪里呢？

　　大数据带来的第一个挑战就是还要不要调查数据。事实上，对调查数据的挑战，取决于对调查数据的替代程度和扩大程度。相对于大数据而言，调查数据，就是小数据。大数据与小数据有一个交集，两种数据交集重叠的部分会怎么样增长，取决于两个因素，一个是传感器技术的发展，一是数据挖掘的算法技术的发展，这两项技术未来的发展，直接影响到社会科学未来发展的走向。

大数据给社会学带来什么挑战？

　　对于调查数据来说，比如说人口普查，健康调查之类的，这些调查到底干什么呢？对个体研究而言，他研究人的行为、健康、教育、成就、幸福；对于群体而言，研究群体的行动，结构和动态；对于社会而言，研究社会的状态和动态，这些研究未来有没有可能用大数据来替代？完全有可能，如果数据整合能够实现，替代的速度可能还很快！　　比如，微信社交网，就是人的人情网络或人际网络；淘宝就是生活网；还有交通网，工作网，健康网。大家手腕上戴的智能手环、手机、电脑、家用电器等，这些设备如果互联互通，也会形成巨量的数据。用《信息简史》一书中的一句话来概括：万物皆比特。　　数据就在那儿，问题是怎么用。未来，社会学研究对数据的利用，取决于数据化覆盖的范围。第一个覆盖的是教育，在线教育；第二个是健康，未来的健康将是完全数据化的健康；第三个是物联网，所有的器物之间连通、数据化；还有硬件、工程、制造、农业、金融等等领域，都将被数据化。既然各行各业都被数据化了，那么，大数据给社会学研究带来的第一个挑战就是：“社会研究还需要调查吗？”　　对这个问题，我认为有两个点值得探讨——转换和替代。第一个是转换数据，第二个转换思维。数据的来源已经完全变了，需要调查的东西越来越少。替代，未来也有可能完全不需要做大规模调查，调查的重要性会越来越低，这是一个大趋势。

　　第二个挑战，社会学研究范式还有用吗？在《大数据时代》中，作者提到过去的研究范式是抽样、精确、因果。作者说，这三个过去我们为之努力奋斗的范式可能面临着革命性的转变。事实是否如此，现在依然有争论，至少这是一个值得认真思考的信号。

　　我自己有一个看法，运用调查数据做研究，是假设检验进行推论；运用大数据做研究，显然是通过数据进行总体归纳；方法上的确是一个本质的转换。我们知道自然科学用重复检验，社会科学没有重复检验的条件，只能做假设检验。如果数据归纳在迭代中能够满足重复检验的条件，是不是就会真正地“科学化”呢？目前，至少有一点是可以肯定的，那就是大数据研究的范式重在发现，而不是重在推论，社会研究的基本目的没有变，还是要把握事物之间的关系模式。

　　大数据的分析是从数据挖掘开始的，运用的是数据挖掘技术。数据挖掘，就是发现有意义的模式和规则。挖掘，是大数据分析的基本策略，不是具体方法。

　　大数据挖掘有一些基本步骤。首先是属性归类。归类之后再降维、降低容量。降维、降容之后，就是结构化的数据了，跟调查数据差不多，接下来，就是从数据中发现模式。

　　如此，大数据分析至少有4个步骤：第一，拿到数据使用权，；第二，在高性能计算系统中降维降容；第三，获取可分析数据；第四，进行分析（模式发现）。

　　对社会学研究而言，这也是大数据分析的基本步骤。

大数据给社会学带来什么挑战？

　　降维降容之后的，就是集成的数据；接下来是进行数据选择，数据变换；完成变换后的数据，就是可以用于模式发现的数据了，通过建模，机器学习、发现模式，评估模式，直到获得稳定的模式，那就是知识表达。其中，数据挖掘，跟社会学研究一样，有描述性挖掘，也有预测性挖掘。描述性挖掘，同样是探讨特征、探讨社会事物的属性；预测性研究，同样是探讨变量之间的关系。

　　对大数据进行描述性研究，需要做四个方面的工作：第一个是做特征分析，点分析。第二个是做关联分析，双变量和多变量的关联分析。第三个是做聚类分析，聚类主要是做多特征的综合聚类，最后做离群点分析。

　　利用大数据进行预测分析的基础不是理论建模，而是数据建模。数据建模不同于统计建模和数学建模。统计建模基本上是基于理论的建模，数据建模是基于数据归纳的建模，这是两者最重要的区别。

　　基本模型可以分成两大类，一是分类模型，一是回归模型。分类模型讲类别、讲特征值；回归模型做预测。

　　因此，数据挖掘，是多种技术的应用。首先得学统计学；其次是用于多个方面的算法。我认为，算法，是未来社会学学生至少应该懂的东西；第三，一些其他的技术。其中，算法涉及到数据库技术、可视化技术、机器学习技术、模式识别技术等。

　　大数据挖掘的统计技术与对调查数据进行统计分析的技术大题相同，也有描述统计、预测性统计等。总体上来讲，回归是一种最常用的统计模型。算法，则相对复杂一些，也是数据挖掘的核心技术，不仅用于数据库构建，机器学习等也跟它有关。

　　机器学习，是机器根据数据建模的模型进行学习，通过迭代，让模型稳定化。比如说某个参数，在调查数据中，参数是通过统计计算得到的，在大数据分析中，则是在初始模型的基础上，通过机器学习获得的。

　　面对大数据的挑战，社会学的优势在哪里呢？社会学曾经的优势有调查数据，有分析数据，有运用数据知识的积累，这是实证社会学最核心的三部分，构成了实证社会学独特的知识能力。

　　但是今天，这一切变了，社会学只剩下运用数据知识的积累这一个优势了。调查数据的优势，在慢慢失去；分析数据的优势，也在慢慢丢失。唯一剩下的或许只有运用数据知识的积累了。未来，如果社会学不能掌握大数据运用的知识与能力，没有超过其他学科的想象力和建模能力，基本上，社会学学者将完全沦落为各类组织的劳工。

　　应对大数据带来的挑战，我们要有能力把握数据化社会的特征。其实，挑战远不在于此，更大的挑战还在于，与大数据相伴随的“互联网+”对整个教育体制的挑战。大家知道大英百科全书曾经是世界上容量最大的百科全书，今天我们还需要买大英百科全书吗？完全不需要，维基百科上，知识的正确率高达96%，而且完全免费，比300部大英百科全书总量还要大。

　　不仅如此，今天，人们的学习方式也正在发生巨大的改变，甚至是革命性的变革，对知识性的内容，人们不再需要传统意义上的老师；对思维性的内容，人们虽然依然需要传统意义上的老师，可是，老师又如何保证自己的能力可以满足人们学习的需要呢？因此我认为，大数据带给我们更大的挑战在于正在出现的教育模式的革命性转变，在于大学的教育模式的转变。未来的教育模式是什么样？班级模式还会不会在？这些都是值得我们深思的议题。

　　学习模式在变，我们的初等教育、高等教育的教育模式也要改变。斯坦福的Coursera平台，汇集了全世界7000多门优秀课程，全世界最好的老师在上面PK，只要讲的不对，立马就有人指出，这是教育模式革命，现在仅仅只是一个开始，我认为这才是大数据带给我们的更大挑战。