发文章
发文工具
撰写
网文摘手
文档
视频
思维导图
随笔
相册
原创同步助手
其他工具
图片转文字
文件清理
AI助手
留言交流
今天下午(2015年5月29日),我准备与大家讨论三个问题:第一,什么是大数据。关于大数据大家说的很多,但是其中错误概念也非常多,我想从我的角度来给澄清一下大数据是什么。第二,大数据和社会学研究到底有没有关系。相信这也是大家比较关心的议题。第三个,大数据对社会学研究带来了什么挑战。大数据给当今社会带来的挑战非常多,但对社会学研究而言,到底有什么样的挑战呢?我自己有三点看法与各位分享。首先,我们来看一下什么是大数据。
简单地说,大数据,就是形态数字化、非结构化、在线流动着的数据,容量至少在PB级或以上,与社会行为相伴生、通过设备和网络汇集的数据。大数据是完整的,却不一定是系统的,它无时无刻都在记录着人类的行为。
因此,对社会学研究而言,大数据是一种新的研究数据来源,一种永不停息的、流动的研究资源,不一定是对其他来源数据的全面替代。
在社会学想象力的前提下,我把社会学的研究分为三大类。
第一类——思辨的社会学,社会学的鼻祖们,基本上都采用了思辨的方法在研究社会学。后来的,比如说帕森斯、福柯、吉登斯等也是。思辨的社会学,主要采用“概念”工具,而不讲求对概念工具的测量,这些社会学家们,基本不用数据。
目前,数据与社会学研究关系最密切的,是第三类——实证的社会学,实证社会学研究离不开数据。
实证社会学有一个发展的过程。1998年,Platt对美国社会学研究做了一个长时段的回顾,发现:1915年-1924年,35%的社会学研究文章中用的是个案,53%用的是统计;到1964年使用统计方法的研究上升到了76%,尤其是ASR(American Sociological Review)和AJS(American Journal of Sociolog)两个主流的刊物。在今天,除非做纯粹的社会理论研究,只要涉及到社会事实的文章,似乎都需要用数据进行检验。在中国也一样,王文韬在2000年的研究,也证明了中国社会学研究实证化的趋势在迅速加强。
如今的学术研究,还没有运用到PB级数据。社会学的研究,运用的基本上是大数据中的数据,访员不再向调查对象去搜集数据,而是向数据(机器)搜集数据。
2013年,哈佛大学的G. King教授做了一项研究,从社交媒体获得数据来看中国沉默的表达,他从1382个社交媒体网上,运用网络爬虫获取数据,是大数据中的数据。
2012年我做的“谁在开网店?”用的是淘宝600万个店家数据中的1%店家数据,也是大数据中的数据。
那么,大数据来自于哪里呢?
大数据给社会学研究带来的挑战到底在哪里呢?
大数据带来的第一个挑战就是还要不要调查数据。事实上,对调查数据的挑战,取决于对调查数据的替代程度和扩大程度。相对于大数据而言,调查数据,就是小数据。大数据与小数据有一个交集,两种数据交集重叠的部分会怎么样增长,取决于两个因素,一个是传感器技术的发展,一是数据挖掘的算法技术的发展,这两项技术未来的发展,直接影响到社会科学未来发展的走向。
第二个挑战,社会学研究范式还有用吗?在《大数据时代》中,作者提到过去的研究范式是抽样、精确、因果。作者说,这三个过去我们为之努力奋斗的范式可能面临着革命性的转变。事实是否如此,现在依然有争论,至少这是一个值得认真思考的信号。
我自己有一个看法,运用调查数据做研究,是假设检验进行推论;运用大数据做研究,显然是通过数据进行总体归纳;方法上的确是一个本质的转换。我们知道自然科学用重复检验,社会科学没有重复检验的条件,只能做假设检验。如果数据归纳在迭代中能够满足重复检验的条件,是不是就会真正地“科学化”呢?目前,至少有一点是可以肯定的,那就是大数据研究的范式重在发现,而不是重在推论,社会研究的基本目的没有变,还是要把握事物之间的关系模式。
大数据挖掘有一些基本步骤。首先是属性归类。归类之后再降维、降低容量。降维、降容之后,就是结构化的数据了,跟调查数据差不多,接下来,就是从数据中发现模式。
如此,大数据分析至少有4个步骤:第一,拿到数据使用权,;第二,在高性能计算系统中降维降容;第三,获取可分析数据;第四,进行分析(模式发现)。
对社会学研究而言,这也是大数据分析的基本步骤。
利用大数据进行预测分析的基础不是理论建模,而是数据建模。数据建模不同于统计建模和数学建模。统计建模基本上是基于理论的建模,数据建模是基于数据归纳的建模,这是两者最重要的区别。
基本模型可以分成两大类,一是分类模型,一是回归模型。分类模型讲类别、讲特征值;回归模型做预测。
因此,数据挖掘,是多种技术的应用。首先得学统计学;其次是用于多个方面的算法。我认为,算法,是未来社会学学生至少应该懂的东西;第三,一些其他的技术。其中,算法涉及到数据库技术、可视化技术、机器学习技术、模式识别技术等。
大数据挖掘的统计技术与对调查数据进行统计分析的技术大题相同,也有描述统计、预测性统计等。总体上来讲,回归是一种最常用的统计模型。算法,则相对复杂一些,也是数据挖掘的核心技术,不仅用于数据库构建,机器学习等也跟它有关。
机器学习,是机器根据数据建模的模型进行学习,通过迭代,让模型稳定化。比如说某个参数,在调查数据中,参数是通过统计计算得到的,在大数据分析中,则是在初始模型的基础上,通过机器学习获得的。
面对大数据的挑战,社会学的优势在哪里呢?社会学曾经的优势有调查数据,有分析数据,有运用数据知识的积累,这是实证社会学最核心的三部分,构成了实证社会学独特的知识能力。
但是今天,这一切变了,社会学只剩下运用数据知识的积累这一个优势了。调查数据的优势,在慢慢失去;分析数据的优势,也在慢慢丢失。唯一剩下的或许只有运用数据知识的积累了。未来,如果社会学不能掌握大数据运用的知识与能力,没有超过其他学科的想象力和建模能力,基本上,社会学学者将完全沦落为各类组织的劳工。
应对大数据带来的挑战,我们要有能力把握数据化社会的特征。其实,挑战远不在于此,更大的挑战还在于,与大数据相伴随的“互联网+”对整个教育体制的挑战。大家知道大英百科全书曾经是世界上容量最大的百科全书,今天我们还需要买大英百科全书吗?完全不需要,维基百科上,知识的正确率高达96%,而且完全免费,比300部大英百科全书总量还要大。
不仅如此,今天,人们的学习方式也正在发生巨大的改变,甚至是革命性的变革,对知识性的内容,人们不再需要传统意义上的老师;对思维性的内容,人们虽然依然需要传统意义上的老师,可是,老师又如何保证自己的能力可以满足人们学习的需要呢?因此我认为,大数据带给我们更大的挑战在于正在出现的教育模式的革命性转变,在于大学的教育模式的转变。未来的教育模式是什么样?班级模式还会不会在?这些都是值得我们深思的议题。
来自: 智者的声音 > 《学术》
0条评论
发表
请遵守用户 评论公约
邱泽奇:大数据给社会学带来了什么挑战?
邱泽奇:大数据给社会学带来了什么挑战?其次从数据形态来看,传统的数据,通常是结构化数据,大数据则是混合形态的数据。第一,行政数...
社计文库|范晓光等 计算社会学的基础问题及未来挑战
实证社会科学是指利用实际调查或访谈资料来验证理论假设或者构建理论的研究范式,它有别于纯理论思辨式的传统社会科学。计算社会学是计...
大数据时代计算社会学面临的机遇与挑战
大数据时代计算社会学面临的机遇与挑战。会议一开始,罗教讲教授即指出,这个“计算范式”的兴起过程在自然科学领域已经如火如荼,大数据时代的到来,必定会引发社会科学领域的科学范式革命,这场革命...
破除法学实证研究的两个误识
法学实证研究本来是为了充实法学研究方法,扩展法学研究视野,如若对之理解过于狭仄,无疑是自己把自己的路堵死。法学实证研究的参与者,应积极借鉴、吸收人类学等学科的优势研究方法,掌握田野调查、...
用AI研究合成生物学所面临的挑战
用AI研究合成生物学所面临的挑战。本文将从技术、数据、建模/算法、指标/评估以及社会学等角度,探讨在用AI研究合成生物学过程中所面临...
社会学方法
1.实证主义方法论 2.反实证主义方法论 3.马克思主义方法论 研究方法论 研究方法论是对研究方法的探讨与评价,对利用不同方法所获得的资料的性质和质量的分析,以及对社会研究的逻辑和基本假设的考察。...
Nature子刊 | 建立微生物感染模型以应对世界卫生挑战
Nature子刊 | 建立微生物感染模型以应对世界卫生挑战。美国耶鲁大学Alison P. Galvani等学者于2019年9月20日在微生物学领域顶级期刊Natu...
实证研究的功效和局限
实证研究的功效和局限【研究方法】实证研究的功效与局限2014-06-17 学术中国。实证研究是指研究者运用一定的研究技术对研究对象进行大量社会调查,收集相关资料,为提出理论假设或检验理论假设而展开的...
]社会学专业就业指导
一个也许可行的回答是:(这是我写的,值得进一步商榷)“简单地说,社会学分为三大部分。一是理论部分,即从理论的角度探讨社会结构与变迁的原理。二是方法部分,即通过实证和数学的方法,通过社会调...
微信扫码,在手机上查看选中内容