分享

论大数据思维的局限性及其超越

 cssc2tk 2019-04-25

刁生富 姚志颖 (人机与认知实验室2017.8.17微信文章)

【作者单位:佛山科学技术学院】

摘要:在高度重视大数据思维的同时,也要保持理性,认真对待其存在的局限性:全数据模式的错识、量化思维的 焦虑和相关性的过度崇拜;需从整体兼顾部分、量化整合质化、因果强调相关的互补中实现大数据思维的超越。

关键词:大数据思维; 局限性; 互补; 超越

随着新一代信息技术的迅猛发展, 尤其是移动互 联网、大数据、云计算和智能穿戴等技术的广泛普及, 数据呈爆炸式增长态势,人类社会进入到一个以数据 为特征的大数据时代。“一个'一切都被记录,一切 都被分析’的数据化时代的到来,是不可抗拒 的”。 〔1〕10大数据环境下,数据成为驱动经济和社会发 展的“新能源”,并创造出更大的经济和社会效益。 在科学研究领域,计算机图灵奖得主吉姆·格雷提出 了科学研究的“第四范式”,即以数据密集型计算为 基础的科研范式。在这样的大背景下,“量化一切”、 “让数据发声”成为时代口号,人们更加重视“全数据 而非样本”的整体性思维,追求“量化而非质化”的量 化思维,强调“相关性而非因果性”的相关性思维。 这无疑对通过追求规律性、因果性和抽样方法来把握 事物间相互关系的传统思维产生了巨大的冲击。然 而,任何事物都是对立统一的,在当下大数据思维热 中需要保持理性,辩证看待其带来的思维转变,认真 对待其存在的局限性,探寻互补之道,从而在思维层 面上更好地适应大数据时代的生存和发展。

一、大数据思维的局限性

1. 全数据模式的错识

随着各种传感器和智能设备的普及,能对事物 实现实时的监测和数据的采集、传输,获取到事物的数据不只是样本数据,而是全部数据,这种模式 被称之为“全数据模式”。在全数据模式的基础上, 可以更全面地分析和把握事物的特征和属性,也有 利于决策更为客观和科学。但对于全数据模式,有 学者也提出 : “N = 所有”常常是对数据的一种假 设,而不是现实。 因此,在追求全数据的同时,需 要进行必要的审思。

首先,我们逐渐陷入数据的爆炸增长和技术滞 后的矛盾之中。在大数据环境下,数据是瞬息变化 的,并不是保持静止状态。根据 IBM 的估计,每天 新产生的数据量达到2. 5* 1018字节,如果把1 立方 米的水比作一个字节,那么它的数据量比地球储水 总量为 1. 42* 1018立方米还要大,其数据增量是非 常惊人的。即使数据技术水平快速提高,但相对于 数据增长速度仍然是滞后的。“即使我们确实收集 了所有数据并用技术对其进行分析,那也只能把握 点与点之间的关系,或者把握局部的相关性。但这不代表能获得事物发展的普遍性规律和趋势。” 这说明,技术的相对滞后阻碍着全数据模式的实现。

其次,“数据孤岛”的客观存在,使“全数据模式”的实现受到一定的限制。要实现“全数据模式”,其重要前提是实现数据开放与共享。随着数 据蕴藏的价值为企业和政府熟悉,数据开放与共享 取得了一定的成效,但到目前为止,数据资源流通 渠道仍未完全打通,“数据孤岛”问题在一定程度上仍然存在。主要表现在: 其一,数据跨行业流动仍 未真正实现。企业、政府在意识到数据潜在价值 后,也快速地在部门间或部门内部实现数据资源的 流动,以便于组织的便捷发展。然而,在各数据主 体利益驱使下,部门间和部门内部的数据却没有实 现真正的互流,这也成为“数据孤岛”亟需解决的又一重要问题。其二,数据交易市场的兴起在一定程 度上加剧了“数据孤岛”的形成。以数据销售为盈 利模式的新兴企业,在利益的驱使下,必然会提高 其所收集到的数据的保密程度,而这一心理和行为 也将使“数据孤岛”的问题更加凸显。其三,企业对 接速度慢、数据更新速度快,使“数据孤岛”问题突出。由于技术的发展速度跟不上数据的增长速度, 数据更新较慢,新旧数据的共处将“蒙蔽”人的视 觉,导致新层面的“数据孤岛”。因此,所谓“全数据 模式”也许会成为我们所憧憬的理想状态,是数据 技术发展所架构起来的新“乌托邦”,是信息社会的 投影———柏拉图的洞穴阴影。

最后,大数据的关键价值并不在于“大”和“全”,而是在于“有用”。全数据模式的追寻会造成 这样一种错觉: 只要能获取全部数据,就能挖掘更 多的数据价值。而目前能够被挖掘出价值的数据 大多都是能被电脑识别的结构化数据,但在整个数 据世界中,大多数有价值的数据都是基于文档未被 标识的非结构化数据。2014 年新增数据中非结构 化数据在数据总量中占比超过80%,2015 年这个比 例超过85%。与此同时,非结构数据增长的速度是结构化数据增速的两倍以上。 这导致了一些因无 法识别而不能被标识的非结构化数据成为“数据垃 圾”,最终被抛弃。这样,我们所谓的“全数据模式” 的实现将变得更加困难。

2.量化思维的焦虑

大数据时代下,自然界和人类社会的一切现象和行为变化被数据化,“量化一切”成为现实可能。在物的数据化同时,我们需要注意量化思维存在的几个问题。本体与方法的缺陷 当今大数据时代,人们的一切活动会留下数据 痕迹,整个世界也逐渐演化为一个数据化的世界,数据世界观不断凸显。在数据世界观指导下,“量化一切”便成为了大数据时代的方法论。哲学家们也开始反思数据与世界的关系问题,甚至提出“世界的本原是数据”的论断。但数据是否就成为了世界的本体呢?我们认为,之所以会产生这样的一种观念,主要是源于对数据本质认识有所偏失,需要慎思这一问题。

首先,大数据的数据来源主要是基于人们社会 生活中有意识或无意识的行为。换言之,大数据是对人们社会生活的感性对象性活动这一客观存在的量化反映,而“量化一切”正是在大数据时代下提出的认识事物的一种理想方法。因此,本质上说,数据的根源依然是客观的物质世界,离开了物质世界,数据便成了“无源之水,无木之本”。

其次,“量化一切”的主要目的是基于人们过去 的感性对象性活动所产生的数据进行采集、传输、存储与分析,实现干预和引导人们的行为。其主要 作用是提高预测的客观性和科学性,更好地发挥人的主观能动性和创造性。但是,这种“量化一切”的理想方法只意识到了“数据是人类社会生活的静态 数据”,却忽略了“人类社会生活是动态的数据”这一客观事实。它把整个人类社会生活当成一个没 有生命力的静态数据集,忽视了整个自然界和人类 社会中很多现象都是瞬息变化和复杂的。

(2)个人行为“被选择”

量化预测将使个人行为“被选择”。基于大数据技术对人们的行为、态度、性格等进行量化分析处理,能预测并帮助人们找到所谓的合适恋爱和结婚对象,但我们也会疑问: 系统为个人找到的这一 对象是否就是最为合适的呢? 如果我们遵循数据 量化分析而做出这一选择,那么个人的直觉和感觉 是否应该摒弃? 我们是让渡自己的选择权还是遵 循系统使我们“被选择” ? 从另一个角度看,这是一个关于感性和理性关系的认识问题:感觉和灵感等感性因素是人生命之初所仅有的,是人对整个自然 和社会最本能的直觉。而理性则是在感性的基础 上后天逐渐发展而获得的。人们之所以更加重视 理性,主要是由于理性因其清晰而严密的逻辑为人易于掌握,而感性却因其不确定性使人易于忽略。但也正因为如此,理性是有所限制的,而感性却因 其不确定性能打破限制而无限延伸,也能对时刻变 化发展的世界做出最本能的直觉反应。我们对基 于大数据分析能找到所谓合适的恋爱或结婚对象 有所疑虑,是因为犹如人脑不可能被电脑所代替一 样,感性也不能被理性所代替。

大数据分析预测的对象也许是个不错的选择,但不一定是合适的或最佳的选择,而且这种预测其实对个体的选择自由已经产生了一定的影响。

( 3)数据独裁的加剧

量化预测加剧“数据独裁”。数据化思维的核心是定量化,或者说“用数据说话”。量化分析所做的成功预测,会进一步加剧了人们对数据资 产的依赖。沃尔玛所谓的“啤酒与尿布”的成功案例便是实证。现在,企业和政府都更加重视数据的 作用,尤其是在决策过程中更加注重用数据说话, 似乎缺乏数据,其说服力便大打折扣。如果政府做 任何一项决策都以数据为依据,则会产生与之期待 相反的后果。比如,假设今年的 GDP 为 6%,去年 的 GDP 为6. 3%,今年相比去年同比下降0. 3 个百 分点,是否就可断定今年的经济一定不如去年呢? 很显然,仅以此数据为标准做出这样的评估是不客 观的。互联网哲学家叶夫根尼·莫罗佐夫对许多 “大数据”应用程序背后的意识形态提出尖锐批评, 警告即将发生“数据暴政”。“词本无意,意由境生”,数据分析和预测需要与相应的场景联系,否则 会产生“歧义”。

( 4)隐私窥视与道德拷问

“量化一切”使个人隐私进一步受到窥视,同时量化预测有时也有悖于道德伦理。首先,个人隐私暴露在太阳底下。可穿戴工具、智能芯片等各种智 能设备的应用,能实时监测人们的一切行为,我们裸露在“第三只眼”的监控下,成为“透明人”。如各种医疗传感器能实时监测个体的生理变化等。其次,数据化隐私泄露加深社会歧视。随着个人行为数据化,在数据利益诱导下,极易出现隐私泄露问题,也将加深社会歧视程度。例如,当医院泄露个人医疗数据,数据显示某人患有HIV,人们便带着有色眼镜看待此人,造成患者的心理失衡、生活受阻、就业困难等等,除了个人人权遭到侵犯,社会歧视 程度也进一步加深。最后,大数据预测有时也会违背人类道德。众所周知,Target有一个项目分析,就是根据个体浏览和购买孕妇产品的数据分析,能提 前预知某少女何时怀孕,并将有关的妊娠产品优惠 券送给该少女,其父亲却并不知情,得知后痛骂了经理一顿。此事背后折射出两个值得深思的问题: 第一,企业是如何获知该少女怀孕的? 个人的隐私是如何泄露的? 反言之,我们的隐私处于窥视中, 且在个人毫不知情、没有同意下被获取,这不仅是让个体感到恐慌,也是触犯法律的。第二,父亲作为该少女最亲密的人还未得知此事,而企业却先获悉并推送优惠券,这是否对别人的一种不尊重? 是 否有悖于道德伦理? 相关的伦理问题值得反思。

3. 相关性的过度崇拜

大数据的核心思维是相关思维,但相关思维在生活实践中也衍生出过度崇拜的问题。人们之所以会对相关思维过度崇拜主要有以下几个原因: 首先,海量数据的存在,使人们无法直接从众多杂乱的数据中挖掘出真正有价值的东西,因此, 人们只能通过统计学上的相关性分析来获取事物之间的关联性,再进一步地挖掘出背后真正的“知识”。其次,在高度复杂和高度不确定性的时代背景下,人们挖掘事物间因果性的难度进一步加大。复杂性科学告诉我们,世界是复杂的、普遍联系的,要求我们用复杂性思维去看待世界,从整体上去把握和研究整个人类社会。相关思维从宏观上去把握事物间的关联性这一特性,更加剧了人们对相关思维的崇拜。 最后,在瞬息变化的环境下,相关分析更适合 商业运行逻辑:只重形式不求原因。对于实用性的商业活动,其追求的是在最短的时间内,用最低的成本来获取最大的利润,这进一步加剧了企业对相 关思维的过度崇拜。 “大数据的本质,是一种统计学上的相关性,从现象上看,它与经典科学中的统计规律是一致的, 这是它们相同的或者说是易混淆的地方” 〔2〕。然 而,在运用相关分析时须注意以下两点问题:第一,相关分析关键是要找到“关联物”。随着数据量的增长,数据的广度和深度也不断扩展,无意义的冗余、垃圾数据也越来越多,带来的更多是数据噪声,真正有价值的数据就被淹没其中,如何 从众多的数据噪声中寻找出其中的“关联物”则是大数据分析需要解决的重要问题。第二,伪相关、虚假相关的客观存在是大数据分析的难点。统计学上,相关关系的种类很多,有正相关和负相关、强相关和弱相关,同时也有假相 关、伪相关等。假相关等相关关系会导致分析结果 的错误而带来严重的后果。谷歌流感系统几次流 感预测结果错误便证实了这一点。如何识别假相 关等相关关系则是大数据分析需要突破的难点所在。寻找事物的因果关系是人类长期以来形成的思维定势和习惯,也是把握事物内在本质的必要途径。著名科学哲学家赖辛巴赫认为 : “不存在没有因果关系的相关关系。” 要防止对相关思维的盲目崇拜,突破大数据思维的局限性,就要注重运用互补思维来超越大数据思维的局限性。

二、在互补中实现大数据思维的超越

1. 整体兼顾部分

整体与部分作为标志着客观事物的可分性与统一性的哲学范畴,具有重要的认识论意义。从方法论上看,“全数据模式”注重的是用整体方法去把握事物,而不是还原方法。因此,要克服“全数据模式”的局限性,必须要着眼整体,系统把握;兼顾部分,深化认识。实现整体方法和还原方法的统一。

首先,着眼整体,系统把握。经典系统论认为, 要把整个事物看成是一个有机整体,注重把握整体 的特性和功能。此外,复杂性科学认为,世界是复 杂多变的,要求我们具备全局视野,从整体上把握 复杂对象。大数据时代,我们应做的是通过把全数 据作为一个整体,利用机器和建模去寻找数据间的 相关关系,寻找出“关联物”,对数据背后折射的事 物把握其整体属性,进一步分析事物内部各要素间的结构和联系,深入挖掘要素间的因果性,具体地、综合地认识事物。

其次,兼顾部分,深化认识。传统还原论认为,把事物分割为不同的部分,通过对各部分的理解整合达到对整体的认识。虽然传统还原论也存在着忽略事物各部分之间的相互联系、相互作用的缺陷,但这并不能说明还原论已没用处,其还原方法也并没有消除人们对事物的整体认识。在研究策略方面,还原论的思想主要体现为一种逐层分析的策略。因此,在复杂性时代下,运用好还原方法的关键在于认知还原事物的层次性。

大数据时代下,由于数据巨大且结构复杂,难以寻求各数据间的因果关系,因此,我们取用的是 把全数据看成一个整体去把握其相关性,但数据物 化的这一整体本质是什么? 则需要我们进一步分 析其内部各要素间的因果逻辑,这实质上运用的就 是还原方法。从这个意义上讲,因果逻辑探究是还 原方法的具体体现,但这一还原方法又与传统还原 方法相区别。因此,“还原方法与整体方法的复杂 关系,归根结底应该是“互补”的”。 现代科学发展也表明,“不要还原论不行,只要还原论也不行;不要整体论不行,只要整体论也不行……科学的态度 是把还原论与整体论结合起来”。 只有充分认识整体与部分的辩证关系,认识整体方法和还原方法的复杂关系,才能利用好这一工具去认识和改造世 界。

2. 量化整合质化 量化研究的目的是对事物及其运动的量的属 性作出回答,而质化研究的目的是深入研究对象的具体特征或行为,进一步探讨其产生的原因。从内容上看,质化研究与量化研究应该是统一的、相互补充的:质化研究为量化研究奠定基础,是量化研究的依据; 而量化研究是质化研究的具体化,使质 化研究更为科学、准确,从而得出更为广泛而深入的结论。两者从不同的角度去分析问题,各有其优点,也正因为如此,才能达到对事物更为全面的认识。因此,在科学研究中应将两者结合起来,取长补短,发挥最大效应。 首先,量的整体把握为质的研究奠定基础。大数据环境下,“量化一切”之所以显示出其重要的作 用主要基于三点原因: 第一,海量数据使“量化一切”成为可能。基于各种智能设备的应用,人们的物理世界和虚拟世界都可以被量化,通过对感性对象的数据化分析,从量的相关系数所呈现的相关程 度能够找寻数据间的关联性,把握数据间的相关关 系,在量上确定数据物化的联系。第二,“量化一 切”有利于我们从量的整体性把握事物。通过量化 分析,能对事物在量的整体性上有一个大致的认 识,且这一整体性认识并非是质化研究意义上对事 物的抽象普遍认识,而是具体细化为对具有关联性 的具体事物的整体认识,即能让我们构造一个全新 的整体图景。第三,大数据本身实质是一个量的关 系集合体,具有实践指导意义。艾伯特—拉斯洛· 巴拉巴斯指出: “人类行为93%是可以预测的,只是 过去我们没有相关数据,也没有一定的方法来探究 人类的行为。”因此,量化研究对于把握事物间的 相关性趋势具有重要的价值作用。 其次,质的因果研究创建新联系,满足新需求。大数据的量化分析虽能使我们从整体上把握事物 的相关性,但并不能明确两者之间的因果性。因果 关系是要素间相互作用过程与其效应之间的联系。因此,在量的维度把握关联事物的基础上,需要深入研究事物内部各构成要素的结构和组合作用,探寻各内部要素的因果性,改变各要素间的相 互作用,并结合人类发展的需求创造出满足人们的 需要的结果。另一方面,在创造新的由内在要素间 因果逻辑而推导出的因果关系,可进一步在量化研 究中进行考察或检验。如此,通过量化研究给质化 研究提供有关感性对象的量化整体属性和一般结 构,质化研究在此基础上深入探究要素间的相互作 用,得到具有代表性的结论,再放到全数据中进行 量化研究予以实证,实现量化和质化的互补。

3. 因果强调相关大数据时代背景下,舍恩伯格提出“我们知道 是什么就够了,没有必要知道为什么。”此后, 人们更注重相关关系,而不是因果关系。但是,在整个人类社会都积极关注相关关系的同时,也必然要反思和重估因果关系的重要性和影响。我们不禁会产生疑虑并反问: 其一,世界上存不存在因果 关系这一本体论问题? 其二,相关关系与因果关系 之间究竟是什么关系? 其三,在科学研究中如何实 现两者的互补? 对于因果关系本体论的问题,我们认为,因果 关系是客观存在的。因果思维是人类长期以来形 成的一种思维习惯,也是我们认识世界本质的逻辑 前提。近代以来,自然科学和人文社会科学的研究 成果都是建立在因果关系这一严密的数理逻辑推 理之上的,而且自然科学的中心任务正是揭示事物之间的因果关系。关于因果关系与相关关系的关系问题,有学者认为是科学与技术关系在大数据时 代背景下的一种折射。科学是探究因果关系即因 果律的学问,而技术是解决问题的方法、技巧,两者 关注的焦点存在差异,但两者并非对立的关系,如 同技术解决“怎么做”、科学回答“为什么”一样,相 关关系可以在实践中引导我们“怎么做”,而因果关系可以回答我们“为什么”这样做。即便大数据时代更侧重强调相关关系,也始终离不开对因果关系的追寻,这是由思维的本性所决定的。侧重相关分析并没有否定因果分析,也并没 说明因果关系不重要,反而是更有利于因果关系的 深入分析,因为两者并不是排斥的关系,而是并存 的关系。我们可以在科学研究中实现两者的优势 互补。 首先,相关关系为因果关系研究奠定基础。大数据时代,我们可以基于海量数据的基础上通过相 关分析快速、便捷、精确地寻找出某事物的关联物,然后对关联物进行因果关系的探寻,把握事物的本 质。正如舍恩伯格所说 : “通过找出可能相关的事 物,我们可以在此基础上进行进一步的因果关系分 析,如果存在因果关系的话,我们再进一步找出原 因。”而在寻找特征关联物的过程中,其实也内 含有因果关系的分析。

其次,因果关系是相关关系的内在规定和目 标。在科学研究领域,我们所追寻的不仅是知道“是什么”的相关性,更重要的是要明确事物之间“为什么”的因果性,由此建立起来的科学理论才能 经受住实践的检验。从这个意义上讲,因果关系是大数据时代下相 关关系内在的、本质的规定,也是相关关系背后所 追求的目标所在,起着决定性的作用。我们需要做的是,以因果思维为研究根基,以相关思维为研究导向,把两者互补起来挖掘大数据蕴含的价值,实现大数据思维的超越。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多