分享

相关关系与因果关系、相关性与影响因素分析、大数据建模五步法、大数据的哲学观

 期盼又见晨曦 2019-03-24
什么是相关性

“万物皆有联”,是大数据一个最重要的核心思维。

所谓联,这里指的就是事物之间的相互影响、相互制约、相互印证的关系,这种关系就叫做相关关系,就是我们常说的相关性。

简单地说,如果有两个事物,当一个事物发生变化时,另一个事物也随着发生规律变化,我们就说这两个事物存在相关性。

世界上的所有事物,都会受到其它事物的影响。

比如,产品的销量是受到各种因素的影响的,比如产品价格、品牌、质量、售后服务等等,这些因素都会对产品销量有着直接的影响。

又比如,产品的价格是受到供求状况的影响和制约的。供给增加,价格就相对下降;供给减少,价格就相对上升。

再比如,在生活中,我们经常会遇到下面的情况:

HR经常会问:影响员工离职的原因是什么?

销售人员会问:哪些要素会促使客户选择某产品?

营销人员会问:影响客户流失的关键因素有哪些?

销售主管会问:影响产品销量下降的原因有哪些?

……

所有上述类似的这些业务问题,转化为数据问题,都可以是相关性的问题。

那么,如何来评估一个事物对另一个事物是否存在影响呢?以及这种影响程度有多大呢?这是数据分析要解决的一个问题,也就是我们常说的影响因素分析。
从因果到相关

影响因素分析,这是过去在小数据时代的叫法。在大数据时代,我们经常用相关性分析来代替影响因素分析的说法。

因果关系

在过去,我们强调的是因果关系,即先有原因,再有结果。如果找不到原因,我们往往会觉得结果也不可信。比如产品价格下降,会导致销量上升,这个价格与销量之间应该是存在因果关系的,这从心理学和社会经济学上都能得到解释。

所以,我们把寻找影响目标变量的关键因素的过程,叫做影响因素分析。

相关关系

但在,随着统计学的进一步发现,有些事物之间看起来并不存在因果关系:

在电影视频的网站上,放上零食的广告,会提升零食的销售;

银行业中信用较高的人,其发生交通事故的概率会较低;

乡村音乐的喜好者倾向于支持共和党,而摇滚歌迷倾向于支持民主党;

选举年,犯罪率会下降,但之后,犯罪率却会上升;

……

这些也能够体现事物之间的关系,但这些关系并不意味着因果。音乐爱好与政治倾向到底有什么关系?基本上很难找到合理的解释,也就是说“音乐”和“政治倾向”之间不一定存在因果关系,但这些在统计学上却是有意义的。

像这种不一定存在因果关系的事物,我们用另一个比较贴切的说法,就叫做相关关系。而寻找两个事物之间是否存在相关性的过程,就叫做相关分析。

在不引起混淆的情况下,在本书中我们依然会使用影响因素分析的说法。

相关关系≠因果关系

因果关系和相关关系是不一样。两个事物存在因果关系,那么它们一定存在相关关系;但存在相关关系的两个事物,却不一定是因果关系。

理论上,现在数据分析领域中所用的相关性分析方法,基本上都是基于统计的,所以只能说两个事物在统计意义上存在相关关系,却无法判断是否是因果关系。

存在相关关系的两个事物,是否存在因果关系呢?这个仅凭数据方法是无法给出结论的,这还得需要专业人士从业务逻辑的角度来进行人为地判断。

比如:价格会影响销量,这是已知的因果关系。即价格和销量有因果关系,那么从数据上一定也会判断出价格和销量呈相关性。

再举一个例子:父母的身高一定会影响子女的身高(这从基因的角度可以理解为因果关系),所以可知,父母身高与儿子身高呈相关性,父母身高与女儿身高也呈相关性;但是,在数据上,你有可能会发现哥哥身高与妹妹身高也呈相关性(他们都受父母身高影响),但哥哥身高与妹妹身高就不存在因果关系(从生物学上没有因果关系)。即有相关性的两个变量,不一定是因果关系。最多也只能说,有可能是因果关系(暂时没有找到理论依据)。

再比如,在前面章节提到的股民的情绪指数与道琼斯指数,股民的情绪指数在某种程度上可以用来反应股票的涨跌情况,说明存在相关关系,但是否存在因果关系,这就无法确定了。

按照《大数据时代》的说法,即使找不到因果关系,只要能够寻找到足够多的相关性,并将这种相关性用于问题的解决过程中,也能够起到巨大的作用

相关性与影响因素分析

“万物皆有联”,是大数据一个最重要的核心思维。所谓联,这里指的就是事物之间的相互影响、相互制约、相互印证的关系。而事物这种相互影响、相互关联的关系,就叫做相关关系,简称相关性。

世界上的所有事物,都会受到其它事物的影响。HR经常会问:影响员工离职的关键原因是什么?是工资还是发展空间?销售人员会问:哪些要素会促使客户购买某产品?是价格还是质量?营销人员会问:影响客户流失的关键因素有哪些?是竞争还是服务等?产品设计人员:影响汽车产品受欢迎的关键功能有哪些?价格、还是动力等?

所有的这些商业问题,转化为数据问题,不外乎就是评估一个因素与另一个因素之间的相互影响或相互关联的关系。而分析这种事物之间关联性的方法,就是相关性分析方法。

当然,有相关关系,并不一定意味着是因果关系。但因果关系,则一定是相关关系。

在过去,主要是要寻找影响事物的因果关系,所以过去也叫影响因素分析。但是,从统计学方法来说,因果关系一定会有统计显著,但统计显著并不一定就是因果关系,所以准确地说,影响因素分析应该改为相关性分析。所以,在不引起混淆的情况下,我们也会用影响因素分析。

相关性种类

客观事物之间的相关性,大致可归纳为两大类:一类是函数关系,一类是统计关系

函数关系,就是两个变量的取值存在一个函数来唯一描述。比如,销售额与销售量之间的关系,可用函数y=px(y表示销售额,p表示单价,x表示销售量)来表示。所以,销售量和销售额存在函数关系。这一类关系,不是我们关注的重点。

统计关系,指的是两事物之间的非一一对应关系,即当变量x取一定值时,另一个变量y虽然不唯一确定,但按某种规律在一定的范围内发生变化。比如,子女身高与父母身高、广告费用与销售额的关系,是无法用一个函数关系唯一确定其取值的,但这些变量之间确实存在一定的关系。大多数情况下,父母身高越高,子女的身高也就越高;广告费用花得越多,其销售额也相对越多。这种关系,就叫做统计关系。

进一步,统计分析如果按照相关的形态来说,可分为线性相关和非线性相关(曲线相关);如果按照相关的方向来分,可分为正相关和负相关,等等。

详细见下面的图形。

相关性描述方式

描述两个变量是否有相关性,常见的方式有:相关图(典型的如散点图和列联表等等)、相关系数、统计显著性。如果用可视化的方式来呈现各种相关性,常见有如下散点图。

至于相关系数和统计显著性,请参后续章节。

相关性方法种类

对于不同的因素类型,采用的相关性分析方法也不相同。下面简单总结一下所选用的相关性分析方法。

解释变量类型

被解释变量类型

方法

作用

数值型变量

数值型变量

相关分析

衡量两个变量的相关程度

类别型变量

数值型变量

方差分析

评估因素对目标变量是否有显著影响

类别型变量

类别型变量

列联分析

评估两个因素是否相互独立

举一个简单的例子:

某电信运营商,面临增量不增收的困境,想弄明白哪些因素有可能会影响客户的消费水平(也就是说,哪些因素与费用有相关性),以及哪些因素与客户流失有相关性,于是收集了如下的表格,请分析并给出结论。

从方法的适用场景,可知:

1)  如果要评估收入对于基本费用的相关性,则可用相关性分析。

2)  如果要评估婚姻状况对于基本费用的相关性,则可用方差分析。

3)  如果要评估教育水平对于客户流失的相关性,则可用列联分析。

其余可采用类似的方法。

大数据建模五步法

前一阵子,某网络公司发起了一个什么建模大赛,有个学员问我,数据建模怎么搞?为了满足他的好学精神,我决定写这一篇文章,来描述一下数据分析必须要掌握的技能:数据建模。本文将尝试来梳理一下数据建模的步骤,以及每一步需要做的工作。 

第一步:选择模型或自定义模式

这是建模的第一步,我们需要基于业务问题,来决定可以选择哪些可用的模型。

比如,如果要预测产品销量,则可以选择数值预测模型(比如回归模型,时序预测……);如果要预测员工是否离职,则可以选择分类模型(比如决策树、神经网络……)。

如果没有现成的模型可用,那么恭喜你,你可以自定义模型了。不过,一般情况下,自己定义模型不是那么容易的事情,没有深厚的数学基础和研究精神,自己思考出一个解决特定问题的数学模型基本上是幻想。所以,自定义模型的事情还是留给学校的教授们去研究和开发吧。当前绝大多数人所谓的建模,都只是选择一个已有的数学模型来工作而已

一般情况,模型都有一个固定的模样和形式。但是,有些模型包含的范围较广,比如回归模型,其实不是某一个特定的模型,而是一类模型。我们知道,所谓的回归模型,其实就是自变量和因变量的一个函数关系式而已,如下表所示。因此,回归模型的选择,也就有了无限的可能性,回归模型的样子(或叫方程)可以是你能够想到的任何形式的回归方程。所以,从某种意义上看,你自己想出一个很少人见过的回归方程,也可以勉强算是自定义模型了哈!

那么,这么多可选的模型,到底选择哪个模型才好呢?我的答复是:天知道!

天知道应该选择哪个模型会好一些!你问我,我问谁啊?如果在这个时候有人告诉你,你的业务应该选择哪个回归方程会更好一些,那么,我敢肯定,你遇上的肯定是“砖家”而不是“专家”。模型的好坏是不能够单独来评论的(你往下看就知道了)!就如小孩子讨论的你爸爸好还是我爸爸好一样,你说谁好?

那么,是不是我们在选择模型时就得靠运气了?其实真有那么一点靠运气的成份,不过好在后续数学家们给我们提供了评估模型好坏的依据。现在,我们只能靠运气来选择某一个模型了。


第二步:训练模型

当模型选择好了以后,就到了训练模型这一步。

我们知道,之所以叫模型,这个模型大致的形状或模式是固定的,但模型中还会有一些不确定的东东在里面,这样模型才会有通用性,如果模型中所有的东西都固定死了,模型的通用性就没有了。模型中可以适当变化的部分,一般叫做参数,就比如前面回归模型中的α、β等参数。

所谓训练模型,其实就是要基于真实的业务数据来确定最合适的模型参数而已。模型训练好了,也就是意味着找到了最合适的参数。一旦找到最优参数,模型就基本可用了。当然,要找到最优的模型参数一般是比较困难的,怎样找?如何找?这就涉及到算法了。哦,一想到算法,我的头就开始痛了,都怪当年数学没有学好呀!

当然,最笨的办法,我们可以不断的尝试参数,来找到一个最好的参数值。一个一个试?这不是要试到生命结束?开玩笑啦,不可能去一个一个试的啦。反正有工具会帮你找到最优参数的,什么最优化算法中的什么梯度上升呀梯度下降呀,你就不用操心了呀,这些留给分析工具来实现就可以了!

当然,一个好的算法要运行速度快且复杂度低,这样才能够实现快速的收敛,而且能够找到全局最优的参数,否则训练所花的时间过长效率低,还只找到局部最优参数,就让人难以忍受了。

第三步:评估模型

模型训练好以后,接下来就是评估模型。

所谓评估模型,就是决定一下模型的质量,判断模型是否有用。前面说过,模型的好坏是不能够单独评估的,一个模型的好坏是需要放在特定的业务场景下来评估的,也就是基于特定的数据集下才能知道哪个模型好与坏。

既然要评估一个模型的好坏,就应该有一些评价指标。比如,数值预测模型中,评价模型质量的常用指标有:平均误差率、判定系数R2,等等;评估分类预测模型质量的常用指标(如下图所示)有:正确率、查全率、查准率、ROC曲线和AUC值等等。对于分类预测模型,一般要求正确率和查全率等越大越好,最好都接近100%,表示模型质量好,无误判。

在真实的业务场景中,评估指标是基于测试集的,而不是训练集。所以,在建模时,一般要将原始数据集分成两部分,一部分用于训练模型,叫训练集;另一部分用于评估模型,叫测试集或验证集。

有的人可能会想,为什么评估模型要用两个不同的数据集,直接用一个训练集不就可以了?理论上是不行的,因为模型是基于训练集构建起来的,所以在理论上模型在训练集上肯定有较好的效果。但是,后来数学家们发现,在训练集上有较好预测效果的模型,在真实的业务应用场景下其预测效果不一定好(这种现象称之为过拟合)。所以,将训练集和测试集分开来,一个用于训练模型,一个用于评估模型,这样可以提前发现模型是不是存在过拟合。

如果发现在训练集和测试集上的预测效果差不多,就表示模型质量尚好,应该可以直接使用了。如果发现训练集和测试集上的预测效果相差太远,就说明模型还有优化的余地。

当然,如果只想验证一次就想准确评估出模型的好坏,好像是不合适的。所以,建议采用交叉验证的方式来进行多次评估,以找到准确的模型误差。

其实,模型的评估是分开在两个业务场景中的:

一、是基于过去发生的业务数据进行验证,即测试集。本来,模型的构建就是基于过去的数据集的构建的。

二、是基于真实的业务场景数据进行验证。即,在应用模型步骤中检验模型的真实应用结果。

第四步:应用模型

如果评估模型质量在可接受的范围内,而且没有出现过拟合,于是就可以开始应用模型了。

这一步,就需要将可用的模型开发出来,并部署在数据分析系统中,然后可以形成数据分析的模板和可视化的分析结果,以便实现自动化的数据分析报告。

应用模型,就是将模型应用于真实的业务场景。构建模型的目的,就是要用于解决工作中的业务问题的,比如预测客户行为,比如划分客户群,等等。

当然,应用模型过程中,还需要收集业务预测结果与真实的业务结果,以检验模型在真实的业务场景中的效果,同时用于后续模型的优化。

第五步:优化模型

优化模型,一般发生在两种情况下:

一、是在评估模型中,如果发现模型欠拟合,或者过拟合,说明这个模型待优化。

二、是在真实应用场景中,定期进行优化,或者当发现模型在真实的业务场景中效果不好时,也要启动优化。

如果在评估模型时,发现模型欠拟合(即效果不佳)或者过拟合,则模型不可用,需要优化模型。所谓的模型优化,可以有以下几种情况:

1)  重新选择一个新的模型;

2)  模型中增加新的考虑因素;

3)  尝试调整模型中的阈值到最优;

4)  尝试对原始数据进行更多的预处理,比如派生新变量。

不同的模型,其模型优化的具体做法也不一样。比如回归模型的优化,你可能要考虑异常数据对模型的影响,也要进行非线性和共线性的检验;再比如说分类模型的优化,主要是一些阈值的调整,以实现精准性与通用性的均衡。当然,也可以采用元算法来优化模型,就是通过训练多个弱模型,来构建一个强模型(即三个臭皮匠,顶上一个诸葛亮)来实现模型的最佳效果。

实际上,模型优化不仅仅包含了对模型本身的优化,还包含了对原始数据的处理优化,如果数据能够得到有效的预处理,可以在某种程度上降低对模型的要求。所以,当你发现你尝试的所有模型效果都不太好的时候,别忘记了,这有可能是你的数据集没有得到有效的预处理,没有找到合适的关键因素(自变量)。

不可能有一个模型适用于所有业务场景,也不太可能有一个固有的模型就适用于你的业务场景。好模型都是优化出来的!

最后语

正如数据挖掘标准流程一样,构建模型的这五个步骤,并不是单向的,而是一个循环的过程。当发现模型不佳时,就需要优化,就有可能回到最开始的地方重新开始思考。即使模型可用了,也需要定期对模型进行维护和优化,以便让模型能够继续适用新的业务场景。

大数据的三个关键环节

大数据,是应用导向的。它以商业需求为出发点,然后借助数据的手段,来发现商业活动的本质,进而形成商业活动的决策和建议,以实现最终的商业目的。

 所以,在大数据领域,要想让数据产生价值,涉及到三个关键环节:

(一)  将商业问题转化数据可分析问题。

(二)  对数据进行有效的处理和分析,提取数据中蕴含的业务信息。

(三)  基于业务信息,形成最终的业务策略及应用。

这三个环节,一环扣一环,缺一不可。要想让数据产生价值,要想让大数据服务于企业的商业行为,则需要基于这三个环节,重新梳理企业的整个IT支撑系统。

为了方便描述,我把这三个环节简化为如下的几句话:业务数据化、数据信息化、信息策略化。

业务数据化

简单地说,业务数据化,就是将业务问题转化为数据问题。

在数学家的眼里,世界的本质是数学的。同样,在数据分析师的眼里,任何一个商业问题,都可转化为一个数学问题,或者是一个数据问题,一个数据可分析的问题。

万物皆可量化

这源于一个最朴素的数据价值观:万物皆可量化。

比如,要想弄明白一个人的兴趣和爱好,就可以收集他在百度上搜索过什么关键词,在今日头条上阅读过哪类资讯,浏览过哪些网站等这些数据。

要想了解客户的消费能力,则可以查看他的存款、每月的工资收入,或者他买过的产品的价格档次等数据。

同样,要知道他去了哪里,则收集到车票机票数据、酒店住宿和景点门票数据,最直接的是手机GPS数据,都能够直接体现他的位置信息,等等。

正因如此,我们就可以通过数据来间接地描述客观事物。

万物皆数据化

同样地,大多数的商业问题,都可以定义为数据可分析的问题。

比如,用户购买行为分析的问题,转化为数据的问题,其实就是对客户的浏览数据、搜索数据、点击数据和交易数据等进行统计分析,以查看其中的行为规律和行为模式;

市场精准营销的问题,简单地可看成是一个分类预测的问题,即判断一个客户会不会购买公司的产品,会购买公司的哪一款产品,以及大概在什么时候会有购买需求,等等;

银行的风险控制和风险识别问题,实际上是判断一个人是否会拖欠贷款的预测问题;

产品销量提升的问题,就是要判断有哪些因素会影响产品销量,其实可看成是一个影响因素分析的问题,即是一个相关性问题;

产品功能设计问题,也可以是一个影响因素分析的问题,即哪些功能和特征会对销量产生比较大的影响,这些有显著影响的功用和特征是需要在设计时重点考虑的;

当然,一个商业问题也可以转化为几个不同模式的数据问题,不同的数据问题得到的业务模式和业务信息也是不相同的。

一句话,万事皆可数据化。

业务数据化,这一环节是大数据的开始,它是整个大数据价值实现的起点,没有商业问题的指引,后续的环节(数据分析与数据挖掘)将会显得盲目而毫无意义。

数据信息化

数据信息化,简单地说,就是将数据变成信息,即要提取数据中蕴含的业务信息。

数据信息化,这一环节是大数据的核心,它是整个大数据价值实现的灵魂,要是无法对数据进行有效地分析和挖掘,就无法提取到有用的业务信息。

那么,数据中究竟包含了哪些业务信息呢?我认为,大数据至少可以用来发现如下的业务信息:

1)  业务的运行规律和特征

2)  业务的变化和问题

3)  业务运行的影响因素

4)  业务在未来的发展趋势

下面我将为大家一一介绍如何提取业务的这些信息。

探索规律

哲学告诉我们,任何事物都是发展的,发展必定是有规律的,即万事皆有规律。

任何客观事物,不管是企业的运营管理,还是市场营销行为,都是有规律的。而大数据,则是探索这种规律的有效的工具!

如下所示,几乎所有的零售店的销量都有如下的特征,即周末的销量比工作日的销量往往要多得多,而这些数据中就体出了客流量在时间上的分布规律。

发现变化

世界是物质的,而物质是运动的,运动是事物的本质。

一切事物都在运动变化,这些运动变化是可以被探知的。

谷歌工程师每日都会对搜索感冒相关词的搜索量做过分析,在正常情况下,某地区每日的搜索量都会在一个正常的范围内波动。但如果有一天(比如12号开始),某地区的搜索量开始持续上升,这上升的背后,其实体现的是患感冒人数的增加。基于此理论,谷歌的工程师开发出一个大数据产品GFT(Google Flu Trend),专门用来预测流感的爆发。这个产品,甚至可以在流感爆发前的7-14天就能够做出预判。

探索关系

唯物辩证法认为,世界上的一切事物都处在普遍联系中,没有任何一个事物是孤立地存在的。联系是指事物之间以及事物内部诸要素之间相互连结、相互依赖、相互影响、相互作用、相互转化等相互关系。

美国印第安纳大学的教授约翰·博伦(Johan Bollen),曾发表了一篇文章《Twitter情绪预测股票市场》,其中就发现了人类的情绪指数与股票指数的具有较强的相关性。如下图所示,当情绪曲线往后挪3~4天以后,情绪的波动和股票的涨跌具有较强的一致性,这开启了大数据炒股的新时代。

一句话,万物皆有联系,而大数据成为探索事物间相互联系的一种有效的手段。

预测未来

大家都知道,大数据分析的是已经发生过的数据,那么过去的数据已经发生还有什么用呢?大数据只是借过去的数据来探索事物的规律和特征,其目的是为了探索事物在未来的发展变化或发展趋势,因此,大数据的目的是预测。基于对事物的预测结果,用来作出相应的策略调整。如果预测的结果不是我们想要的,则需要调整相应的策略,使得事物朝着我们想要的方向去发展。

所以,大数据描述的是过去,表达的却是未来!

信息策略化

即使数据分析方法用得再熟练,数据挖掘的模型再漂亮,如果没有形成最终的业务建议,无法落地成可被执行的业务策略,都是空谈。

信息策略化,指的是基于对业务信息的理解,进而提出相应的业务策略和业务建议。

就比如前面的例子,基于客流量的规律,可用于选择营销活动的执行时间;基于流感爆发的预测,可用来提前作出相应的准备;基于情绪指数与股票指数的关系,可用于指导炒股的买卖,等等。

当然,要把具体的信息形成有效的策略,这没有一个统一标准,只能是就事论事。

这是大数据产生价值必经的三个环节:业务数据化,数据信息化,信息策略化。

这三个环节,一环扣一环,缺一不可。要想让数据产生价值,要想让大数据服务于企业的商业行为,则需要基于这三个环节,重新梳理企业的整个IT支撑系统。

没有把业务定义成数据可分析问题,数据分析就是盲目的缺乏指导;没有有效的数据分析,就无法提取出有价值的业务信息,整个大数据就没有意义;业务信息无法形成最终的业务策略和业务建议,大数据的价值也就无法落地。

时间序列分析方法索引

要作数值预测,最好的方法莫过于回归预测。通过建立起影响因素(即自变量)与目标变量之间的函数关系式,就可以对因变量的未来值进行预测。

尽管回归分析在预测时比较准确,但是,实现比较复杂,因为它要求能够找到所有或大部分影响事物的关键因素,这样才能够建立回归模型进行预测。

但是,在真实的场景中,要找出影响事物的关键因素是非常困难的,比如,大多数社会经济指标,如国内生产总值(GDP)、消费价格指数(CPI)、上证综合指数等等,要找出影响因素来建模,基本上不太可能,所以这种场景下,采用回归分析难以实现。

那该怎么办呢?此时,可以尝试使用另一种分析方法,即时间序列分析法

基本原理

时间序列分析,不像回归分析,它是抛开了对事物发展的因果分析,只分析事物的过去和未来的联系,即它假定事物的过去趋势会延伸到未来。

时间序列(Timeseries),指的是按照相等时间间隔的顺序而形成的数据序列。一般情况下,大多数社会经济指标,如GDP、CPI、利率、汇率等等都是时间序列。时间序列的时间间隔可以是分秒(如股票金融数据),也可以是日、周、月、季度、年,甚至更大的时间单位。

时间序列分析基于这样一个假设:事物过去的模型可以持续到未来。

时序形态

简单地,一个时间序列会随着时间变化而变化,如下图所示的几种变化形式。

比如左上第一个序列,有着明显的季节性波动;右上第二个序列,有整体下降的趋势;左下第三个序列,呈现上升趋势而且具有季节波动;右下第四个序列,没有明显的趋势也没有季节波动。

常用方法

最常见的时间序列分析模型和方法有如下三大类:

1)  趋势类分析:移动平均、指数平滑等;

2)  季节波动类分析:温特斯方法、基于回归的方法;

3)  平稳序列类分析:自回归滑动平均模型。

每一大类中,都会有多种分析方法和模型。

大数据的哲学观

2007年上,图灵奖得主吉姆格瑞在发表最后一次演讲时说:大数据已经成为科学研究的第四范式。人类在科学研究的道路上,从经验科学,到理论科学,再到计算科学,如今到数据密集型科学,科学研究对于世界运行规律的探索永不停止,大数据成为第四范式也是必然之路。

大数据之所以成为第四范式,源于它建立在以下三个哲学思想之上。

世界是有规律的

唯物主义者说,世界是物质的,物质是运动的,运动是有规律的,规律是可以被认识的。而大数据,就是建立在探索世界规律基础上的,这是大数据存在的哲学基础。也有人说,不确定性是宇宙的本质!从宇宙大爆炸那一刻起,就从混沌走向混乱,从秩序走向不确定性。然而,随着科学的不断发展,大量的不确定的事物正在慢慢变得确定。

自然界中,大到天体、星球的运行,小到分子、原子的运动,都遵循其固有的规律。这些规律看起来极其复杂,实则极其简洁,以至于牛顿仅用几个定律和公式就描述清楚,科学家们用一只笔就能够计算出遥远星系中某个星球的运行轨迹。

不仅是自然界,人类社会的发展也是有规律。人类社会从原始社会开始,经历奴隶社会、封建社会,进而到达资本主义社会和社会主义社会,看起来很混乱,然而社会的发展也是有规律的。比如,马克思对大量复杂的社会现象进行抽象分析,认识到生产关系一定要适应生产力发展是推动人类社会发展的根本规律。

在生活中,人类的行为也同样存在着各种规律,比如常说的“二八定律”,“光环效应”,“破窗效应”,“马太效应”,等等,都是对人类行为规律的总结。所以,大到国家治理/经济发展,中到企业管理/市场营销,小到个人行为(包括购买行为、消费习惯)等等,都是有章可循的。而企业管理、市场营销等等,不外乎就是想发现这些人类行为的规律,并且利用这些规律来达到某种商业目的。

可见,万事万物的运行和发展都是有其固有的发展规律的。整个宇宙体系,所有的星球运行、所有的事物发展、所有的信息传递、所有的能量传递、所有的时空变化、所有的一切,都遵守着的某种基本规律。这种规律也许已经被发现,也许还没有发现却始终在影响着事物的发展变化。

而大数据,是对客观世界的量化和记录的结果,是客观事物的规律表现出来的现象,通过对大数据的深入分析,就可以发现事物运行和发展的规律,进而利用这些规律,这也是为什么大数据能够用在几乎任何行业和领域的原因。

那么,有没有大数据无法应用的领域呢?当然有!曾经,有一个学员问我:能不能用大数据来预测双色球或彩票?我答到:不能!因为彩票不具有规律性,或者目前还没有发现有规律性,所以,无法用大数据来进行探索或预测。

世界是多维的

哲学告诉我们说,世界是多维的。尽管,就我们人类能够感知的空间来说,只有四维(即长、宽、高、时间)空间,但是物理学界流行的说法是世界应该有11维时空。很多事物的现象在低维时空中无法解释,但是在高维空间中却能够得到良好的解释。所以,哲学告诉我们,要学会以多维的视角看世界。大数据的一个核心思维:融合思维,就基于世界的多维性。

小数据时代多数是从单一指标、单一类别来分析事物,所以其结果不一定准确有用;而大数据,强调要从多个维度对数据进行交叉分析,来全面地观察事物的变化,进而探索事物的内在规律。所以,大数据区别在于小数据最本质的,不是数据量的大,而是分析维度要多得多。

几乎从未有过一个人在任何单一维度很强就能够成为牛人,而是因为他理解世界的角度多才成为大咖,这就是所谓的“多元思维模型”的价值,这也是大数据区别于小数据的价值所在。大数据,更强调数据的多维性!强调分析问题的多维性!大数据在体现事物规律的全面性方面,是小数据无法比拟的。

由于大数据具有多维和全面的特点,所以,它可以从很多看似支离破碎的信息中复原一个事物的全貌,并进而能够预测或判断出尚未观察到的事物的现象。比如,爱因斯坦在(1916年)广义相对论中预言了引力波的存在,即万有引力和引力波都是时空弯曲的结果,但是,这种引力波在一百年后(2015年)才被证实。

万物皆有联

世界上的事物是普遍联系的。普遍联系,是指事物或现象之间以及事物内部各要素之间是相互依赖、相互影响、相互作用、相互制约、相互转化等相互关系。

 联系的形式也是无限多样的,有现象之间的联系,也有本质之间的联系。本质联系(即常说的因果关系),是客观事物的内部联系,是对事物的存在和发展起主要的、决定性作用的联系,这种联系体现了事物所固有的、内在的根本性质,并贯穿于事物整个发展过程。而现象间的联系(常说的相关关系),指的是事物外部的、表面的、现象的联系。

世界上的每一个事物或现象都与其它事物或现象相互联系着,没有绝对孤立的事物。通俗地说,任何事物都会受到其他因素的影响,受其他因素影响越大,事物的变化也就越大;受其他因素影响越小,事物的变化也就越小。

比如,美国华尔街一家基金公司,就利用社交网络上人们的情绪指数与股票指数的同步性,来预测基金的涨跌,进而指导基金的买卖。

唯物辩证法说,要以联系的观点来看问题。大数据另一个核心思维:相关性思维,就是基于普遍联系的哲学思维。当你利用数据影响事物的相关因素找出来,就能够透过事物的现象抓住事物的本质和规律,就能把握事物的发展和变化。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多