【原】[虾说IT]5、数据分析四层次之二：诊断性数据分析

godxiasad 2023-04-21 发布于北京

展开全文

从这一篇开始，虾说分析改名叫做虾说IT，因为发现里面很多内容不止有分析，还有与码农、编程、架构等等与IT有关的东西，所以改名了。

先上一张神图镇压气运：

上一节我们讲了，数据分析的四个层次分别是：

描述性分析（Descriptive Analysis）
诊断性分析（Diagnostic Analysis）
预测性分析（Predictive Analysis）
处方性分析（Prescriptive Analysis）

现在先来简单回顾一下：

所谓的描述性分析就是在已有的历史数据的基础上总结规律，发现问题。通常说来，描述性分析是在一无所知的情况下对数据进行的探索，所以它只是对数据本身进行描述，而不对数据后面所代表的意义进行阐述。

比如学生成绩的考评，对班级平均分或者中位数进行计算，以得到这次考试比上一次或者上个年度是进步还是退步了，而至于为啥会这样，是什么原因引起的，这就不是描述性数据分析要做的工作了，这个工作就是进入数据分析的第二个步骤：诊断性数据分析。

诊断性数据分析是在对数据有了解的情况下来进一步解答为什么事件最终的走向会是那样的。也就是回答：为什么会发生这种情况？

下面我们通过一个例子来说：

美国的人口结构，可以看成是哑铃型：中间细，两头粗：

而美国人口的西进，可以代表美国开国以来的历史脉络：

……他们宁可抛弃一切进入美国，前途未知却勇往直前：他们在颠簸的篷车上，翻山越岭、渡河过江，在洪荒新世界觅得站定脚头的空间。这些开拓者的精神，是美国的史家特纳特予强调，可以代表美国立国的精神。向西开拓的历史，即是美国整个历史的定调。

——《许倬云说美国第十一章不断发展的文化脉络》

我们可以通过数据来看这段历史：

这是我们利用美国行政区划为空间信息，人口为属性加权信息，算出来的200年美国人口西进的变化情况。

（上面的仿佛，详见：新版白话空间统计（23）：平均中心）

以上所做的工作，实际上还是描述性数据分析，因为它只是借助可视化技术，对数据本身进行了展示，下面我们进入第二层面：诊断性数据分析。

美国西进的历史进场是属于美国领土扩张的一个方面，我们从西进的速度，可以来了解到在美国建国历史上发生的一些大事件，我们先以每一个10年为时间窗，做西进的距离排序，结果如下：

可以看见有5个明显的波峰：

1850-1860
1900-1910
1920-1930
1940-1960
1970-1990

熟悉历史和地理的同学都知道，这前四次被称之为改变美国人口结构的四次大迁徙，这四次大迁徙对今天美国的政治、社会的依然有着巨大的影响。而从60年代至今的人口迁徙，都被认为是第四次大迁徙的余波。

下面我们来看看这几次大迁徙。

第一次，也是其中变化最高的巅峰，是在1850-1860年代这10年，是美国西进速度最快的10年，同时也可以代表了美国西部人口增长最快的10年，这是因为什么呢？

1841年，一个叫做约翰·奥古斯都萨特的德裔移民，在美国西部的加利福尼亚的萨克拉门托（所以今天，加州的首府不是第一大城市洛杉矶，而是这个只有五十来万人口的小城市萨克拉门托——也是NBA里面国王队的主场）附近发现了金矿，开启所谓的——“大淘金时代”：

金矿被发现后，美国沸腾，世界震撼。近在咫尺的圣弗朗西斯科首先感受到了淘金热的冲击，几乎所有的企业停止了营业，海员把船只抛弃在了圣弗朗西斯科湾，士兵离开了营房，仆人离开了主人，涌向金矿发源地，农民典押田宅，拓荒者开垦荒地，工人扔下工具，公务员离开写字台，甚至连传教士也离开了布道所。这股热潮一直席卷到圣弗朗西斯科北部的俄勒冈及南部的墨西哥。成千上万的淘金者使加利福尼亚人口猛增。并且许多新近出现的城镇很快成为国际性的城市。

——九年级历史上册第19课

当年西部淘金客的经典形象：

轻裘长剑，烈马狂刀

之后就是南北战争及其余波，让这一轮人口迁徙高峰持续到了1880年代。

第二个波峰是1900-1910年，20世纪的第一年在美国历史上是无与伦比的10年的开始，至少在一个方面是过去或将来所无可比拟的。这是进入美国的移民达到高潮的10年，被称为历史上最大移民浪潮的顶点。

当时的每一艘驶向美国的移民船都挤得满满的

贫困的、挨饿的、受压迫的--成千上万的人离开欧洲东南部的俄国、波兰、奥匈帝国、巴尔干半岛、意大利……每年大约有70万至90万人通过埃利斯岛进入美国。

另外伴随美国工业化和城市化的发展，人口由乡村大量流入城市，造成了两次人口大迁徙。

比如从1920-1930年的第三次波峰，就是因为美国城市化进程造成的第三次大迁徙，大量的人口从乡村涌入城市，因为在那里，他们有更好的生活水平和更高的薪水。

而第四次波峰就到达了20世纪的40-60年代这两个十年，而这一次却是由于美国第三次工业革命和以联邦政府及各州政府的鼓励和推波助澜。

二战之后，美国兴起了第三次科技革命，使得美国的产业结构发生了重大变化，美国进入了由传统工业向新兴工业的转变时期。带来上面两次人口迁徙的一二次工业革命崛起的如纺织、钢铁、机械、煤炭、造船等逐步失去了光彩，增长速度放缓，而由于美国南部和西部具有丰富的自然资源和广阔的空间，成为了发展新兴工业的理想地区。

其中，又以北纬37度以南，从弗吉尼亚到加利福尼亚的所谓“阳光地带”成为美国迁入人口最多的地区。

而第五次人口迁徙是60年代以后，一直持续到了今天，但是被认为是第四次人口迁徙的余波。而90年代后期，加州经济下滑，让成千上万的人前往落基山山区找工作，而佛州人口涌入过多导致生活成本上涨，一度有统计学家认为“新阳光带”已经出现，比如科罗拉多、亚利桑那、北卡罗来纳和佐治亚等州已经依托前来工作的人才，成功从以矿业、纺织业为主的旧工业转型为了以IT为主的新兴科技工业地区。

所以，从美国五次迁徙可以看出，经济因素，是人口变化的主要诱因……相关资料请大家自行阅读有关史料和论文。

好吧……这篇数据分析到这里已经离题了，变成了美国人口史简介……

但是从这里大家也可以看出来，在诊断性数据分析里面，最核心的内容并不是用各种算法模型去计算，而是需要通过数据去解答背后的一些原因，如果说，算法和模型是计算机可以做的时期，那么这些原因的寻找和解读，就需要靠数据分析人员的职业水平、工作经验、业务能力乃至于博闻强识的广博知识来实现了。

所以可以说，从诊断性数据分析开始，分析人员的素质开始凌驾于算法之上，就像上面这个例子，如果你不懂历史（在数据分析中，不懂业务），或者说对历史没有兴趣（对业务不感冒），那么就根本无法找到数据背后所表达的意义。

诊断性数据分析

我们在诊断性数据分析中，很多时候都需要证明数据本身所表达出来的意义和真实情况没问题，但是实际上有些异常值或者噪声会干扰我们的判断，或者影响我们解读，这就是诊断性数据分析要做工作之一：我们怎样才能证明它的合理性呢？当然，简单来说，我们可以将其视为可过滤掉的噪声异常值就行。

但是，也有可能是这个异常值本身就是具备存在价值的——例如所有各方都认为这并不是数据的错误，而是有意义的极值，这种时候，我们应该假设存在隐藏（或潜在）原因。

在实际的分析工作了，大多数复杂的场景都具有大量难以分析的潜在原因（有时称为因素）。总的来说，有异常并不是一个糟糕的情况……正如写代码出现了bug，最可怕的不是有bug，而是这个bug无法复现，这才是定时炸弹——将有意义异常值识别出来，并且将它们包含在模型中并通过数据集了解它们的影响是非常重要的工作。

另一方面，如果我们决定，要丢弃所有未知元素，可能就意味着我们会降低模型的预测能力，并且会成比例地降低准确性。因此，诊断分析的主要目标不一定是找出所有因素，而是列出可观察和可测量的因素（也称为因子），以及所有的潜在因素（通常概括为单个全局因素）。

在某种程度上，因为我们可以轻松监控效果，诊断分析通常类似于逆向工程的过程，但要检测潜在原因与可观察效果之间存在的关系就较为困难。因此这种分析通常是概率性的，并且有助于找出某个确定的原因带来特定影响的概率。这样，排除非影响分量和确定最初排除的关系也更容易。

以上就是诊断性分析的一些意义和观点。

最后我们来进行定调：

同样是汉字，在学渣虾手上只能写博客和段子，但是在李白手上可以输出千古名篇：

酒入豪肠，

七分酿成了月光，

剩下的三分啸成剑气，

绣口一吐就是半个盛唐。