分享

你真的看懂数据新闻了吗?

 haosunzhe 2015-07-06
???????????????
点击上方“大数据文摘”可以订阅哦!



大数据文摘作品,欢迎个人转发朋友圈;其他机构、自媒体转载,务必后台留言,申请授权。


编译|姚佳灵 校对|康欣


前言


在分析领域中,因果性和相关性的使用是不精确的。人们倾向于互换使用这两个词,但并不知道隐藏其中的基本逻辑。显然,人们被这两个词的(英文)发音所迷惑,最终将它们用在错误的地方。但我要提醒注意的是,除了发音相似,这两个词并没有很多相同之处。事实上,它们的基本含义可谓相去甚远!


让我们通过以下的一些例子,来理解因果性和相关性之间的区别。分析下面这些场景,请回答在两个事件X和Y之间是否有因果性。答案在后面。


例1:X( 学生被录取的学院的级别)=> Y (毕业后的收入)


假设:精英商学院学生的收入比平均水平高。这些商学院是获得更好工作的原因吗?



例2: X (抽烟)=> Y(精神压力水平)


假设:抽烟的人被发现精神压力更大。抽烟是导致压力的原因吗?



例3:X(有孩子)=> Y (成熟度)


假设:人们在有了孩子后更成熟?有孩子是成熟度更高的原因吗?


例4: X (海拔)=> Y(温度)


假设:我们观测到海拔较高时,温度较低。这意味着,海拔越高就越冷。那么,更高的海拔是导致更低温度的原因?



希望上面的例子会触发你的学习欲望,并且让你兴奋地想多学一点。尽管这不是一个刚被发现的话题,但是人们仍没有切实掌握使用这些术语。因此,我试图用最简单的方式来解释因果性和相关性的各个方面。


本文中,我将解释因果性和相关性之间的区别,接着学习只有相关性还是有因果关系。如果你想在分析行业有扎实的基础,理解这个概念是非常必要的,而目前分析就像在一些黑匣子上工作。这些技术(因果性和相关性)不只是局限于分析行业,它们的应用遍及所有的行业。


一起来看看答案:


例1:不存在因果性。比如,只有那些从精英商学院中被选中的雄心勃勃且聪明的人,后来才获得比平均水平高的收入。因此,就算这些学生没有在那些精英商学院学习,他们仍旧可能得到比平均水平高的收入。于是,在这种情况下,我们有可替代的推理。


例2:不存在因果性。我们可以基于逆因果性来推翻假设。比如,较大的精神压力事实上能让一个人去抽烟。


例3:不存在因果性。再一次地,我们可以基于逆因果性来推翻假设。比如,只有成熟的人可能准备好了要生孩子。我们也可以用年龄作为潜在的原因来替代。更大的年龄导致想生孩子和更成熟。


例4:不存在因果性 。我们当然知道,逆因果性是不可能存在的。可替代的原因或相互独立的关系也是不存在的。

结论:如果你能正确地回答这所有的4个问题,你可以进入下一个概念了。假如你做错了任何一题,你也许需要在因果性问题上多加练习。


什么是建立因果关系的关键点?


建立因果关系的关键点对(X = > Y)是:


1、可替换推理:若存在一个可替换的原因(Z),Z确实对X和Y都有影响,即Z => X和Z => Y为真,就那么可以推翻假设X => Y。


2、逆因果性:如果可以用Y影响X来替换X影响Y,那么可以根据逆因果性来推翻假设X => Y。


3、相互独立:有时候X和Y也许是“被相关”,而再无其它联系。在这样的情况下,根据相互独立性可以推翻假设。


我们如何能确定得到因果性?


在类似制药领域中,建立因果对是非常重要的。这正是制药领域要完成足够多的研究来找到因果对的原因。在开始数学推导前,要理解下面的一些定义。


1、随机实验数据:一种实验通常被定义成在不同条件下随机分配观测单元,条件随着对观测单元的处理而不同。“处理”(treatment)是一个通用的术语,在医疗应用中最容易翻译(例如,不同情况对病患得到不同的治疗),但是它也适用于其它领域。


2、观测数据:如果没有太多的钱做随机测试,就不得不在已有数据资源上下功夫。在不受控的情况下,这样的事件已经发生了。因此,选择不是随机的。


由观测数据推导出因果关系是非常困难的,且不具有结论性。在因果关系上要获得具有结论性的结果,需要做随机测试。


为什么观测数据不具有结论性?

  1. 观测数据不具有结论性,是因为观测数据不是随机选择的。我们永远无法从单个的因果对上得出结论。


2. 例如,如果大量从精英商学院毕业的学生获得更高收入;这不能推出因果性,因为选择是基于最初的表现。


3.无论如何,如果随机从精英商学院中选取学生,这个分析将会在建立因果性上更具有结论性。


为什么不是每一次都进行随机测试来建立因果性?


你将会因为多种原因被要求利用观测数据而不是测试数据工作。


第一个原因是,做测试需要资金。例如,如果你的假设是给消费者免费的iPhone,这个活动会对苹果公司的销售带来增量收益。在不知道任何因果关系时,做这个测试当然是个耗资巨大的提议。


第二个原因是,不是所有的测试在道德上都是被允许的。例如,如果想知道抽烟是否对精神压力产生影响,需要让正常人抽烟,而这从道德上来说是不被允许的。


在那种情况下,如何利用观测数据建立因果性?


在这一具体问题上,已经完成了大量的研究。这些方法的整体目标,是消除任何未观测到变量的影响。下面,将介绍一些众所周知的技术:


一、面板模型(普通回归):若至少在一个维度上,不可观测到的维度是不变的,那么用这个方法就非常方便。例如,如果在时间上,不可观测到的维度是不变的,就可以试着建立一个面板模型,从不可观测到的维度上分离出偏差。比如,以商学院=>高收入为例子,假设不可观测到的维度不随着时间而改变。


来试试这个方法。

  1. 下面是个Y(收入)的回归方程,以精英商学院(下标T)和不可观测到的维度(下标U)为变量


2. 但是,因为不可观测到的维度不随着时间而改变,可以将方程简化如下:


3. 现在,可以通过随着时间产生的差别来消除不可观测到因素


现在,问题是在商学院和收入之间找到因果性的确切系数。


二、模拟控制:观测数据最大的问题是在同一个数据点,无法同时获取得到处理和未经处理的数据。比如,在前面提到的抽烟例子里, 一个人不能同时既是抽烟者又是不抽烟者。


但是,如果可以为得到处理的数据在未经处理组找到看起来很像的数据,然后在相似数据中比较得到处理的反应结果。这是在如今的行业中应用最普遍的方法。


这种相似性可以在近邻算法、k-d树或其它算法中找到。打个比方,两个人,他们年龄一样,性别一样,收入一样等等。其中一人开始抽烟,另一人则不抽烟。现在,如果其它条件没有变化,那么可以在一段时间内比较他们的压力水平。



从理论上讲,这个方法听起来让人非常兴奋,它通常是难以创建纯模拟或虚拟控制,有时它能产生也许不正确的结论。这事实上是将来另外一篇不同文章的主题。


三、辅助变量(IV):这或许是最难实施的。下面是实施这技术的步骤:


  1. 找到因果对。


2.找到跟原因有关的属性,但是这跟通过回归因果对获得的误差无关。这个变量就是已知的辅助变量(IV)。


3.现在利用辅助变量(IV)估计原因变量。


4.试试回归估计因果对来找到因果性的实际参数。



到目前为止,我们完成了什么?


利用观测数据,在因果对中使用任何回归技术都有偏差系数。用这种方式,可以得到无偏差的估计。比如,在抽烟——精神压力对中,我们也许认为会被逆因果性所影响。


现在,如果可以找到和卷烟消费量而不是和精神压力有关的信息,也许能找到真正的关系。通常,辅助变量(IV)是基于调整的变量。例如,我们发现税收管理只提高了卷烟的价格,导致整个模型里的卷烟消费量下降。现在可以试试按上面提到的4个步骤来找找精神压力因果性。



4. 回归不连续性设计:这是我最喜爱的选择。它使得观测数据真正接近实验设计。


在下图中,我们发现一个维度,其上有一个峰值,该峰值位于得到处理和未经处理的群体比例上。假设,我们想测试在课程结束时,奖学金对大学生成绩的影响。注意,奖学金是提供给在入学考试中得分在80分以上的学生。发生扭转的地方就在这里:因为这些学生已经很聪明,未来他们也许继续保持顶尖水平。因此,这是一个难以破解的因果性。



但是,如果把成绩刚刚在80分以下(比如说79.9分)的学生和成绩刚刚在80分之上(比如说80.1分)的学生在学期结束时的成绩做一比较。假设那些得分为79.9的学生和得分为80.1的学生不会有很大的差别,只有奖学金的作用可以改变。这就是所谓的准随机选择。


因此,得到的结果会很接近完美的因果性结论。使用这种方式的唯一挑战,在于得到这样一个维度是非常难的,而它能在得到处理和未经处理的群体之间进行很好的划分。


结束语


在分析领域中,建立因果性也许是最难的任务。得到错误因果性的概率异常高。本文章讨论的关键概念将较好地帮助你解决因果性问题。


就以这些幽默的话题结束这篇文章吧。这里有些图片显示了相关性和因果性的不同。



虚假的相关性:



文章来源:http://www./blog/2015/06/establish-causality-events/


大数据文摘编译者简介


姚佳灵
家庭主妇,对数据分析和数据处理方面的知识很感兴趣,正在努力学习中。
博士,多年从事图像及数据处理和分析、计算机视觉、模式识别、机器学习、增强现实等领域的技术研究和创新应用,现为西门子中国研究院高级研究员。希望借此平台,与大数据分析爱好者以及专家学者交流、合作。


大数据文摘精彩文章:

回复金融看【金融与商业】专栏历史期刊文章

回复可视化感受技术与艺术的完美结合

回复安全 关于泄密、黑客、攻防的新鲜案例

回复算法 既涨知识又有趣的人和事

回复谷歌 看其在大数据领域的举措

回复院士 看众多院士如何讲大数据

回复隐私 看看在大数据时代还有多少隐私

回复医疗 查看医疗领域文章6篇

回复征信 大数据征信专题四篇

回复大国“大数据国家档案”之美国等12国

回复体育 大数据在网球、NBA等应用案例

回复平安 中国平安相关大数据案例、新闻

回复志愿者 了解大数据文摘及如何加入


长按指纹,即可关注“大数据文摘”


专注大数据,每日有分享

覆盖千万读者的WeMedia联盟成员之一





    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多