今日份知识你摄入了么? 废话不多说让我们马上直切主题。 相关性 Correlation 关联意味着与另一个变量的关系。比方说,一个变量中的运动与另一个变量中的运动关联。举个栗子,伴随着天气转热,冰淇淋的销量会上涨。 正相关表示,运动方向相同(左图);负相关意味着变量以相反的方向移动(中图)。较远的右图是变量之间没有相关性时。 图片制作by:correlation.html 因果关系 Causation 因果关系意味着一个变量导致另一个变量发生更改,这意思就是一个变量依赖于另一个变量。比如说是天气热了,人们才有更多的晒伤。在这种情况下,天气会导致晒伤。 照片制作by:Anthony Figueroa相关性不是因果关系 相关性vs因果关系的不同 让我们来试试这个可视化效果的另一个示例。你的计算机电池不足会导致它关闭。它还会导致视频播放器关闭。现在,计算机和视频播放器关闭事件是相关的;真实原因是电池电量耗尽。 照片由Lionel Valdellon相关性vs因果关系 为什么这个在数据科学中很重要? 你见过多少次暗示A导致B的研究。比如,去健身房可以提高工作效率和专注率。这真的是因果关系么? 作为一名数据科学家,你不应该让相关性迫使你产生偏见,因为它可能导致错误的特征工程和不正确的结论。 相关性并不意味着因果关系。 如果你要为健身房和生产力关系编写一个机器学习模型,而不是关注相关功能(去健身房),那么你应该关注高性能(勤奋、毅力、日常工作等)的实际原因,以验证因果关系。 R中的相关性 假设你有一个数据集,并且想要评估数据集中的某些要素是否相关。我使用的是mtcar数据集,这是R中的内置数据集之一。 library(ggcorrplot) #read mtcars, one of the built in dataset in R data(mtcars) #use cor function get correlation corr <- cor(mtcars) #build correlation plot ggcorrplot(corr, hc.order = TRUE, type = 'lower', lab = TRUE) 自己试试吧复制将上面的代码粘贴到R中。 以上代码段的输出 运行代码时,应获取带取相关绘图和值的输出。值接近 1表示正相关,和如果接近-1表示负相关。在上面的示例中,你可以观察到disp和wt呈正相关,为 0.89;而mpg和cyl的负相关为 -0.85。 因果影响方法 因果关系比相关性更难得出结论,但也并不是没有可能。确定因果影响的最常见方法之一是通过实验和增量研究。 照片制作by:Analytics Vidya 因果关系和相关性有什么区别? 原文作者:Sundas Khalid 翻译作者:陈奕霖Eilleen 美工编辑:过儿 校对审稿:Dongdong 原文链接:https:///@sundaskhalid/correlation-vs-causation-in-data-science-66b6cfa702f0 |
|