分享

数据分析师必读的 5 本非技术图书推荐

 星光闪亮图书馆 2019-09-06

数据分析师必读的 5 本非技术图书推荐

决策是由人类做出的。这意味着要成为一名优秀的数据科学家要同时理解人和数据。在本文中,我将重点介绍5本非技术书籍——从某种意义上说,它们没有深入研究数学和算法,但对于数据科学家来说却是非常重要的读物。对于任何想要通过数据做出更好决策的人来说,这些书都是必要的。

《信号与噪声》

数据分析师必读的 5 本非技术图书推荐

[美] Nate Silver 纳特·西尔弗

在本书中,作者解释了问什么人们往往不善于作出预测,并研究了少数几个在多个不同领域成功作出预测的人。事实证明,并没有什么神奇的规则可以准确地预测未来,那些伟大的预测者所运用的往往也只是一些基本的规则。

这本书给了许多简单的建议,比如:

像狐狸一样思考(而不是刺猬):有很多小想法(狐狸)而非抱着一个大想法不放(刺猬)。如果你只有一个想法,你会倾向于寻找确凿的证据,而忽略任何与你观点相矛盾的东西。但如果你有很多小想法,你就会更加关心哪些想法是正确的,当证据不再支持某些想法时,你可以轻易放弃它们。这两种不同的思维方式也解释了为什么对自己预测更有信心的人往往更容易出错。(比如各种反转新闻,就是因为报导者过于坚信自己想法是正确的,缺乏足够的证据支撑导致的)

尽可能多地利用不同来源:每个数据的提供者都有自己的偏见,但通过汇总不同的看法,你就可以平衡误差。由Silver创办的著名民调网站FiveThirtyEight网站就很好地证明了这一点。(2008年成功预测奥巴马将赢得美国总统大选)

结论中一定要包括不确定性区间,当证据发生变化时,要勇于更新你的观点:人们在预测时犯的最大错误就是提供一个确切的数字或者“是与非”。虽然一个确切的答案可能是公众想听到的,但世界从来就不是严格的非黑即白,而是存在着不同程度的灰色。我们有责任把灰色的结论展现出来。

《算法霸权:数学杀伤性武器的威胁与不公》

数据分析师必读的 5 本非技术图书推荐

[美] Cathy O’Neill 凯西·奥尼尔

对于攻读统计学、机器学习或数据科学学位的学生,以及任何必须决定是否部署模型的人来说,本书都应该是必读书目。“数学杀伤性武器”是指任何难以解释的不透明算法;它们有时会影响数百万甚至数亿人,并且会造成巨大的破坏。——例如2016年Facebook的传播算法就影响了总统大选。

此外,我们的模型只取决于输入的数据,当数据有偏差的时候,模型的输出结果也会有偏差。比如一个“量刑”模型会将某人第一次被执法的时间点考虑在内。而由于不公正的警务策略,比如拦截搜身(黑人更容易成为对象),黑人男子与警察第一次发生冲突的年龄可能比白人男子小得多。这将导致该模型延长黑人的刑期,在此期间,这些人将失去经济机会,并被社会排斥。这些人更有可能再次犯罪,导致监禁的恶性循环,这一切都是因为不公正的警务策略产生的错误数据,然后被输入了一个黑匣子。

算法只是一种工具,和任何工具一样,它们可以被用于好的方面,也可以被用于坏的方面。幸运的是,我们还处于早期阶段,这意味着我们可以规范模型的使用,以确保它们朝着客观决策和有利于大多数人的方向发展。

《算法之美》

数据分析师必读的 5 本非技术图书推荐

Brian Christian and Tom Griffiths[美]布莱恩·克里斯汀和[美]汤姆·格里菲思

计算机科学和统计学在学习过程中会因为抽象而显得无聊。只有当它们应用于现实问题时,它们才会变得足够有趣,让我们想要去理解。这两本书都做了一件不可思议的工作——将枯燥无味的主题换成有趣的、内容丰富的叙述,讲诉如何在日常生活中使用算法、统计数据和数学。

在《算法之美》中,作者展示了如果使用“探索与利用的权衡”的思想(探索与利用的权衡:你应该花费精力去探索新的信息,还是专注于利用已有的信息获得收益)来找出我们应该花多长的时间来寻找配偶(或者工作,或者吃饭的地点等等)。同样,我们可以使用排序算法来有效整理摆放我们的物品,以便下次快速能找到所需的物品。了解这些思想对于优化我们的生活非常有帮助。

《魔鬼数学》

数据分析师必读的 5 本非技术图书推荐

Jordan Ellenberg 乔丹·艾伦伯格

在《魔鬼数学》中,作者通过故事向我们展示了统计概念的使用和误用,如线性回归、推理、贝叶斯推理和概率。应用概率定律告诉我们,买彩票总是赔钱的,除非在极少数情况下,回报实际上是正的(麻省理工学院的一些学生利用数学成功解密部分种类的彩票)。

《魔鬼数学》可以使你借助数学工具把问题看得更透彻,而非仅仅依靠常识。在原始社会,直觉可以很好地帮助我们,比如躲避天敌。但在现代社会,很多情况下我们最初的反应是错误的,在这种情况下,我们不能光依靠直觉,而是要利用概率和统计来做出最好的决定。

这本书融合了一些方程式和大量的故事,在严谨程度上恰到好处,读起来也很有趣。通过这些书,我发现了许多在课堂上从未掌握的数据科学概念,总是会有突然顿悟“原来是这样”的喜悦。数学、统计学和计算机科学只有在让你的生活变得更美好的时候才有用,如果你想将数学工具应用于日常生活中,这本书是很好的起点。

《思考,快与慢》

数据分析师必读的 5 本非技术图书推荐

[美] Daniel Kahneman 丹尼尔·卡尼曼

大部分人还没有意识到这一点:人类是非理性的,我们在生活的各个方面都经常做出糟糕的决定。但是,当我们意识到这一点,明白了为什么自己的行为不是最优的,我们就可以开始改变自己的行为,以便获得更好的结果。这是本书的核心前提。

Kahneman(2002年诺贝尔经济学奖得主)和他的研究伙伴Amos Tversky(以及RichardThaler等人),共同创立了极具影响力的行为经济学。该学说不把人视为理性的效用最大化者,而是把人视为非理性的决策者(事实上也确实如此)。这不仅在经济领域,而且在生活的各个领域,如医学、体育、商业实践、节能和退休基金等方面,都产生了巨大的影响。

在这本严谨且有趣的著作中,Kahneman概述了所有我们不按逻辑行事的方式,包括锚定效应、经验法则,以及沉没成本谬误等等。书中还描述了一种重要的结论——人的大脑有快与慢两种作决定的方式(书中称为“系统”):

  • 系统1——快速而直观:这种模式是由进化决定的,即可以在不考虑证据的情况下快速做出决定。虽然这在过去狩猎时代对我们很有帮助,但如今我们身处信息繁杂的时代,如果不花时间去看数据,常常会给我们带来麻烦。

  • 系统2——缓慢而理性:我们需要通过调动注意力来分析和解决问题并作出决定,往往需要考虑许多选项和不同证据来源。

使用系统1是自然的、非自觉的,我们必须克服数百万年的进化才能熟练使用系统2。尽管这很困难,但在我们这个数据丰富的世界里,我们必须花时间磨炼系统2的思维方式。当然,我们有时可能会遇到思考过度的问题,但是思考不足——使用系统1而非系统2,是一个严重得多的问题。

这本书对于理解人们如何做决策以及我们作为数据科学家应该如何帮助人们更好地决策都起着至关重要的作用。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多