分享

机器学习最佳统计书籍推荐

 101zyf 2018-07-04

几乎每一个机器学习项目中都离不开统计方法。所以需要基础的统计相关基础知识和方法对机器学习和AI必不可少。我们说AI不是神话,AI是数学算法,说明扎实数学基础是做AI的必须,而统计学知识尤其是如此。

这意味着重要的是要牢固掌握统计学主要发现的基础和相关统计方法的工作知识。

然而,很不幸,许多计算机科学和软件工程的必修课程中,并没有并统计学。而统计学也是一门很注重理论,必须遵循以自下而上的,理论为先的学习路线,往往给人感觉就是找不着'北'。

本文中,虫虫给你推荐一些关于数据统计的最佳入门书籍,让你通过这些世界著名的教材帮你找到应用数据统计'北',从而打下一个很好的统计学基础。

虽然这些书都是非常好的教材,虫虫还是和之前很多编程学习文章提到原则一样,不要贪求全而多,而是只选其中一本,认证真的阅读搞清楚,先入门,然后在此基础上横向扩展。

本文分为三部分分别推荐一些合宜的书籍:

1.科普图书

2.统计学教科书

3.统计学研究方法

科普图书

关于统计学的科普图书,以大众易于接受,浅显易懂的语言来做普及性介绍基本概念的书籍。通常会结统计学重要发现的故事和轶事,读者很有意思有趣,还能学到很多知识,比如正态分布和中心极限定理的来历等。

不要忽视这些类型的书籍,这是推广科学知识的最流行途径,把科学知识给公众所传播就靠它们。比如之前驾鹤西去的普金老先生的《时间简史》,就是一本非常流行非常优秀的科普图书,通过它让我们了解宇宙和时间的本质,来源及去向,还有大量的物理学前沿知识。

尽管我已经学习统计学专业的教科书,但我时常会读一些科普读书。因为:

他们可以快速阅读而有趣,没有任何心里负担。

他们可以让我对那些枯燥的知识有一个全新的认识。

他们为受众非专业人群,老少皆宜,比如可以用来教育小孩。

这类图书对解释给你为啥统计学的知识非常重要,也能帮助你将机器学习和特定的实际需求联系起来。

有很多关于统计学的大众科普书籍,在我推荐三本:

1、赤裸裸的统计:消除数据中的恐惧

《Naked Statistics: Stripping the Dread from the Data》

机器学习最佳统计书籍推荐

作者为:Charles Wheelan。

中译本:暂无

对于那些一听到统计知识就犯困的人来说,本书就是你救星。 Wheela剥离了晦涩难解知识和技术细节,而专注于推动统计分析的内在直觉。他阐明了推理,相关和回归分析等重要概念,揭示了带有偏见和粗心大意的统计人员是如何操纵和歪曲数据,作为对比也展示了卓越和创造性的研究人员是如何利用实验中的有价值数据来处理棘手问题的。

2、醉汉漫步:随机性如何支配我们的生活

《The Drunkard's Walk: How Randomness Rules Our Lives》

机器学习最佳统计书籍推荐

机器学习最佳统计书籍推荐

作者:Leonard Mlodinow。

中译本:有繁体版本,胡守仁译,台湾天下遠見出版股份有限公司出版

Leonard Mlodinow通过故事性的叙述和富有想象力的方法,生动地展示了我们的生活是如何被机会和随机事件所深深的定性。葡萄酒评级和企业的成功以及学校积分和民意调查等结果是如何的出乎我们想象中的靠谱。

3、信号与噪声:大数据时代预测的科学与艺术

《The Signal and the Noise: Why So Many Predictions Fail – but Some Don't》

机器学习最佳统计书籍推荐

Nate Silver著作

中译本: 胡晓姣等译,中信出版社出版

机器学习最佳统计书籍推荐

Silver凭借其开创性的工作,检验了如何预测世界,如何区分真实信号和噪音。现实中很多预测的失败,通常会对社会造成很大的影响,因为大多数人对概率和不确定性的没有很多的理解。专家和非专业人士往往会过分的追求预测的准确性。但过度自信往往是失败的原因。如果大家都能意识到不确定性的的意义,我们的预测也会变得更好。这就是'预测悖论':我们对预测能力的态度越谦虚,我们就可以在未来的预测也会越成功。

如果你有更好的相关推荐,可以回复本文章。

统计学教科书

如果你想学习统计学知识,你需要一本可靠的教科书。教科书会涵盖你必须知道的基础理论,解释和公式。

希望不只是看书的封面、前言和目录就仍一边吸尘去了。而是要深入研读,学习他们给出理论方法,并用它做实践。

在这部分,我列出了一系列书籍,其中包括(按顺序)一本适宜的统计学教科书,一本非数学背景的的学习指南,最后是写给具有编程背景的码农的统计书。根据你自己的实际情况,选一本研读。

1、 统计学完全教程:统计推断简明课程

《All of Statistics: A Concise Course in Statistical Inference》

机器学习最佳统计书籍推荐

Larry Wasserman著

中译本:统计学完全教程,张波译,科学出版社出版

The book includes modern topics like non-parametric curve estimation, bootstrapping, and classification, topics that are usually relegated to follow-up courses. The reader is presumed to know calculus and a little linear algebra. No previous knowledge of probability and statistics is required. Statistics, data mining, and machine learning are all concerned with collecting and analysing data.

本书除了介绍传统数理统计学的全部内容以外,还包含了Bootstrap方法(自举法)、独立性推断、因果推断、图模型、非参数回归、正交函数光滑法、分类、统计学理论及数据挖掘等现代主题,并将其放到数理统计后作为补充后续的课程。本书不但注重概率论与数理统计基本理论的阐述,同时还强调数据分析能力的培养。

本书假定读者拥有微积分和一点点线性代数的基础。但无需概率论和统计学知识。本书还配有大量数据实例和练习以此培养读者通过R语言快速掌握数据统计分析能力。本书适用于统计学、数学、计算机科学、机器学习与数据挖掘等领域的高年级本科生、研究生,对于相关领域的广大科研工作者和实际工作者来说也不失为一本有价值的参考书。

2、白话统计学

《Statistics in Plain English》

机器学习最佳统计书籍推荐

Timothy C. Urdan.著

中文译本:第三版本有中国人民大学出版社出版,译者为彭志文。

这本入门教科书提供了一个低门槛,简洁的统计学概览,帮助读者更好地理解数理统计如何操作及如何准确的对其做解释。每章描述了一种不同的统计技术,从集中趋势和描述统计分布的基本概念到更深入的概念,如t检验,回归,重复测量方差分析、因子分析、变异程度、正态分布、z分数、标准误等基本概念,回归分析、卡方检验等。每一章都从统计学的基本概念和使用场景入手。接下来是对其原理、工作做更深入的论述。最后,每章都以现实应用的统计实例为例,以及在科学论文等出版物中使用的标准统计数据分析的结果例样展示。

本书对统计学原理和术语进行了简洁、清晰而准确的解释,全书内容体系精炼,语言通俗易懂,表述严谨准确;既不刻意回避数学公式,也具备良好的可读性。

3、 数据科学家实用统计:50个基本概念

《Practical Statistics for Data Scientists: 50 Essential Concepts》

机器学习最佳统计书籍推荐

作者:Peter Bruce and Andrew Bruce

中文译本:暂无

统计方法是数据科学的最重要的部分,但很少有数据科学家进行任何正式的统计学培训。通过数据科学的角度来论述基础统计学的课程和书籍很少。本实用指南则恰恰补上了这方面的缺差,本书主要讲了如何将各统计方法应用于数据科学,告诉你如何避免其滥用,并就重要和不重要提供建议。

许多数据科学资源纳入了统计学方法,但缺乏更深层次的统计学论述。如果你熟悉R编程语言,并具有一些统计学基础,则本参考以填补了这方面空白。值得深入研读、练习。

统计学研究方法

一旦你掌握了基础统计学知识,你就需要知道在实际中如何使用这些统计方法。

许多机器学习应用了都涉及了实验设计和执行部分,并且需要统计数据来对其有效性来做验证和解释。这意味着你需要有熟悉研究背景下的统计学方法。

这一步分就这些主题,推荐相关的书籍。

这些书籍都不好选择,因为这些书籍要么太理论,要没限制于专有的SAS、SPSS统计软件。

我们选择的三本书中,第一本书是高度推荐的书籍,第二本使用了开源的R语言,最后一本是关于此主题的经典教科书:

1、 人工智能的经验方法

《Empirical Methods for Artificial Intelligence》

机器学习最佳统计书籍推荐

作者:Paul R. Cohen

中译本:暂无

与其他科学一样,计算机科学和人工智能尤其缺乏研究方法的课程。本书介绍了用于研究复杂计算机程序的经验方法:

用于帮助查找数据模式的探索性工具;

用于帮助生成令人信服地实验设计和假设测试统计数据的工具;

用于帮助解释数据的建模工具。

这些技术中有很多都和统计学有关,但本书在更广泛的企业背景实例下讨论数据统计。前三章介绍经验问题,探索性数据分析和实验设计。对统计假设检验的论述为其后的第4章和第5章分别介绍了经典参数方法和计算密集型(蒙特卡罗)重采样方法。这是以精确,可访问的方式呈现这些新的灵活的采样技术的少数书籍之一。

2、统计研究方法:非统计学家指南

《Statistical Research Methods: A Guide for Non-Statisticians》

机器学习最佳统计书籍推荐

作者Roy Sabo和Edward Boone

中译本:暂无

本书主要用来帮助非统计学科的研究生、本科生研究人员和健康科学研究人员学习、使用和交流常用统计方法的结果。所涵盖的内容包括假设实验到统计结果的整个数据分析过程。还包括其他主题:一个和两个样本比例,多类别数据,一个和两个样本均值,方差分析和回归。

在本书中,作者使用非专业统计术语来解释了统计过程和概念。通过实例的和学术论文统计结果结果样本为例来完成的。该书所有统计分析都使用了免费开源编程语言R。

3、实验者统计:设计,创新和发现

机器学习最佳统计书籍推荐

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多