分享

干货 ‖ 入门数据科学的65个免费资源...

 昵称16619343 2017-06-03

在本篇指南中,我们将会给初学者分享65个精心挑选并且带链接的免费数据资源。为了成为一名数据科学家,在前进的路上你会遇到令人畏惧的挑战。你将需要掌握一系列技能,从机器学习到商业分析。

另外,你将会解决一些有趣的问题,并且掌握新的、有效的技术。

如果你有志于从事数据科学的工作,那么请收藏此文章,用来做备忘清单。

数据科学资源

1.基础技能

编程和数据整理

概率论与数理统计

2.技术能力

数据收集

结构化查询语言

数据可视化

应用机器学习

3.商业技能

沟通交流

创意和创新

运营和策略

业务分析

4.附加技能

自然语言处理

推荐系统

时间序列分析

5.实战

项目

比赛

图片来源:EDS

某些职业角色可能需要其它技能,比如:深度学习、大数据、优化、异常检测、图与网络模型、定量金融、研会领导、项目管理、产品设计、软件工程、空间数据分析、等等。

在本指南中,我们只介绍行业常用技术。

图片来源:EDS

基础技能

基础技能构成真正理解的基础,能够让你发现新的解法方案,构建更加精准的模型,并且做出更好的决策。

1.1编程和数据整理

首先,你将需要至少掌握一门脚本语言,可以用其来整理数据集、原型模型和执行分析。我们强烈推荐选择Python或者R,因为他们都是开源的,广泛被使用并且有活跃社区支持。它们彼此都有自己的优点,但是我们推荐选择其中一个开始。

  • Python在软件创业公司、大型科技公司和广告科技公司更加常见,由于是一门通用的编程语言,Python变得越来越灵活,对于学习深度学习和数据处理也很适用。



  • R/RStudio在研究、金融和分析领域很受欢迎,R是一门统计学编程语言,在经济、统计和机器学习方向拥有很多成熟的库。



  • 我们也写了一份更加详细的关于Python和R做数据科学的比较。

如果你仍然犹豫不决,我们建议你从Python开始,因为其广度和灵活性(并且对于初学者使用更加友好)

Python资源:

  • 《苦练Python》(在线书籍)-推荐给那些想要Python编程完整课程的初学者。

  • LearnPython.org(交互式指导)-简洁的,交互式指导给那些想快速学习Python语法的初学者。

  • 《如何像一名计算机科学家思考》(交互式书籍)-交互式课程“CS101”,内容重点集中在解决问题的艺术。这个难度超出了我们开始学习的最低标准,但是它太经典了以致于我们不得不将其纳入其中。



  • PythonChallenge.com(在线益智)-33个有难度的趣味问题,你可以用Python编程解决。

  • 如何自学Python来处理数据-我们指南所涉及的资源更加的详细。



R/RStudio资源:

  • 《RforDataScience》(在线图书)-推荐给需要R学习数据科学课程的初学者。



  • Swirl(交互式R数据包)-非常炫酷的R数据包,你可以安装并且直接在RStudio中学习这门语言

  • 运行R的最常用接口)



  • 用R介绍数据科学(视频系列)-给那些观看别人学习步骤进步更大的人观看。

1.2 概率论与数理统计

扎实的统计知识帮助你完全理解机器学习,条件概率,A/B测试和许多其他核心技能。它还帮助你“像数据科学家一样思考”-包括偏差检测,在预测模型上有效迭代,以及如何在数据中获取有效信息。

另外,学习大众的概率分布(尤其是高斯,二项式,正态,指数,泊松)对于实现许多现实世界的应用是很关键的,比如多臂赌博机,购物篮分析和异常检测程序。

  • 概率论与数理统计(可汗学院)-实际操作介绍概率论与数理统计,推荐给想学习上手快的初学者。

  • 哈佛统计学110:概率(视频集)-严谨的哈佛概率论学习,推荐给希望更深一步学习掌握的人。



  • 给程序员的概率论与数理统计(PDF)-对有编程背景的同学是很好的资源。引用:“如果你知道如何编程,你便可以利用这项技能帮你理解概率论与数理统计”。



  • 基本统计学快速学习课程(PDF)-短篇PDF快速回顾关键知识点,我们喜欢这个审阅表是因为它对每个概念都有简单的直觉解释。



  • 如何为数据科学自学统计学,我们的指南有这些资源更加详细。



图片来源:EDS

技术技能

数据科学是把原始数据转变为想法、预测、软件和其他。因此,你需要适应和数据打交道。核心技术技能包括收集、清理、管理、可视化数据、加上广泛使用的机器学习。

2.1 数据收集

一切都取决于你数据的数量和质量,就像化学家需要正确的化学药品,你需要相关的数据。

这里有4个常见的收集数据的方法:

内部数据,这是你的公司内部收集或者公司合作伙伴提供的专属数据,这些数据通常是相关性最高的。在线搜索,需要有八百万个该标签的视频集?这里有个网站包来完成…严肃点说,你会惊讶的发现你能在网上找到,在线数据集让你在将工作投向专属数据前能够搭建原型。

API’s,API’s让你以编程的方式合法的获取其它公司收集的数据集,你可以从推特FEED流中找到气象数据、金融数据及所需的任何资料。

网页爬虫,网页爬虫是一种你必须负责使用的强有力的工具,它打开了一片新的天地,但是必须确认尊重服务条款。

API资源:

  • Python:请求快速指导-如何快速的使用requests库来从API’s获取数据

  • R:httr快速开始指导-如何快速使用httr库来从API’s获取数据

网站爬虫资源:

  • R:rvest-用rvest库实现基本的网站爬虫

  • Python网站爬虫库-我们关于Python网站爬虫的综述

2.2 结构化查询语言

结构化查询语言是数据库管理和查询的通用语言,并且你应该能够书写负责的查询语言。学习结构化查询语句让你能够大体上更好的理解关系型数据(数据以“表格”的形式),这会提升你用任何语言做数据分析的技能。

  • 可汗学院的SQL导论(课程)-很全面的视频集,包括了每个重要的SQL主题。



  • Sqlcourse.com(交互式指导)-很适合用来复习或者快速学习



  • SQL基础(课程)-课程涵盖最基本的SQL,包含一路测试你是否理解课程的小测验

2.3 数据可视化

数据可视化对探索性分析、交流想法是很重要的,没有这个主题的数据科学资源列表是不完整的。原始数据很难被理解,因此你需要用平面图表调查研究趋势和分布。

  • 用Python实现数据的可视化(视频集)-教程中使用Python中的matplotlib库



  • 用R实现数据的可视化(视频集)-教程中使用R中的ggplot库



  • PythonSeaborn教程- Python中seaborn库的使用教程,强烈推荐给初学者

2.4 应用机器学习

机器学习是一个广义术语,包涵了许多子任务。简而言之,它教计算机如何从数据中学习模式和模型。对某些人来说,机器学习和数据科学是同义词,但是我们认为它是一个独立的和数据科学重复很多的领域。毫无疑问机器学习是很有用的工具箱,并且是列表中最有含金量的技能。

  • 吴恩达的机器学习课程(视频集)-这是学习机器学习理论的黄金标准。



  • 统计学习的元素(PDF)——参考文本。这是一个经典的教科书的行业,但是它需要一个坚实的数学背景。



  • 用R介绍统计学(PDF)-参考文本。另一本比较经典的教科书,它的数学要求比较温和。



  • 如何学习机器学习,自学-初学者轻松的概览整个机器学习。



  • 七天快速学习应用机器学习-我们的免费的数据科学和机器学习的极速课程



  • 现代机器学习算法:优点和缺点-精简的机器学习算法指导



  • Python机器学习指导-我们端到端的指导你使用python的Sclikit-Learn库来训练你的模型

图片来源:EDS

商业技能

商业技能和软技能在数据科学课程中经常被忽略的,但是它们是极为重要的,面试官也在寻找拥有这些技能的人。数据科学从来不会凭空运用,你需要预测业务需求,创造性的思考解决方案并且清晰的传达你的思想。随着机器学习库的成熟,算法的使用变得简单,商业将会看重那些能和数据与人一起工作的员工。本节我们数据科学的资源清单能帮助你脱颖而出。

3.1 沟通交流

如果一棵树倒在森林里,但是没有人看到它,它会发出声音吗?如果数据被分析,但没人能解释结果,这真的重要吗? 有效的沟通技巧是普遍的,但是数据科学家们讨论的高度技术或数学的话题有额外挑战。数据科学家采访期间,你会被要求用“外行解释技术概念”或“描述你工作之前的项目。

  • 你所见过的最好的统计数据(TED演讲)——这是一个标志性的TED演讲用数据和一个有趣的故事。



  • 快速、智能思考——这是一个在斯坦福大学商学院讨论如何克服焦虑和自发地说话的研讨会。这不仅可以帮助你的事业,而且也将让你在面试中脱颖而出。



  • 7条改善沟通的技巧——如何每天有效沟通的简单、实用技巧。



  • 如何赢得朋友和影响他人(PDF),(免费有声读物版)——这是一本我们推荐给任何人,数据科学家。尽管其中的一些废话有点过时,关于人际关系的教义是永恒的。

试着给朋友解释一个技术概念—当你获得有价值的交流实践时,这将帮助你巩固概念的理解。尝试解释一个有趣的机器学习算法,包括其优势、劣势,并且适当的用例子。实际描述你已经完成的项目,这将帮助你练习将数据科学的许多活动件组织成连贯的叙述。

3.2 创意和创新

数据科学家们是雇来构建新产品,执行复杂的分析和发明有价值的方式使用数据。事实上,他们很少解决同一个问题超过两次。即使你可以在相邻数据集采用相同的方法,你也需要在特征工程、补充数据、业务影响上具有创造力。

当你获得更多的经验时候,你自然会成为一个更好的创造性的思想家,但是下面的资源可以帮助你开始这么做。

机器智能景观(图)-风险投资家的角度来看机器智能应用程序局面。

创新的艺术(TED演讲)——伟大的GuyKawasaki关于创新的TED演讲。

创造性思维的七个步骤(TED演讲)—从一系列艺术家和企业家的角度得到的创造性思考技巧。

反向工作来解决问题(TED演讲)——国际象棋大师莫里斯·阿什利如何看到结局和反向工作。

3.3 运营和策略

这里有一个你每天都应该问自己的问题:“我有一些方法可以改善这种业务?”在一天结束的时候,公司不雇佣你分析数据……他们雇佣你来帮助他们成长或变得更有利可图。这意味着你应该理解数据可以帮助做出更好的决策,建立更好的产品。

数据驱动的决策——如何确定业务目标,提取可测试的假设,然后设计实验来评估。

DJ帕蒂尔的如何成为数据驱动和构建伟大的产品 - DJ帕蒂尔在他成为美国的首席数据科学家之前的讲座。

HalVarian的大数据:计量经济学的新把戏(PDF), HalVarian-谷歌的首席经济学家-给了一个很好的数据分析的技术和方法的概述景观。

数据将如何改变业务(TED演讲)——发人深省的商业战略和技术之间的关系的讨论。解释了为什么随着大数据的崛起这两个长期的业务战略理论已成为无效。

维克多程菲面试的案例(视频系列)——一些雇主喜欢在面试的时候问询问风格“案例”的问题。这在业务操作、策略方面的数据科学家或做分析的工作角色中更为常见。这是一个极好的解决案例面试的速成课。

3.4 业务分析

商业分析技能对于在操作数据角色上的数据科学家至关重要。多亏了编程语言的灵活性,Python和R将允许您执行比Excel更复杂的分析。

在你掌握技术工具后,建立强有力的领域知识将获得更大的业务影响力。

  • 介绍业务分析,简单明了的介绍企业如何使用分析,包括案例研究。



  • 营销度量和分析,介绍使用营销常见的指标和分析方法。



  • 使用购物篮分析的有效的交叉销售(教程)——如何做更聪明的交叉销售。



  • 一个直观的A / B测试指南- A / B测试和解释的概述。



  • 25个业务kpi的例子(例子)——“可以被度量的事物就可以被管理”。 这里有25个业务关键性能指标(kpi)的例子。



  • 谷歌的分析学院(课程)——数字分析,电子商务分析实践课程和其他话题。

附加技能

补充技能取决于不同的角色,但能帮助你成为一个全面的数据科学家。这里是自然语言处理、推荐系统和时间序列分析的科学数据资源。

4.1 自然语言处理(NLP)

自然语言处理(NLP)或文本挖掘,是一个令人兴奋的机器学习的子领域,用来从文本提取结构、语法、和见解。著名的应用程序包括情绪分析、文章分类、甚至教神经网络去写莎士比亚诗集。

  • 斯坦福NLP(视频系列)——完整的“传统”自然语言处理课程,包括情绪分析、朴素贝叶斯模型、n字格、等。



  • CS224D:深入学习自然语言处理(课程),(这里的课程材料)——介绍用于NLP的深度学习背后的理论。



  • PythonNLP库——我们用于NLP的Python库的概述。一旦你有了基本编程技能和有着深刻的理解的应用机器学习,你可以在这里直接跳转。

4.2 推荐系统

推荐系统,或协作过滤,是数据科学的伟大的成功故事之一,特别是在电子商务领域。有许多神奇的网站和应用程序,包括亚马逊、Yelp,Netflix,Spotify。简而言之,推荐系统找到其他有相似的品味用户来给你做出更好的建议。通过改善用户体验,推高收入产生一个巨大的双赢。

  • 推荐引擎教程系列,使用Python介绍协同过滤。是一个很好的解释算法背后的直觉的工作。



  • 推荐系统(视频系列)——由Andrew Ng讨论协作过滤器背后的理论和数学。更多的数学,如果你有线性代数的一些背景知识,它会更容易学习。



  • 用Python协同过滤 (教程)——参考教程中用Python实现了一个音乐推荐系统。



  • 用R协同过滤(教程)——与上一个相同的教程,除了使用R实现。

4.3时间序列分析

时间序列分析处理以时间为索引的数据。例如,每小时股票价格、降水数量和Twitter标签都被视为时间序列。时间序列分析常用在金融、预测、计量经济学。尽管机器学习处理的“横向数据(数据不考虑时间)的差异,也有专门处理时间序列的模型。

  • 时间序列(教材)——俄勒冈州立大学的演讲幻灯片,作业,和时间序列的R源代码。



  • R语言的时间系列小书(在线图书)——非常实用的一步一步的介绍使用R进行时间序列分析。包括每一步的代码和输出。



  • 用Python时间序列预测教程(教程)——R语言执行时间序列可视化、分析、和预测。



  • 用Python进行季节性ARIMA教程)——用Python介绍ARIMA模型。包括所有的代码。



  • 统计预测,福库商学院(在线图书)——课程笔记来源于在杜克大学福库商学院任教的统计预测课程。

实践

实践项目有两个主要目的:巩固概念,并将所有变化的数据科学整合在一起。

他们用展示给雇主的有形资产来武装你。如果一张图片胜过1000个单词,一个项目胜过一百万…从本质上讲,项目是个人事业,你应该选择你感兴趣的话题。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多