在本篇指南中,我们将会给初学者分享65个精心挑选并且带链接的免费数据资源。为了成为一名数据科学家,在前进的路上你会遇到令人畏惧的挑战。你将需要掌握一系列技能,从机器学习到商业分析。 另外,你将会解决一些有趣的问题,并且掌握新的、有效的技术。 如果你有志于从事数据科学的工作,那么请收藏此文章,用来做备忘清单。 数据科学资源 1.基础技能 编程和数据整理 概率论与数理统计 2.技术能力 数据收集 结构化查询语言 数据可视化 应用机器学习 3.商业技能 沟通交流 创意和创新 运营和策略 业务分析 4.附加技能 自然语言处理 推荐系统 时间序列分析 5.实战 项目 比赛 图片来源:EDS 某些职业角色可能需要其它技能,比如:深度学习、大数据、优化、异常检测、图与网络模型、定量金融、研会领导、项目管理、产品设计、软件工程、空间数据分析、等等。 在本指南中,我们只介绍行业常用技术。 图片来源:EDS ▍基础技能 基础技能构成真正理解的基础,能够让你发现新的解法方案,构建更加精准的模型,并且做出更好的决策。 1.1编程和数据整理 首先,你将需要至少掌握一门脚本语言,可以用其来整理数据集、原型模型和执行分析。我们强烈推荐选择Python或者R,因为他们都是开源的,广泛被使用并且有活跃社区支持。它们彼此都有自己的优点,但是我们推荐选择其中一个开始。
如果你仍然犹豫不决,我们建议你从Python开始,因为其广度和灵活性(并且对于初学者使用更加友好) Python资源:
R/RStudio资源:
1.2 概率论与数理统计 扎实的统计知识帮助你完全理解机器学习,条件概率,A/B测试和许多其他核心技能。它还帮助你“像数据科学家一样思考”-包括偏差检测,在预测模型上有效迭代,以及如何在数据中获取有效信息。 另外,学习大众的概率分布(尤其是高斯,二项式,正态,指数,泊松)对于实现许多现实世界的应用是很关键的,比如多臂赌博机,购物篮分析和异常检测程序。
图片来源:EDS ▍技术技能 数据科学是把原始数据转变为想法、预测、软件和其他。因此,你需要适应和数据打交道。核心技术技能包括收集、清理、管理、可视化数据、加上广泛使用的机器学习。 2.1 数据收集 一切都取决于你数据的数量和质量,就像化学家需要正确的化学药品,你需要相关的数据。 这里有4个常见的收集数据的方法: 内部数据,这是你的公司内部收集或者公司合作伙伴提供的专属数据,这些数据通常是相关性最高的。在线搜索,需要有八百万个该标签的视频集?这里有个网站包来完成…严肃点说,你会惊讶的发现你能在网上找到,在线数据集让你在将工作投向专属数据前能够搭建原型。 API’s,API’s让你以编程的方式合法的获取其它公司收集的数据集,你可以从推特FEED流中找到气象数据、金融数据及所需的任何资料。 网页爬虫,网页爬虫是一种你必须负责使用的强有力的工具,它打开了一片新的天地,但是必须确认尊重服务条款。 API资源:
网站爬虫资源:
2.2 结构化查询语言 结构化查询语言是数据库管理和查询的通用语言,并且你应该能够书写负责的查询语言。学习结构化查询语句让你能够大体上更好的理解关系型数据(数据以“表格”的形式),这会提升你用任何语言做数据分析的技能。
2.3 数据可视化 数据可视化对探索性分析、交流想法是很重要的,没有这个主题的数据科学资源列表是不完整的。原始数据很难被理解,因此你需要用平面图表调查研究趋势和分布。
2.4 应用机器学习 机器学习是一个广义术语,包涵了许多子任务。简而言之,它教计算机如何从数据中学习模式和模型。对某些人来说,机器学习和数据科学是同义词,但是我们认为它是一个独立的和数据科学重复很多的领域。毫无疑问机器学习是很有用的工具箱,并且是列表中最有含金量的技能。
图片来源:EDS ▍商业技能 商业技能和软技能在数据科学课程中经常被忽略的,但是它们是极为重要的,面试官也在寻找拥有这些技能的人。数据科学从来不会凭空运用,你需要预测业务需求,创造性的思考解决方案并且清晰的传达你的思想。随着机器学习库的成熟,算法的使用变得简单,商业将会看重那些能和数据与人一起工作的员工。本节我们数据科学的资源清单能帮助你脱颖而出。 3.1 沟通交流 如果一棵树倒在森林里,但是没有人看到它,它会发出声音吗?如果数据被分析,但没人能解释结果,这真的重要吗? 有效的沟通技巧是普遍的,但是数据科学家们讨论的高度技术或数学的话题有额外挑战。数据科学家采访期间,你会被要求用“外行解释技术概念”或“描述你工作之前的项目。
试着给朋友解释一个技术概念—当你获得有价值的交流实践时,这将帮助你巩固概念的理解。尝试解释一个有趣的机器学习算法,包括其优势、劣势,并且适当的用例子。实际描述你已经完成的项目,这将帮助你练习将数据科学的许多活动件组织成连贯的叙述。 3.2 创意和创新 数据科学家们是雇来构建新产品,执行复杂的分析和发明有价值的方式使用数据。事实上,他们很少解决同一个问题超过两次。即使你可以在相邻数据集采用相同的方法,你也需要在特征工程、补充数据、业务影响上具有创造力。 当你获得更多的经验时候,你自然会成为一个更好的创造性的思想家,但是下面的资源可以帮助你开始这么做。 机器智能景观(图)-风险投资家的角度来看机器智能应用程序局面。 创新的艺术(TED演讲)——伟大的GuyKawasaki关于创新的TED演讲。 创造性思维的七个步骤(TED演讲)—从一系列艺术家和企业家的角度得到的创造性思考技巧。 反向工作来解决问题(TED演讲)——国际象棋大师莫里斯·阿什利如何看到结局和反向工作。 3.3 运营和策略 这里有一个你每天都应该问自己的问题:“我有一些方法可以改善这种业务?”在一天结束的时候,公司不雇佣你分析数据……他们雇佣你来帮助他们成长或变得更有利可图。这意味着你应该理解数据可以帮助做出更好的决策,建立更好的产品。 数据驱动的决策——如何确定业务目标,提取可测试的假设,然后设计实验来评估。 DJ帕蒂尔的如何成为数据驱动和构建伟大的产品 - DJ帕蒂尔在他成为美国的首席数据科学家之前的讲座。 HalVarian的大数据:计量经济学的新把戏(PDF), HalVarian-谷歌的首席经济学家-给了一个很好的数据分析的技术和方法的概述景观。 数据将如何改变业务(TED演讲)——发人深省的商业战略和技术之间的关系的讨论。解释了为什么随着大数据的崛起这两个长期的业务战略理论已成为无效。 维克多程菲面试的案例(视频系列)——一些雇主喜欢在面试的时候问询问风格“案例”的问题。这在业务操作、策略方面的数据科学家或做分析的工作角色中更为常见。这是一个极好的解决案例面试的速成课。 3.4 业务分析 商业分析技能对于在操作数据角色上的数据科学家至关重要。多亏了编程语言的灵活性,Python和R将允许您执行比Excel更复杂的分析。 在你掌握技术工具后,建立强有力的领域知识将获得更大的业务影响力。
▍附加技能 补充技能取决于不同的角色,但能帮助你成为一个全面的数据科学家。这里是自然语言处理、推荐系统和时间序列分析的科学数据资源。 4.1 自然语言处理(NLP) 自然语言处理(NLP)或文本挖掘,是一个令人兴奋的机器学习的子领域,用来从文本提取结构、语法、和见解。著名的应用程序包括情绪分析、文章分类、甚至教神经网络去写莎士比亚诗集。
4.2 推荐系统 推荐系统,或协作过滤,是数据科学的伟大的成功故事之一,特别是在电子商务领域。有许多神奇的网站和应用程序,包括亚马逊、Yelp,Netflix,Spotify。简而言之,推荐系统找到其他有相似的品味用户来给你做出更好的建议。通过改善用户体验,推高收入产生一个巨大的双赢。
4.3时间序列分析 时间序列分析处理以时间为索引的数据。例如,每小时股票价格、降水数量和Twitter标签都被视为时间序列。时间序列分析常用在金融、预测、计量经济学。尽管机器学习处理的“横向数据(数据不考虑时间)的差异,也有专门处理时间序列的模型。
▍实践 实践项目有两个主要目的:巩固概念,并将所有变化的数据科学整合在一起。 他们用展示给雇主的有形资产来武装你。如果一张图片胜过1000个单词,一个项目胜过一百万…从本质上讲,项目是个人事业,你应该选择你感兴趣的话题。
|
|
来自: 昵称16619343 > 《办公技能》