分享

【实践】如何成为一位数据科学家?

 oucwj 2015-05-05

【实践】 如何成为一位数据科学家?

数据分析

1机器学习似乎比其他计算机科学学科都要难,特别是对于数学不太好的程序员而言。你对这些程序员有什么样的建议呢?

我建议应该先自学基本的概率、统计,以及线性代数。你不需要学一个学期那么长的课,这些基础知识就会让你有很大收获。有很多在线资源,比如Kahn academy视频。(我在56.com和Kahn academy找了一下有很多英文的,也有一些中文的。)也有一些比较容易起步的书,我比较熟悉有美国英文版的“teach yourself”(自学)系列, “statistics for dummies”(傻瓜统计), “probability refresher”(概率补习),“statistics demystified”(统计解惑)等等。


我其实认为这里面其实很有商机。Kahn academy视频(https://www./)很不错,因为它们都很短,但遗憾的是这些视频都是英文的。我看见的中文线性代数视频都很长。如果你能做出像Kahn academy那样的中文视频,我觉得是会非常受欢迎的。


2如何进阶学习机器学习?对于初学者是否有一个类似于路线图的东西?你有什么推荐书单吗?


我会读Witten 和 Frank所著的《数据挖掘:实用机器学习工具与技术》,这里面涉及的数学很少,但是又对普通算法做了很好的介绍。我觉得紧接着就该读Tan, Steinbach, 以及Kumar的《数据挖掘导论》。


当然,这些书都很厚,如果你想马上就搞明白一些东西,估计就不想读这些大部头了。如果要把某个算法弄明白,我会在网上找很多教程。比如Adboost算法,我认为多读一些不同的教程比只读一个,深入钻研要好很多。


最后我觉得应该多动手玩玩实例。问问你自己:如果我改变这个数据,结果会是怎么样的呢?


3在真实案例中,数据预处理可能要比算法还要重要,你要不要考虑在新版《机器学习实战》加入数据预处理技巧和实例?

我完全同意,我的大部分时间都是用来做数据预处理。我会在未来加入数据预处理的内容。我不知道这里面会不会有什么神奇的捷径,有时候我面对的就是一堆苦活儿。我还要说:你一定要把能自动化的都自动化,这样就会节省很多你未来的工作量。


对于有些人来说“算法”才是机器学习真正有趣的地方,但是机器学习里面总有一些苦活累活不那么有意思,比如数据预处理。你是怎么完成这些“不那么有趣”的工作的?


当然,肯定有无聊的工作,所以你一定要把这部分工作自动化,这样你就不需要重复做这些无聊的工作了。这样做也会让你变成一个更好的软件开发者。


4能向我们介绍一些机器学习方面的开源项目吗?


我现在能想到最好的就是Scikit-learn (http:///stable/) 了。这是用Python写的项目,用到了Scipy 和 Numpy。


5数据科学家被评为世界上最火的工作之一,你认同吗?您本人作为一个数据科学家,有什么可以和我们分享的经验吗?要成为一个数据科学家需要有什么条件?

我认为数据科学家现在确实很好找工作。什么是数据科学家呢?我认为数据科学家是介于统计学家和软件工程师中间的一种工作。公司、个人、NPO,甚至运动队都需要根据数据来做决策。他们需要可以分析数据的人。这需要我之前提过的两种条件。人们不需要单纯的统计学家,这些人可能对于争论自己到底用不用贝叶斯定理更感兴趣,人们需要的是真正能做实事的人。


所以我也建议大家多动手做一些东西。这是什么意思呢?创造一些项目,收集数据,预处理数据,然后做一些数据分析,展示数据,最后向公众展示这些数据。如果你做了很多这样的事情,那么你就有一个可以用来向你未来老板或者其他人展示的档案夹。几乎我书里的每个例子都可以用来做成一个网站或者智能电话app,这些都是你可以示人的资本。


人工智能的发展到了瓶颈期,而机器学习似乎是可以打破这个僵局的领域。你认为是什么原因造成了机器学习这样的发展步伐?


相比于物理学或者电气工程这样的学科,人工智能可能是很年轻的。一个年轻的学科中的很多课题和原则都是被不断发现和精炼的。很多时候,研究项目被当做事实一样摆出来,我认为这就是“人工智能承诺得太多,实现得太少”的真正原因。


我觉得这里面一个很好的例子就是很多学者想要用神经网络再造哺乳动物大脑。这让我想起来早些时候人们试图通过造出外形很像鸟翅膀的翼来制造飞机,其结果只能是飞起来把自己的骨头砸碎了。我不是要批判任何在做神经网络方面工作的人:这就是个试验,有一些有用的应用,但是这些解决不了我们的问题也没法造出有感知的机器。问题是这些试验被当做了事实放在教科书里、电影里,以及新闻里,但它们还仅仅是试验。


回到那个飞机的例子。当人类第一次知道动力飞行时,他们是因为要解决一个小任务而做出来的,而不是要建造什么机器鸟。我觉得同样的方法也促成了人工智能上的一些成功。2010-2011年的大突破:IBM的Watson计算机、Google的自动驾驶汽车,以及iPhone的Siri语音识别,甚至还有一个公司成功地用人工智能写出了新闻报道。这些都不是试验,这些都是生产线上的商品,被无数的人所使用。人工智能纯化论者会认为这些只是被用来完成明确任务的工具,而不是智能机器。


回到我们的问题,我认为机器学习是很实用的工具,可以用来解决很具体的问题,但是人工智能是一个高高在上的目标,很难达到。这也就是人工智总让人感到失望,而机器学习总会为我们带来惊喜的原因。


6很多大(数据)公司,比如Google, Facebook 和 Baidu都投入很多精力在深度学习上。你认为深度学习会在未来取代“人工特性+机器学习”的方法吗?


不,我不认为深度学习会取代人工特性+机器学习。有很多领域,深度学习确实很擅长,比如识别图片。但是仍然有很多领域现存算法的表现更胜一筹。


7在深度学习之后,机器学习的下一个热点是什么?


我不知道,也许你可以基于学术或者技术会议的论文提交来创造一个预测模型来告诉我下一个与研究热点。


8很多人认为语言会是大数据和机器学习的未来主要功用。让我们举一个具体的例子,如果要预测一个公司的收入,你会用什么模型?

这点说得很对。我知道大的零售商会有一整个团队来做销售的预测。如果他们真能准确预测销量,那他们就会省下一大笔钱。如果要预测一家公司的收入,我会首先用回归+逻辑回归。逻辑回归让我们可以随时打开或关闭操作,这对于相关事情发生以及金钱入账这样的事来说都是一个很好的模型。



作者:CSDN博客

转自:数据挖掘dw 微博

【软件定义世界(SDX)】2014年4月份不容错过的精彩文章:

“查看信息”中,回复日期代码即可。

回复“20140406”-->武新:大数据架构及行业大数据应用【大数据100分

回复“20140301”-->互联网的未来【PPT

回复“20140426”-->大数据产业地图

回复“20140406”-->《互联网思维“独孤九剑”》读书笔记【PPT

回复“20140429”-->怀进鹏院士:大数据与产业发展转型【PPT
回复“20140427”-->部分欧洲国家新一轮工业革命进展
回复“20140430”-->大数据足以引领第四次革命的商业价值
回复“20140408”-->阿里巴巴西湖品学大数据峰会观后感
回复“20140413”-->明天的数字营销分析工具
回复“20140409”-->华尔街分析师选出全球最重要16张图表
回复“20140408”-->颠覆支付行业的创新者RIPPLE
回复“20140410”-->预测零售业未来将发生的十个“神奇”变化
回复“20140403”-->移动支付分析报告【PPT
回复“20140412”-->传统行业转型必须回归产品本质
回复“20140409”-->医疗行业大数据应用的15个场景
回复“20140403”-->谢国忠:“新经济”幻象:互联网不能拯救中国经济





    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多