大数据文摘作品 作者:龙牧雪 2017年3月,数据科学和机器学习竞赛领域的老大Kaggle被谷歌收购,点击查看大数据文摘报道《谷歌宣布收购全球最大数据科学社区Kaggle》,当时双方均未透露收购细节和未来计划。接近一年过去了,Kaggle在做什么? Kaggle由Anthony Goldbloom和Ben Hamner创立于2010年。企业和研究人员在Kaggle上发布数据,让全世界的统计师和数据科学家对数据集进行建模和分析,以竞赛的形式评选出最佳模型。Kaggle众包竞赛模式的价值在于,让人们有可能从无穷无尽的建模方法中,寻找到最优解。 目前在竞赛模式上,除了面向大众的竞赛,Kaggle还推出了免费的InClass模式,方便高校教师和学生在Kaggle平台上完成随堂练习。 最近,大数据文摘也观察到,Kaggle首页新增了一个Learn板块(也免费!),主打动手学数据科学(Hands-On Data Science Education),似乎在向竞赛+学习平台方向转型。 Kaggle Learn版块地址: https://www./learn 1月22日,Kaggle联合创始人Anthony Goldbloom发表了一篇博客,宣布2018年将为Kaggle平台添加新的教育资源,致力于将Kaggle社区从主要关注机器学习竞赛扩展到更广泛的数据科学和机器学习平台,希望借由比赛、公开数据集平台和Kaggle Kernels,最终让Kaggle成为可以完成一切数据科学和机器学习活动的地方。 2017年Kaggle活跃用户从2016年的471K增加到895K👆 大数据文摘摘录了博客中透露的部分Kaggle 2018年计划:
今天,文摘菌就带大家来实地测评一下Kaggle新上线的机器学习实践课程平台。 整个学习版块又分为4个模块:机器学习、R语言、数据可视化、深度学习。 强调实践和动手 Kaggle的课程介绍页显示,这个免费的在线课程适用于那些现在想开始学习数据科学和机器学习的人。 你会花更多的时间来编写代码,而不是阅读它。 你将了解必须的理论背景,以便做出良好的建模决策,但这些课程不会在阅读历史背景方面浪费你的时间——那不会帮助你成为一名能实际工作的数据科学家。 讲师选择 在讲师的选择上,也能看出Kaggle不强调理论背景,而是强调实践。三位课程制作者Dan Becker、Aleksey Bilogur和Rachael Tatman各自的履历中似乎都没有特别强调计算机或统计背景,其中Rachael Tatman更是本科学习英语专业、之后直博语言学专业。简直666666! FAQ
除了R语言模块之外,所有东西都用Python。 哪种语言适合你? 互联网充斥着语言选择的辩论。 但是和与你合作的人用同一种语言是很有价值的。 Python是数据科学中最受欢迎的语言,R是第二大流行语言。 所以我们推荐R和Python,且更倾向于Python。
你应该熟悉变量,列表,字典,函数和循环。 如果你想学习Python入门知识,我们强烈推荐Codecademy上的Learn Python系列。 学完他们的第1-8节课,你将可以学习Kaggle机器学习课程。 他们也有被称为pro的付费课,但是你不需要这些材料就可以在Kaggle上学习机器学习系列。 机器学习模块 下面,就让文摘菌带大家看看机器学习模块都有哪些内容: 模块分为2个等级,共15门细分课程。 等级1
等级2
让我们先来看看等级1的第一课:模型是什么。 打开课程页面之后,我们发现,课程以内嵌的Notebook方式呈现。第一课并未涉及代码,只是介绍了决策树模型。浏览完整个Notebook,也就完成了该部分课程。简直so easy! 第二课就涉及代码了。我们需要Fork讲师提供的Notebook,进入自己的编程环境。 点一下Fork,我们就进入到自己的Notebook里啦。Fork的作用是让我们复制了讲师提供的代码到自己的Notebook。 在自己的Notebook里,我们可以看到一个个代码块。代码块有2种模式可以选择:Markdown和Code。例如,在这张图里,你所看到的“Introduction”和下面的文字就是Markdown格式,Markdown方便我们展示文字。而“Write Your Code Below”下面则是Code格式,可以直接运行代码喔。我们也可以选择隐藏该代码块、在上方或下方插入新的代码块、运行代码块。和Jupyter Notebook的操作方式一致哦。 完成代码之后,我们可以下载Notebook到本地,也可以点击Publish提交,提交后的界面是一个HTML页面。 不过,我们无需担心隐私问题,因为之前选择的是“Private”模式的Notebook,提交之后,也只会显示在个人的Kernel里,只有自己能看到。 所有写过的代码也不会丢失,会在自己的Kernel下面汇总,点开后仍然可以再次编辑该Notebook。这个功能文摘菌觉得很是方便。 如果你选择公开展示Notebook,其他小伙伴也可以给你评论。 文摘菌也发现了一个提问的好地方:learn forum论坛。不过目前看来,论坛并不活跃,一个话题下通常只有一个留言。也许是大家觉得这一切都太小case了(O_O)? 就目前的课程内容来说,Kaggle推出的Learn版块所教授的内容并不深入,但是其友好的界面和动手环境非常适合数据科学与机器学习初学者。对于有代码恐惧症的童鞋(比如文摘菌)来说,这是个入门数据科学领域的好机会!如果能一步步跟着教程学下来,相信各位童鞋会对机器学习、数据可视化等领域的基本概念和基础模型有所了解,同时也将有机会敲下自己人生中的第一行代码。 正在学习的小伙伴们,举起手来让我看到~ 素材来源: |
|