Spark2.x机器学习实战（算法篇：基于Kaggle竞赛数据集，六大算法模型构建）

漂泊一生的浪子 2019-02-12

展开全文

本课程主要讲解基于Spark 2.x的机器学习库，MLlib实现了常用的机器学习，如：聚类、分类、回归等6大算法，使用Kaggle竞赛数据集模型构建。本课拒绝枯燥的讲述，将循序渐进从Spark2.x的基础知识开始，然后再透彻讲解各个算法的理论、详细展示Spark实现，最后均会通过实例进行解析实战，帮助大家真正从理论到实践全面掌握Spark MLlib分布式机器学习。通过该课程的学习同学们可以全面掌握Spark MLlib机器学习，进而能够在实际工作中进行ML的应用开发和定制开发。

本课程讲解Spark 在机器学习中的应用，并介绍如何从各种公开渠道获取用于机器学习系统的数据。内容涵盖推荐系统、回归、聚类、分类等经典机器学习算法及其实际应用，涵盖使用Spark ML Pipeline API创建和调试机器学习流程，内容更加系统、全面、与时俱进，适合所有欲借助Spark来实现常见机器学习应用的开发者。