昵称23016082的图书馆

他的首页他的馆藏他的动态馆友反馈关于他分享对话

昵称23016082

文章		关注		粉丝		访问		贡献

关注

粉丝

访问

贡献

他的首页

他的馆藏

他的动态

馆友反馈

关于他

共 7 篇文章

显示摘要

每页显示

条

Spark MLBase分布式机器学习系统入门：以MLlib实现Kmeans聚类算法

Spark MLBase分布式机器学习系统入门：以MLlib实现Kmeans聚类算法。1.什么是MLBaseMLBase是Spark生态圈的一部分，专注于机器学习，包含三个组件：MLlib、MLI、ML Optimizer。3.1 什么是KMeans算法K-Means算法是一种cluster analysis的算法，其主要是来计算数据聚集的算法，主要通过不断地取离种子点最近均值的算法。以MLlib实现KMeans算法，利...

阅142 转0 评0 公众公开 17-04-10 17:38

中文文本聚类（切词以及Kmeans聚类）

中文文本聚类（切词以及Kmeans聚类）def read_from_file(file_name): with open(file_name,"r") as fp: words = fp.read() return wordsdef stop_words(stop_word_file): words = read_from_file(stop_word_file) result = jieba.cut(words) new_words = [] for r in result: new_words.append(r) return set(new_words)def del_stop...

阅603 转2 评0 公众公开 17-04-10 17:34

直接上代码了

阅35 转0 评0 公众公开 17-04-10 17:17

Spark及其生态圈简介

Spark生态圈即BDAS（伯克利数据分析栈）包含了Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等组件，这些组件分别处理Spark Core提供内存计算框架、SparkStreaming的实时处理应用、Spark SQL的即席查询、MLlib或MLbase的机器学习和GraphX的图处理，它们都是由AMP实验室提供，能够无缝的集成并提供一站式解决平台。l 提供了Spark中弹...

阅1361 转22 评0 公众公开 17-01-17 11:38

运行第一个SparkStreaming程序

再打开一个终端，切换到Spark HOME目录下，输入 bin/spark-shell （如果你已经安装好了Spark的话，直接输入 spark-shell 即可），等待Spark启动成功，会打印信息。import org.apache.spark.streaming._ import org.apache.spark.streaming.package testimport org.apache.spark.streaming.解：scala-ide版本和现在用的spark包依赖编译的scala...

阅331 转1 评0 公众公开 17-01-11 18:03

Spark快速入门指南 – Spark安装与基础使用

cd /usr/local/sparkcp ./conf/spark-env.sh.template ./conf/spark-env.shShell 命令。/usr/local/spark/bin/spark-submit --class "SimpleApp" ~/sparkapp/target/scala-2.10/simple-project_2.10-1.0.jar# 输出信息太多，可以通过如下命令过滤直接查看结果/usr/local/spark/bin/spark-submit --class "SimpleApp" ~/spa...

阅300 转2 评0 公众公开 17-01-11 10:52

spark流数据处理：Spark Streaming的使用

spark流数据处理：Spark Streaming的使用。transform操作允许在DStream上应用任意RDD-to-RDD函数，这样你就可以方便地使用在DStream API中没有的却在RDD API中存在的算子来转换DStream中的每一个RDD了。dstream.checkpoint() 可用来设置checkpoint的时间间隔，同时对于那些没有默认地进行checkpointing的DStream(非stateful转换操作生成的DStre...

阅693 转4 评0 公众公开 17-01-11 10:16

他的文章
他的书籍

筛选

不限类型

网文

撰写

文档

不限 Word PPT Excel RTF PDF TXT

思维导图

相册

音乐

视频

显示摘要不显示摘要

每页10条每页30条每页50条

返回
顶部