在终端打开Spark-shell 然后在Scala编辑模式下依次输入以下命令: //导入算法执行所需函数库 import org.apache.spark.mllib.clustering.KMeans import org.apache.spark.mllib.linalg.Vectors val data = sc.textFile("data/mllib/kmeans_data.txt") val parsedData = data.map(s => Vectors.dense(s.split(' ').map(_.toDouble))).cache() val numIterations = 20 val clusters = KMeans.train(parsedData, numClusters, numIterations) //提取聚类结果 val clusterCenters = clusters.clusterCenters //聚类结果标签
val labels=clusters.predict(parsedData)
//保存聚类结果 labels.saveAsTextFile("/output/kmeansTest/result")
// 误差分析,评价聚类的计算在规定的误差平方和 |
|
来自: 陈永正的图书馆 > 《Spark MLLib》