适宜读者人群
传统Spark生态系统 和 MongoDB在Spark生态的角色 传统Spark生态系统 Spark生态系统 那么Mongodb作为一个database, 可以担任什么样的角色呢? 就是数据存储这部分, 也就是图中的黑色圈圈HDFS的部分, 如下图 用MongoDB替换HDFS后的Spark生态系统 Spark+Mongodb生态系统 为什么要用MongoDB替换HDFS
MongoDB Spark Connector介绍
MongoDB Spark 示例代码 计算用类型Type=1的message字符数并按userid进行分组 开发Maven dependency配置 这里用的是mongo-spark-connector_2.11 的2.0.0版本和spark的spark-core_2.11的2.0.2版本 示例代码 import com.mongodb.spark._ import org.apache.spark.{SparkConf, SparkContext} import org.bson._ val conf = new SparkConf() |
|