小白学习Spark系列四：rdd踩坑总结

印度阿三17 2018-10-25

展开全文

　　初次尝试用 Spark scala 完成项目的重构，由于两者之前都没接触过，所以边学边用的过程大多艰难。首先面临的是如何快速上手，然后是代码调优、性能调优。本章主要记录自己在项目中遇到的问题以及解决方式，下篇会尝试调优方法。末尾会分享自己的学习资料，也供大多菜鸟第一次使用作为参考。由于自己项目中大量使用spark sql，所以下面的经验大多是和spark sql有关。同样下面也列出作为菜鸟在学习过程中的困惑以及踩的坑，还请大牛勿笑 ~_~ 如果有更好的方式解决，欢迎留言，一起学习。

1、常用场景

（1）场景一：rdd读取指定行分隔符的数据，不以每行为单位

例1：配置文件中有n个sql语句，每个sql以分号----分隔。你需要读取sql，分别从hdfs中拉取数据。可能会采取：

//conf_sql_map_file 是sql配置文件
val sql_rdd = sc.textFile(conf_sql_map_file)
var sqls = sql_rdd.collect().mkString(" ").split("----")

分析：由于rdd以每行为单位，自动去掉结尾的换行符。但sql配置文件需要以指定分隔符分隔，而不是每行。所以使用 mkString(" ") 将读取的每行数据以空格分隔，整合为一个长字符串，最后以分隔符分隔。

但如果 sql 语句中有使用 with 之类的关键词时，上面那种方式读取配置文件会因为格式问题会出错，with语句需要和 select 语句空行分隔，为保险起见，以 “\n” 分隔，还原配置文件的原始格式。

var sqls = sql_rdd.collect().mkString("\n").split("----")

（2）场景二：读取文件，以 key-value 形式存储。

例2：文件file1内容如下

key1,value1

key2,value2

var file_rdd = sc.textFile(file1).map(e=> (e.split(',')(0),e.split(',')(1))).collectAsMap

或者不从文件读取，直接使用List类型数据演示

scala> var line_rdd = sc.parallelize(List[String]("k,v","key,value")).map(e=>(e.split(',')(0),e.split(',')(1))).collectAsMap
line_rdd: scala.collection.Map[String,String] = Map(k -> v, key -> value)

分析：collectAsMap 是行动操作的一种，可以将数据类型转换为Map类型，而collect是直接转为Array类型。

（3）场景三：从hive表中读取数据放到array数组中，其中每条数据转换为List类型。

scala> import org.apache.spark.{SparkConf, SparkContext}
scala> import org.apache.spark.sql.SparkSession

scala> val conf = new SparkConf().setAppName("graph_spark@zky")
//设置本程序名称
scala> val hiveCtx: SparkSession = SparkSession.builder.config(conf).enableHiveSupport().getOrCreate()
//使用rdd函数转换格式
scala> var sql_file_result = hiveCtx.sql("select * from city limit 10").rdd

scala> sql_file_result
res10: org.apache.spark.rdd.RDD[org.apache.spark.sql.Row] = MapPartitionsRDD[1187] at rdd at <console>:29

scala> sql_file_result.first
res11: org.apache.spark.sql.Row = [110000,北京市,110000,1,-911,2015-10-10 12:09:47,-911,2018-01-09 18:27:28,20181001000000]

分析：由于spark2.0版本丢弃了SQLContext(HiveContext)，取而代之的是SparkSession。hdfs拉取的数据格式为 org.apache.spark.sql.Row，需要调用mkString("\t") 对其转换为String类型的rdd ，然后再转换为其他类型。

但当你的数据以制表符分隔，就像下面代码里一样，末尾字段值如果存在字符串""空时，建议在首尾加上 [ ] 标识符，因为制表符和末尾的空值都会被rdd 自动过滤掉。另外，不建议分隔符使用制表符分隔，在选用分隔符时确保数据中不会出现你指定的分隔符。

scala> var lines = sql_file_result.map(line => "[" line.mkString("\t") "]")
lines: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[1189] at map at <console>:33

scala> lines.collect
res14: Array[String] = Array([110000	北京市	110000	1	-911	2015-10-10 12:09:47	-911	2018-01-09 18:27:28	20180123000000], [120000	天津市	120000	1	-911	2015-10-10 12:09:47	-911	2018-01-09 18:27:28	20180123000000],。。。

解析带[ ]的字符串转成list格式，split()函数中的-1是为确保空值不被过滤。

scala> var items = lines.map(line => line.substring(1,line.length-1).split("\t",-1).toList)
items: org.apache.spark.rdd.RDD[List[String]] = MapPartitionsRDD[1190] at map at <console>:35

scala> items.collect
res15: Array[List[String]] = Array(List(370101, 济南市, 370000, 1, -911, 1000-01-01 00:00:00, -911, 1000-01-01 00:00:00, 20180916000000), List(110000, 北京市, 110000, 1, -911, 2015-10-10 12:09:47, -911, 2018-01-09 18:27:28, 20180916000000),

　　（4）场景四：从hive表中读取的数据存储为Map映射。

scala> var mid_data_rdd = hiveCtx.sql("select city_code,city_name from city limit 10").rdd
scala> mid_data_rdd.collect
res16: Array[org.apache.spark.sql.Row] = Array([110000,北京市], [120000,天津市], [130100,石家庄市], [130200,唐山市], [130300,秦皇岛市], [130400,邯郸市], [130500,邢台市], [130600,保定市], [130700,张家口市], [130800,承德市])

scala> var mid_data_map = mid_data_rdd.map(x => (x(0)->x(1).toString)).collectAsMap
mid_data_map: scala.collection.Map[Any,String] = Map(110000 -> 北京市, 130100 -> 石家庄市, 130300 -> 秦皇岛市, 120000 -> 天津市, 130500 -> 邢台市, 130700 -> 张家口市, 130200 -> 唐山市, 130400 -> 邯郸市, 130600 -> 保定市, 130800 -> 承德市)

scala> var mid_data_map = mid_data_rdd.map(x => (x(0).toString->x(1).toString)).collectAsMap
mid_data_map: scala.collection.Map[String,String] = Map(130300 -> 秦皇岛市, 130600 -> 保定市, 130500 -> 邢台市, 130800 -> 承德市, 130200 -> 唐山市, 110000 -> 北京市, 130400 -> 邯郸市, 130700 -> 张家口市, 130100 -> 石家庄市, 120000 -> 天津市)

//如果想转换为array数组，试一下collect~

scala> var mid_data_map = mid_data_rdd.map(x => (x(0).toString->x(1).toString)).collect
mid_data_map: Array[(String, String)] = Array((110000,北京市), (120000,天津市), (130100,石家庄市), (130200,唐山市), (130300,秦皇岛市), (130400,邯郸市), (130500,邢台市), (130600,保定市), (130700,张家口市), (130800,承德市))

分析：可以关注下 toString函数~

2、注意事项

（1）当启动交互环境 spark-shell 时，会出现较为诡异的事情，刚定义好的变量会被之前的同名变量所覆盖，猜想原因可能是内存不足导致。

（2）在scala代码中，建议if-else语句格式规范书写，否则会编译不正确。

if(条件){

}

（3）启动 spark-shell 时，注意指定的模式local、yarn。

3、常见错误的解决方法

不可序列化：org.apache.spark.SparkException: Task not serializable

解决方案1：继承java可序列化类

object Process extends java.io.Serializable{
}

参考博客：https:///questions/22592811/task-not-serializable-java-io-notserializableexception-when-calling-function-ou

4、学习资料

《Spark快速大数据分析》王道远译，推荐理由：快速上手，实例代码有python、scala、java三种语言

《快学scala》

https://tech.meituan.com/spark_tuning_pro.html

http://dblab./blog/spark-quick-start-guide/#more-577

spark.sql数据类型：http://spark./docs/1.3.1/api/scala/index.html#org.apache.spark.sql.Row

来源：http://www./content-4-69351.html

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：印度阿三17 > 《开发》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

印度阿三17

关注对话

TA的最新馆藏

mysql中字段空格转换
Git提交信息规范
动物识别 python 人工智能实验
require.context 自动引入指定目录下的文件、组件、redux
Flask+Vue 用户登录
比较器comparable 和 comparator

喜欢该文的人也喜欢更多

热门阅读换一换