1、Shuffle原理和运行机制回顾 上面的流程中: 看Log和Web UI上面的信息来判断是否需要调整上面的两个问题所涉及的参数。 针对问题1:Mapper端的性能调优参数是spark.shuffle.file.buffer,默认大小是32k,我们要根据数据量和并发量来适当调整该参数,尽量减少过于频繁的磁盘访问操作,开始是32k,后面可以调整成为64k,128k等等,需观察性能效果。 |
|
来自: 看风景D人 > 《Spark学习总结》