高质量的数据输入给业务模型才能保证模型良好运行。 清洗可以是excel、sql、hql开发的ETL工程师,以及用mr和spark处理复杂数据。 这些的目的都是得到高质量数据。有的负责数据的清洗是HQL做不了的,就需要使用spark来进行处理。 (1)使用HIVE可以解决60%以上的数据清洗工作。(2)使用spark,scala编写的程序可以清洗特殊的数据。对于一些复杂数据,可以编写好清洗函数之后,对每行记录都调用清洗函数来进行处理。 具体应用场景之后介绍。 (3)使用mapreduce可以清洗特殊数据。Mapreduce的代码可以开发用spark清洗数据的mr代码。 不同的数据处理工具根据所处的业务场景来运用。 在熟练使用这些技术之后,应该重点关注的业务的实现,技术是解决问题的基础。 |
|