Hive
-> R -> MySQL -> PHP -> 数据可视化
首先安装我们需要的RJDBC包,然后再用library调用我们的RJDBC包(注意,R语言是对大小写敏感的)
接着就是加载hive jdbc驱动,把相应的hivedriver下载下来,加载驱动:
添
加好jdbc之后,用dbConnect函数连接hive,用dbGetQuery函数写SQL语句查询准备需要分析的数据。当进行到这一步的时候事情已
经完成一大步。起码已经得到了我们想要的数据,接下来的就是用R语言对我们的原始数据进行预处理,而接下来就是上一节我们说到的《流失预测模型》在R中的
处理模型过程。(以下只是一个针对具体模型之前数据处理过程的一个示例,实际的数据处理过程还要根据具体的数据来做)
在进行数据预处理的时候,最好在SQL的时候进行第一次预处理,接下来再用R进行第二次数据处理。
当数据处理完毕之后就需要进行模型的训练,此处用到的是C5.0算法,在R语言中也有C50的算法包,在进行下一步之前先加载C50算法包,而算法包如何用可以输入:
?C5.0
UsageC5.0(x, ...) ## Default S3 method: C5.0(x, y, trials = 1, rules= FALSE,
weights = NULL,
control = C5.0Control(),
costs = NULL, ...) (关于C50算法包的参数设置运用这里不详细说)
这里的x是我们需要的参数变量,而y则是我们的目标变量,而深一层决策树参数设置则在control函数里面,这里面可以控制进行Train与Test模型的sample比例,以及变量重要性等。
当训练完模型之后我们可以得到一个TreeModel,之后就可以运用这个训练好的TreeModel进行模型,而进行预测的时候,C50包提供了一个函数predict.C5.0,
Usage## S3 method for class 'C5.0' predict(object, newdata = NULL, trials = object$trials["Actual"], type = "class", na.action = na.pass, ...)(详细请输入"?predict.C5.0"查询)
业务目标-> 数据理解-> 数据准备-> 模型过程-> 模型评估-> 模型应用
|
|