RapidMiner数据挖掘入门之一:概要1 简介 RapidMiner原名Yale,它是用于数据挖掘、机器学习、商业预测分析的开源计算环境。根据KDnuggets在2011年的一次投票显示,从使用率来看该软件比之R语言还要略胜一筹。因为其具备GUI特性,所以很适合于数据挖掘的初学者入门。 RapidMiner提供的数据挖掘和机器学习程序包括:数据加载和转换(ETL),数据预处理和可视化,建模,评估和部署。数据挖掘的流程是以XML文件加以描述,并通过一个图形用户界面显示出来。RapidMiner是由Java编程语言编写的,其中还集成了WEKA的学习器和评估方法,并可以与R语言进行协同工作。 2 学习资源 软件的帮助菜单中自带了26个tutorial,可以帮助用户进行基本入门。另外在sample有也有不错的案例数据和流程可供参考学习。从官方网站可以下载到一份简单的用户手册,另外还有相应的资源站提供了很好的视频教程。 3 基本概念 rapidminer中的功能均是通过连接各类算子(operataor)形成流程(process)来实现的,整个流程可以看做是工厂车间的生产线,输入原始数据,输入出模型结果。算子可以看做是执行某种具体功能的函数,不同算子有不同的输入输出特性。 大体上有这样几类算子:
将算子拖入主流程工作区后,它会以一个方箱形式呈现,不同的颜色暗示着不同的函数功能。箱体左侧是输入接口,对应着输入类型的缩写。右侧对应输出接口和相应缩写。左下角会有三种颜色的状态灯,红灯表示关于该算子的设置错误,黄灯表示设置正常但还未进行过执行操作,绿灯表示设置正常且已经进行过执行操作。 在建模时,变量(attributes)会分为两个大类,普通变量称为regular,而目标变量称为label。这在有监督学习时需要特别留意。从数据特征来分,又可分为数值变量numeric,分类变量nominal,其中又有两值分类变量binominal,多值分类变量polynominal。不同的算子对于输入数据的类型有着不同的要求,这点需要在算子帮助中仔细阅读。 4 建模一般流程
rapidminer数据挖掘入门之二:数据导入、预处理和绘图1 基本概念 当安装软件时rapidminer会问你新建库文件在所在地,也就是Repositories,它相当于是用户的所有资料存放地。库中主要存放两种资料:一种是建模需要的数据(Data),另一种是建模用到的模型,或称为流程(Processes)。在安装完软件后,用户可以从Repositories下面看到sample文件,里面提供了用来练习用的数据和模型。 2 数据导入 数据导入有两种方式: 第一种是在Repositories菜单中点击import,可以读取CSV等五种格式数据,导入后以data形式存在库中,可随时拖拽到主流程图中调用,将会显示为Retrieve。 第二种是以算子(Operators)形式导入,从算子中的import类中可以选择十几种导入算子拖拽到主流程图中,然后在设置窗口确定资料来源。 3 数据预处理 数据预处理主要通过Data Transformation算子实现中,其中包括了这样几个大类:
绘图是在result overview窗口中实现,我们以著名的鸢尾花数据为例。首先将库中sample下的iris拖入Main Process,然后将其进行标准化,再点击大三角符号进行运算。软件会自动转到结果窗口,在该窗口选择plot view就可以选择多种绘图方式,下图就是所绘制的三维散点图: rapidminer数据挖掘入门之三:特征选择在一般数据分析条件下,样本集合就类似一个Excel表格,每个样本数据排为一行,而纵列则代表了样本不同的特征或属性。有时候样本数据的特征过多,甚至特征数超过样本数就形成所谓的“维灾难”。 维数过高对于大多数回归分类模型来说是难以忍受的,而且这么高维特征可能会大大干扰训练效果、降低分类性能,因此有必要采取措施进一步地降低特征空间的维数。降维过程包括两类方法:一种是特征选择又称为子集选择,即从最初的N个特征中选取n个特征,而这n个特征可以更简洁、更有效地表示样本的信息。另一种是数据变换,即把N个原始特征变换为n个新的特征,例如主成分分析、投影寻踪方法。 特征选择的一般思路是:构造一个评估函数,对特征子集中的每一个特征进行独立的评估,使每一个特征得到一个评估分,然后对所有特征按照其评估分大小进行排序,选取满足阀值的预定数目个特征形成特征子集。 从使用方法上,特征选择又分为过滤器(Filter)方法和嵌入(Wrapper)方法,Filter是独立于分类器训练的,而Wrapper是结合分类器的效果进行选择的。Filter处理速度快,而Wrapper比较准确,但丧失了数据的一般性。rapidminer就采用Wrapper方法。 我们首先在Repositories中选择sample->processes->04_Attributes->10_ForwardSelect。该例子中用的方法是以前向搜索为选择顺序,以回归均方误为评估指标进行特征选择。 点击运行,然后观察结果窗口,在ProcessLog标签下观察散点图,纵轴选performance,横轴选generation,可以观察到在选择3个变量时,均方误达到最低,从ExampleSet标签可以看到最终选择了a1,a2,a3,这三个变量。 rapidminer数据挖掘入门之四:建模和评价(完) rapidminer中提供了大量的建模方法或学习器,可用于不同情况下的回归和分类问题。从常见的线性回归、决策树到神经网络和支持向量机。此外还提供了集成学习器,即将多个学习器组合使用以提高预测能力,例如Bagging和Boosting,以及Stacking。 |
|