分享

数据分析界的一条龙服务:你想要的都能给你

 yjt2004us 2018-08-01

在数据分析领域,最常用的数据分析工具就是SPSS、R和python,除了SPSS是收费软件外,R和python都是开源的,这也降低了普通人从事这一行业的门槛,不过,还有一款可视化数据分析软件,他娇小、精悍并且功能强大,不知道各位客官是否了解。


没错!他就是weka,这只大鸟称为Waikato,是的,这只鸟是新西兰的一种鸟,软件就是以他命名的,weka最好的地方就是他不但集成了绝大多数数据挖掘任务的机器学习算法还拥有极其强大的可视化分析功能,对于刚入门的小白,不是专业做分析但是又想利用机器学习算法完成一定任务的爱(zhuang)(bi)(xia),这是你们进行数据分析的不二之选。

Weka本身就带有很多数据集,自然,也少不了医学方面的数据集,下面,将简单介绍下weka的基本功能和基本使用方法。

首先,先领略下weka的界面,界面非常简单大方,漂亮精巧(weka安装见https://www.cs./ml/weka/),界面主要包括五大部分,一般使用,Explorer就足够了,后面的可以自己研究,打开Explorer后界面如下:

界面里面包括了各种按钮,比如open file可以直接打开数据集,也可以通过连接数据库等方式打开,filterAttributes分别可以对数据进行处理和特征选择,本数据集选择的是一份乳腺癌的数据,一般在准备数据的时候多数是csv格式的,不过weka有个比较任性的地方,他自己有一个独特的格式,称为arff格式,那么,这种格式的数据是什么样子呢?你好奇吗,那我们就打开那份数据看看吧,weka安装目录下面自带数据集的,在data目录下。

  

数据是不是和别的不太一样?没事,别急,他里面的数据格式非常好理解,其实最常见的无非就三种Numeric(数值型),Nominal(类别型),String(字符型),并且,在多数数据中,两种就够用了,数值型和类别型,并且他存储方式很有创新,属性和样本单独存储,@data后面就是样本,不同列直接用逗号隔开,一列就是一个特征,和@attribute的顺序对应,如果你不习惯用arff格式,那也没事,weka支持多种格式,你可以按你喜欢用的格式进行导入。

了解了数据之后,就需要用数据来进行建模了,weka包含的机器学习算法非常多,对于刚开始学习的你,是想用都用不完的,在工业界中,一个LRDT就基本能解决了多数分类问题了,不用担心算法不够用。

选择Classify后,就可以进行分类了,当然,你可以选择clusterSelect attributes来进行聚类和特征选择工作,分类里面有个Choose选项,可以打开,会看到里面的算法非常丰富,有贝叶斯、支持向量机、逻辑回归、感知机、决策树、随机森林,甚至还有继承学习中的元分类器,怎样?这么多的机器学习算法几乎能满足你所有的建模任务了,你不需要挨个特征、每个样本去看,只需要轻轻点点,选择算法,欧了!等一会,你的模型就出来了,就可以用了,这么一想,还有点小激动呢,等不及了,下面赶紧继续吧。

先见下clusterSelect attributes吧。

那我们就选择决策树算法吧,看看乳腺癌和什么有关系,单击tree里面的J48算法,对,是J48,不是J8,不要点错哦。

然后接着点击Start就可以运行了,还有,这里你可以选择十折交叉验证。

就点击了一个Start,结果全都出来了,神不神奇,意不意外?并且,树和最终的分类准确率和错误率都有,什么?你说你要分类的混淆矩阵?你要计算精确率和召回率,你还要计算F-MeasureROC曲线下面积?输了,输了,你竟然这么专业,那我们的weka要继续满足你!

小手往下一拉,东西全都有了,你要的真阳性率、假阳性率,甚至是ROC面积都给你了!

什么?讽刺我?看来你还是不满意,你需要导出模型、查看代价函数和阈值函数,甚至还要看这棵树什么样子?可不要小瞧了weka,你想要的我给你,你不想要的,我也给你预备着,看到左下角那个Result没有,点击trees.J48,你又发现了新大陆。

这里,有你想要的一切,save model可以保存模型以后用,load可以加载你保存的模型用于预测,visualize tree就可以看这棵树,visualize threshold curve还能看阈值曲线,接着放大招了!

没错,你要的阈值曲线和树就是这么一条龙服务,给你画出来,让你看的真真切切,情深义真。

好了,weka的基本使用,不,是简单使用已经介绍完毕了,weka并不是这么简单,他有很多非常强大的功能,这只是他的一部分而已,做了这么多工作,这个建模的结果还没跟大家说,本数据集是Breast Cancer数据集,属性如下:

从最终生成的那棵树来看node-caps是根节点,deg-malig是肿瘤恶性程度,说明这两个因素比较重要,在医院检查这两部分有问题的女性就需要注意一下了,希望各位有兴趣的朋友可以对其他方面的医疗数据进行weka的数据分析,得到更多更有价值的结果。

便利小贴士

小编已将weka软件下载好了,还有文中数据,需要的小伙伴可以下载,获取的方法如下:

1、关注医学方公众号

2、向公众号发送“weka”(小写),获取密码

3、打开以下链接,输入密码即可下载https://pan.baidu.com/s/12PydsRD3YfIsD-wXdjAlvg 



END

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多