统计与数据挖掘历史发展

展开全文

统计与数据挖掘历史发展

统计与数据挖掘
FROM http://hi.baidu.com/bittnt/item/8d9fdd813903411ec31627ad
20世纪60年代：稳健统计盛行时代

开创性地解决了理论分布假定有偏差的资料分析问题
主要成果：
◇异常值诊断
◇高杠杆点诊断
◇对少量污染异常敏感的回归诊断
◇M-estimator等稳健估计量
意义----基于正态假定的理论框架正被打破
失误：在寻找稳健估计量上花费了太多时间

70年代早期：提出探索性资料分析

John Tukey:统计建模应结合资料的真实分布情况
主要观点：
◇数据分析应从数据特征出发研究发现有用信息，而非从理论分布假定出发建构模型
◇重新提出描述统计在资料分析中的重要性
意义：为统计学指明了与资料相结合的发展方向
失误：注重完善理论，未关注信息领域对数据分析工具的需求
EDA的思想与资料挖掘的思想极为相似

70年代后期：两个主要成就

广义线性模型：
◇将看似零碎的统计研究多方面的贡献统一起来
◇概括了基于正态理论以外的线性模型研究
◇主要思想：
EM算法：
◇解决不完整数据估计问题的数值方法
◇即使数据完整，缺失值在最优估计的计算中也有用

80年代及以后：
资料模拟及非参统计的发展

推动因素：计算能力的发展
部分成就：
◇50年代产生的大折刀法的应用
◇有放回Resampling方法即Bootstrap法的提出
◇处理变量非线性关系的核光滑(Kernel Smoothing)法
◇MCMC法
增强了数据挖掘的模式识别能力

统计的发展
与数据挖掘目标一致

该领域的多数研究至今仍集中于改进目前的机器学习方法及加速现存的方法
因此 DM还不是一个知识学科 (intellectual discipline). 然而, 在未来 , 回答是几乎确定的--是!

关于Data Mining……

◇乐观的说法……Berry and Linoff (1997)

分析报告给你后见之明（hindsight）
统计分析给你先机（foresight）
Data Mining给你识见（insight）

这三者都是在既有的数据上做分析，在概念上应该并无轩轾，差别只是手上的数据大小与性质。所以，方法不同才有定义的不同。

◇负面的定义……Friedman, J. (1997)

Data mining is a commercial enterprise that seeks to mine the miners.

◇中肯的说法……Hand, D. J., Blunt, G., Kelly, M. G. and Adams, N. M.

Data mining is the process of seeking interesting or valuable
information in large data bas　　es.

Data Mining运用的理论与实际应用功能……

完整的Data Mining步骤……

1.　厘清目标与理解数据；
2.　获取相关技术与知识；
3.　整合与查核数据；
4　.去除错误或不一致及不完整的数据；
5.　由数据选取样本先行试验；
6.　研发模式（model）与型样（pattern）；
7.　实际Data Mining的分析工作；
8.　测试与检核；
9.　找出假设并提出解释；
10. 持续应用于企业流程中。

由上述步骤可看出，Data Mining牵涉了大量的准备工作与规划过程，事实上许多专家皆认为整套Data Mining的进行有80%的时间精力是花费在数据前置作业阶段，其中包含数据的净化与格式转换甚或表格的连结。由此可知Data Mining只是信息挖掘过程中的一个步骤而已，在进行此步骤前还有许多的工作要先完成。

Data Mining与统计分析……

Data Mining所使用的技术如CART、CHAID或模糊计算等等理论方法，都是由统计学者根据统计理论所发展衍生，有相当大的比重是由高等统计学中的多变量分析所支撑。