基于统计视角的数据挖掘研究 论文标题:基于统计视角的数据挖掘研究 The Study of Data Mining Based on the Statistics View 论文作者 论文导师 李金昌,论文学位 博士,论文专业 统计学 论文单位 浙江工商大学,点击次数 48,论文页数 175页File Size9271K 2007-06-01论文网 http://www./lunwen_653701162/ Statistics; Data Mining; Theory System; Quality; LavaMiner 数据挖掘是一个年轻、活跃的研究领域,不同专业背景的研究者侧重于不同方面对数据挖掘展开了研究。从目前国内外的研究现状看,从事数据挖掘研究的主要是计算机领域的学者和专家,统计界的学者和专家对数据挖掘的研究相对较少。而随着数据存储技术的不断发展,可用于数据分析的数据量越来越大,对传统的统计分析技术提出了极大的挑战。笔者认为数据挖掘的出现,正是统计学适应这一变化的新的发展方向,数据挖掘并不是为了替代传统的统计分析技术,而是统计分析方法的延伸和扩展。本文从统计学视角研究数据挖掘,以期从统计学角度对数据挖掘理论的研究有所突破和创新,同时对统计学理论在数据挖掘方向的发展做出探索。 全文除了绪论,共分为七章。 第一章为:基于统计视角的数据挖掘理论体系研究。通过对数据挖掘与统计学理论基础、方法等方面的比较,清晰地提出了基于统计视角的数据挖掘体系,改变了目前研究中人们对统计学与数据挖掘之间理解的模糊认识。 第二章为:数据挖掘统计方法综述。首先对数据挖掘数据源、属性类型和功能三个基本问题作了界定,然后对实现其中的关联、聚类、分类和回归四项功能的统计方法进行综述,并对其中一些统计方法从数据挖掘应用角度作了一些完善和改进。 第三章为:数据挖掘统计方法进一步研究。主要进行了特征描述统计方法研究和聚类挖掘距离函数和相似系数研究。在特征描述统计方法研究中,提出了在本文设计的可视化数据挖掘系统LavaMiner中将把特征描述作为一个独立的挖掘功能模块来实现的思路,提出了特征描述过程模型,进而根据建立的过程模型系统地研究了各个步骤可采用的统计方法。在聚类挖掘距离函数和相似系数研究中,系统地研究了各类属性的距离函数和相似系数,并分析了各个距离函数和相似系数的优缺点或适用性。 第四章为:数据挖掘质量问题研究。从数据挖掘整个过程考虑把数据挖掘质量问题分为以下三类:源数据的质量问题、数据集成时的质量问题和数据分析时的质量问题,并针对不同问题从统计学的角度分别提出了相应有效的解决方法。 第五章为:可视化数据挖掘原型实现。首先从数据挖掘原型的应用场景、使用对象、过程模型和模型表示四个方面研究了数据挖掘原型设计基础,然后设计并部分实现了可视化数据挖掘原型系统LavaMiner,这是本文的另一项重要研究内容。该系统具有灵活的操作过程、便捷的扩展方式和全面的接口封装三大特点。 第六章为:数据挖掘在实际数据库上的应用示例。完成了数据挖掘在浙江省联通炫铃用户实际数据库中的应用示例,首先介绍了实验数据库,然后分不同时间段来实现最有价值客户的挖掘,最后作了铃音关联挖掘。 第七章为:全文总结及研究展望。主要对全文工作进行总结,并对下一步的研究作出展望。 From the end of 1980s, when data mining was known for the firsttime, more and more experts from distinct areas are interested in studyingdata mining. This thesis studies data mining based on the statistics view.The thesis includes seven chapters apart from introduction. Chapter one: the theory system of data mining from a statisticalperspective. By comparing data mining and statistics in many aspects, thethesis puts forward the theory system of data mining from a statisticalperspective. So we can understand data mining and statistics moredistinctly. Chapter two: summarizing statistics methods of data mining. First,the thesis discusses three issues about data mining: data, attribute typesand functions. Then it summarizes statistics methods about associationrule、clustering、classifying and regression, and also it improves somemethods from data mining application perspectives. Chapter three: studying statistics methods of data mining deeply.The thesis not only studies methods of character mining but also distancefunctions and resemble coefficient of clustering. Chapter four: studying qualities of data mining. The thesis thinksthat qualities of data mining include three parts from whole process: thequality of data, the qulity of data integration, the qulity of data analysis,then it studies sone methods to improve qualities of data mining from thestatistics view. Chapter five: realizing the data mining antetype system. The thesisstudies design elements of the data mining antetype from applicationscenes、users、process models and models expressing. Then it designs thedata mining antetype system LavaMine. LavaMine has threecharacteristics: flexible, expansibility and encapsulation. Chapter six: an example of data mining. The thesis performs datamining on a database as an example. The database is about ZHEJIANGprovince Unicorn colorful ring customers. Chapter seven: summing-up and study expectation. |
|