数据挖掘概述 ——以电信业数据挖掘为例

一、认识数据挖掘

随着数据采集技术和存储技术的快速发展，企业建立了庞大的数据库和数据仓库，积累了大量的数据，利用这些数据辅助企业正确决策，已经成为商界的共识。然而数据的“爆炸式”增长，让一般的数据分析技术望而却步，数据挖掘便在此背景下迅速发展起来。

从技术的角度看，数据挖掘（data mining）是从大量的、不完全的、有噪声的、模糊的实际应用数据中，提取潜在有用的信息和知识的过程。从商业的角度看，数据挖掘是一种新的商业信息处理技术，其主要特点是对商业数据库的大量业务数据进行抽取、转换、分析和其他模型处理，从中提取出辅助商业决策的关键性知识，即发现数据中的相关商业模式。数据挖掘融合了人工智能（artificial intelligence）、统计学(statistics)、机器学习(machine learning)、模式识别(pattern recognition)和数据库等多种学科的理论，方法和技术，如下图

一。目前在金融服务机构、零售商、金融服务机构、制造业、电信公司、保险公司、医疗业、航空业、政府等各个领域中取得了广泛的应用。

二、数据挖掘的基本操作流程

为了规范数据挖掘的操作，行业专家根据基本操作，提出了两个流程SEMMA和CRISP-DM。CRISP-DM是跨行业数据挖掘标准流程Cross Industry Standard Process for Data Mining的简称，CRISP-DM强调数据挖掘不只是数据的组织、呈现、分析和建模，而是一个从理解企业需求、寻求解决方案到实践检验的完整过程。CRISP-DM过程可图示如下：
它采用分层方法将一个数据挖掘项目的周期定义为6个阶段，每一阶段的要点简述如下：

1.商业理解Business Understanding

这一初始阶段集中在从商业角度理解项目的目标和要求，然后理解转化为数据挖掘问题的定义和一个旨在实现目标的初步计划。

2.数据理解Data Understanding

数据理解阶段开始于原始数据的收集，然后是熟悉数据，标明数据质量，探索对数据的初步理解，发觉有趣的子集以形成对隐藏信息的假设。

3.数据准备Data Preparation

数据准备阶段包括所有从原始的未加工的数据构造最终数据集的活动(此数据集指将要嵌入建模工具中的数据)。数据准备任务可能被实施多次，而且没有任何规定的顺序。这些任务包括表格、记录和属性的选择以及按照建模工具要求，对数据的转换和清洗。

4.建模Modeling

在此阶段，主要是选择和应用各种建模技术，同时对它们的参数进行校准以达到最优值。通常对于同一个数据挖掘问题模型，会有多种模型技术。一些技术对数据格式有特殊的要求。因此，常常需要返回到数据准备阶段。

5.评估Evaluation

进入项目中的这个阶段时，你已经建立一个模型(或者多个)，从数据分析的角度来看，该模型似乎有很高的质量，在模型发布前，很重要的一点--更彻底地评估模型和检查建立模型的各个步骤，从而使它达到真正的高质量。此阶段关键目的是决定是否存在一些重要的商业问题仍未得到充分地考虑。关于数据挖掘结果的使用决定应该在此阶段结束时确定下来。

6.发布Deployment

模型的创建通常不是项目的结尾。即使建模目的是增加对数据的了解，所获得的了解也需要进行组织并以一种客户能够使用的方式呈现出来。这常常包括在一个组织的决策过程中应用“现场”模型。不过根据需要发布过程可以简单到产生一个报告，也可以复杂到在整个企业中执行一个可重复的数据挖掘过程。大部分情况下，是由客户来实施发布的，而非数据分析师。尽管如此，即使分析师并不执行发布，这对客户也是十分重要的--提前了解需要采取什么行动来实际利用产生的模型。

三、数据挖掘的主要技术及软件：

数据挖掘技术有多种分类方式，比如可以分为描述性数据挖掘、预测性数据挖掘；按照应用领域进行分类，又可以分成电信行业数据挖掘、保险行业数据挖掘、商业数据挖掘、制造业数据挖掘等，

下面主要介绍最常用的有五大技术。

关联规则：关联规则是数据挖掘中最先研究的领域，简单的理解就是分析数据项之间的关联关系。最经典的应用案例是“啤酒和尿布的故事”

分类：分类是一种典型的有监督的学习方法，其目的是从一组已知类别的数据中发现分类模型，以预测新数据的类别。数据分类技术在信用卡审批、保险欺诈分析、客户流失分析等，都有广泛的应用。以保险欺诈分析为例，就是根据现有正常客户和欺诈客户的资料，分析欺诈客户的潜在特征，可以对新购买保险的客户进行分析，从而有利于企业控制风险。

聚类：聚类是一种典型的无监督学习方法，它根据对象自身的相似性，把一组对象划分成一系列有意义的子集，从而能更好的描述原数据，即我们常说的“物以类聚”。数据分析被广泛应用于相似搜索、信息检索、顾客划分等。以顾客划分为例，聚类技术就是找出那些具有相似消费行为的客户，从而对他们采取相应的促销措施，增加企业的利润。

预测和估计：这两种方法都是利用已知值去预测未知值，不同的是估计是横向的，预测是纵向的。比如，估计是根据顾客的教育程度、性别、工资收入来预测其消费额，预测则是根据过去的消费数据预测未来的消费额。

数据挖掘的软件，应用比较多的有以下几种：

Enterprise Miner（SAS），在数据挖掘市场非常杰出的工具，它运用了SAS统计模型的力量和影响力，依照SEMMA的挖掘流程，抽样、探测、修改、建模、评价，提供了包括聚类、分类、关联规则、神经网络和统计回归等多种算法。

Clementine（SPSS），此分析工具结合了多种图形用户接口的分析技术，包含神经网络、决策树、聚类分析等多种算法技术，按照CRISP_DM的流程组织数据挖掘，来执行分析功能，非常适合快速掌握数据挖掘技术。

Intelligent Miner（IBM），包含了大量的数据挖掘算法，如预测、分类、关联规则、聚类等，能够处理相当大的数据量，具有强大的计算能力，并且能够方便的整合使用者的算法。

WEKA，WEKA的全名是怀卡托智能分析环境（Waikato Environment for Knowledge Analysis），是一个开源免费软件。WEKA作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理、分类、回归、聚类、关联规则以及在新的交互式界面上的可视化。

马可威软件，目前唯一的国产数据挖掘软件，功能比较强大，可视化的图像操作界面，整合了大量的数据挖掘算法，如神经网络算法、决策树算法、模糊聚类、关联规则、支持向量机、粗糙集、贝叶斯算法等。

还有很多如Angoss Software开发的KS软件、Oracle的 Darwin 、S-PlUS等。

四、数据挖掘在电信业的应用

随着国内电信业三分天下局面的形成，电信业之间的竞争越来越激烈，电信公司已经从传统的“技术驱动”，靠技术取胜，逐步转向了“市场驱动”、“顾客驱动”。这就要求电信公司必须制定以顾客关系为导向的管理策略，为顾客提供精细化、个性化、多样化的服务，要做到这一点，必须充分利用其掌握的顾客信息，辅助商业决策，从而提高公司利润，提高客户的满意度和忠诚度。

按照客户的生命周期分为三个阶段：客户获取阶段，客户培育及成熟阶段，客户衰退阶段

1、客户的获取阶段：

客户的获取包括发现那些对公司产品不了解的客户，他们可能是产品的潜在消费客户，也可能是接受竞争对手产品的客户，或者可能是公司已经流失的客户。数据挖掘可以帮助企业快速完成对潜在客户的筛选工作。电信公司拥有本公司客户信息，可以得出本公司客户的基本特征比如性别、学历、年龄、工资收入、婚否、是否有房、是否有车等信息，利用聚类分析技术，找出本公司已有客户的基本特征。还必须向市场调研公司或者相关统计部门获取一份潜在顾客的名单，包括他们的上述相关信息。通过比较已有客户和潜在名单客户的基本特征，可以挑选出能够接受本公司服务的“准客户”。这样不但能减少获取客户的费用，也能大大提高获取效率，能够有的放矢。当电信公司扩展某项业务时，也可以利用此信息，对可能性大的顾客进行定向推广，这样效率会大有提高。

2、顾客的培育及成熟阶段：

交叉销售，是指向现有的客户提供新的产品和服务的营销过程，那些购买了某种产品和服务的客户很有可能同时购买你提供的某些感兴趣的其他产品，或者对于现有服务的升级服务比较感兴趣。这是一个双赢的局面，一方面客户能够得到更个性化，多样化的服务，另一方面，公司能够增加利润。如何才能给特定的人推荐特定的服务呢？这首先要分析客户的消费行为，建立关联规则模型，比如说长途通话行为和漫游行为，如果用户对这二者的使用较高的话，可以推荐其使用相应的套餐等。

客户利润分析，利润是公司追求的目标，可以根据客户的消费行为，将客户能够为公司带来利润程度的不同分为低、中、高三类客户。著名的“商界定律”：80%的利润来自20%的客户，如果企业能牢牢把握住这20%的客户，并且能不断的增大这个比重，将普通客户提升为高价值客户，对公司的利润将是一个巨大的提升。要进行利润分析，必须首先确定客户给公司带来利润的计算方式，并建立相应的数据挖掘模型，对所有客户进行判别，当然在具体判别时还要考虑多种因素，比如说入网时间，所属套餐等，只有这样才能够正确评价客户的价值。

细分客户，不同的客户有着不同的消费需求，比如学生可能对短信的需求量大，而商务人士可能对长途，漫游等通话要求高，根据这些不同的消费层次，可以对顾客进行细分。客户细分将一个大的消费群体分成若干个小的消费群体，同属于一个小的分群的消费行为相似，而隶属于不同分群的被视为不同的群体，这样电信公司就可以针对不同群体客户提出的要求来改善自己的服务，提高客户的满意度。通过这种细分还可以找到某种服务的潜在消费客户，可以针对性的营销，降低营销成本。

客户的欺诈检测，据统计，每年全球因电信欺诈造成的损失占电信业务总收入的5%以上，这给电信运营商造成了很大的损失。面对电信欺诈行为的不断扩张，原先采用行政催缴的弊端日益显露，比如成本巨大，效果不是很理想，且这些行为都是事后性的，对即将发生的电信欺诈没有预见性。数据挖掘技术通过利用欺诈的消费信息，比如通话时间、通话次数、长途漫游等，建立客户的欺诈模型，比如贝叶斯模型、决策树模型等，能够提前预知顾客欺诈的可能性，立即采取措施，降低公司的损失。还可以利用孤立点分析对特征明显的欺诈客户进行准确识别。

3、顾客的保留阶段：

客户的满意度分析，满意度是客户对公司提供产品和服务的整体感受，满意度是忠诚度的基础，只有对公司产品和服务满意度高的客户才会忠诚于公司。电信公司应当定期的对客户进行抽样调查并且结合投诉服务中心的资料，通过数据挖掘建立决策树模型、结合分析模型、因子主成分分析模型，寻找影响满意度最大的因素，这样可以使公司快速改善服务，提高客户的满意度。

客户的保留分析，客户的保留分析或者流失率分析与客户的满意度分析，有着密切的联系。那些对服务长期不满的人极有可能会放弃公司的服务。获取一个新客户的成本是留住一个老客户成本的10倍以上，因此公司为增加自己的利润，必须最大限

度的降低客户的流失率，利用已经拥有的客户信息，比如客户属性，服务属性和客户消费数据等与客户流失相关联的数据，建立客户流失预测模型，可以采用分类、关联、聚类等方法建模，把握住流失客户的基本特征，提早预测出要流失的客户，从而采取特定的营销措施挽留住这些客户。
五、电信挖掘中应当注意的问题

数据挖掘时一个整体的流程，涵盖业务的理解、数据的理解、数据的预处理、模型的建构、模型的检验及发布等，任何一个环节都要确保正确，数据挖掘需要依靠技术人员、业务人员和专家的通力合作，数据挖掘是一个团队的工作。

由于电信业数据量极大，在对特定目的进行分析时，一般要给予某一套餐类型，或者某个增值业务，并且要注意地区因素等，这样得到的结果才具有可靠性，且客户的基本信息可能缺失比较严重，在数据处理时要格外注意，与专家共同商议处理缺失值的方法。

上面介绍的模型，并不是孤立没有联系的，由于客户的入网时间不同，很多模型都是同时进行的，要注意模型之间的结合，对于已经建立的模型要不断的利用新数据进行更新，使之准确性不随时间而下降。

六、结语

随着社会的进步，各行各业的竞争也越来越激烈，特别是当今经济危机爆发，如何利用企业积累的大量数据，辅助企业的决策，使企业在严酷的环境中能生存下来，数据挖掘在电信业中的应用，或许能给我们有益的启示。

数据挖掘概述 ——以电信业数据挖掘为例_数谷网