配色: 字号:
第六章 数据挖掘与CRM(1)
2012-06-03 | 阅:  转:  |  分享 
  
例子2BasicDMforKDDDM数据挖掘KDD知识发现2、获取新客户——客户响应分析在寻找新客户之前,企业应该确
定哪些客户是可能的潜在客户,哪些客户容易获得,哪些客户较难获得,从而使企业有限的营销资源得到最合理的利用。因此,预测潜在客户对企业
销售推广活动的反应情况以及推广活动后的响应分析是客户获得的前提。数据挖掘工具可以建立一个“客户反应”预测模型,计算客户对某个营
销活动的反应指标,企业根据指标找到新客户。关联分析,聚类,分类结论数据挖掘在CRM中有着广泛的应用,从某个角度可以说它
是CRM的灵魂。从行业角度分析应用领域:零售、电信、银行、保险、交通等商业领域能解决的典型商业问题包括:数据库营
销(DatabaseMarketing)客户群体划分(CustomerSegmentation&Classification
)背景分析(ProfileAnalysis)交叉销售(Cross-selling)客户流失性分析(ChurnAnalys
is)客户信用记分(CreditScoring)欺诈发现(FraudDetection)零售业电信业金融业
思考题1、数据挖掘的含义是什么?2、数据挖掘有哪几类常用方法?3、数据挖掘的主要功能有哪些?4、企业在进行数据挖
掘是,一般步骤是怎样的?5、数据挖掘在CRM中的应用主要有哪些?图1是利用2007年和2008年美国国家联盟施政报告的
文本数据生成的DocumentContrastDiagrams,主要通过词汇的尺寸、颜色、位置来表示文本的特征。词汇所在圆圈的
大小代表词频。竖直方向呈现出了词汇在文本中的分布情况,位于顶端的词汇更多的分布在文档的开头部分。水平方向展现出两篇文本中相同和不同
词汇的词频,蓝色气泡(主要在图的左侧)表示词汇来自于2007年的施政报告,紫色气泡(集中在图中的中间部分)表示共有的词汇,如果气泡
微红(大多分布在图的右侧)则表示在该部分所用的词在2008年施政报告中用得更多。图2所示的DocumentArcDiag
rams[6]实现了MartinWattenberg提出的ArcDiagrams[7]可视化方法,它描绘了相似性结构,通过画弧
形来连接文本中使用相似词汇的片段。当鼠标停留在一个文本片段上时,与其有关的所有文本片段或文本弧将会被高亮。当一句话与许多上下文或词
组有关系时,它可以显而易见地产生这些关联的可视化。此应用程序是使用开源的可视化软件Processing构建的。路线决策树假
如我们从家到公司有两条路线可以选择,走第一种路线时,60%的情况下30分钟左右可以抵达公司,40%的情况下60分钟可以抵达公司;走
第二种路线时,50%的情况下30分钟左右可以抵达公司,30%的情况下20分钟可以抵达公司,20%的情况下由于堵车80分钟才可以到达
公司。???????这时我们将每种可能性进行求和计算,最终“路线1”的期望值是42分钟,“路线2”的期望值是37分钟,所以每
天早上从家去公司上班应该选择“路线2”。路线决策树服务提升决策树神经网络方法主要思想:以神经生理学为基础,模
拟人的神经元功能,经过输入层、隐藏层、输出层等,对数据进行调整,计算,最后得到结果,用于分类和回归。一个简单的神经网络,图中的椭
圆表示节点,椭圆间的连线表示连接。神经网络接受左边节点的属性值,并对其进行计算,右边的节点就产生新值,这个值表示神经网络模型的预测
值。神经网络方法邻近算法(K最近邻算法)四数据挖掘的工作流程1、理解业务2、数据收集和选择3、数据预处理
4、建立模型(数据挖掘)5、模型检测和评估6、知识表示7、应用和巩固模型数据挖掘步骤应用和巩固模型知识表示理解业
务数据收集于选择数据预处理建立模型(数据挖掘)模型检验与评估数据例子1:PolyAnalyst实施过程
问题定义数据挖掘(这里采用的是决策树算法)数据挖掘(这里采用的是决策树算法)模型检验知识表示——可视化知识表示——可
视化应用挖掘结果进行决策数据挖掘软件应用示例小结利用PolyAnalyst对商业数据进行分析,可以得到客户接触响应的预测模型
。企业直销就不再是对每一位客户或是随机对客户进行,而是针对预测得到高可能性的客户,这必将降低直销成本。通过PolyAnalys
t直销响应模型的试验可以看出,数据挖掘模型在商业应用中是非常成功有效的。例子2BasicDMforKDD–R
awdata我们根据ESI(基本科学指标数据库)数据库统计了1997-2006年10年间全世界发表论文的作者情况。在这10年间
,共有300万人发表论文,按22个学科领域分类,排在各学科被引次数前1%的作者共有5万人。各学科排在前250名上下的高被引作者,全
世界共6097人。这部分人可以看作是世界顶级科学家。例子BasicDMforKDD–Dataprocessone
当我们以作者发表论文时所属的机构进行统计时发现,美国排在第一位,有4016人,占总人数的65.87%;英国排在第二位,为473人
,占总人数的7.76%。中国排在第16位,有19人,仅占总人数的0.31%,但其中来自香港的作者有15人,也就是说我国大陆科技人
员进入世界各学科被引次数前250名的仅有4人。05/15/2010例子BasicDMforKDD–Data
processtwo对署名为美国机构的4016位论文作者进行进一步调查,我们找到了2350位作者的出生地信息,其中,出生在美
国的有72%(1692人),出生在英国的有5.19%(122人),接下来依次是加拿大2.34%(55人)、印度2.34%(55人)
、中国大陆1.96%(46人)、德国1.23%(29人)。可见,英国、加拿大、印度、中国、德国这五个国家的高层次科技人员向美国输出
的最多。例子BasicDMforKDD–Dataprocessthree且不论华人高端人才在其他发达国家的
分布状况,仅在美国的华人高端人才就至少是中国大陆的高端人才的11.5(46/4=11.5)倍。照46人占2350人的1.96%来推
断,在1666(4016-2350=1666)位出生地不详的美国高被引作者中,也许还有30位以上华人!(已经是很惊人的发现)
例子BasicDMforKDD–Pattenappearing美国拥有的世界顶级科学家占全世界的一半还多,是
中国的200倍。但是美国的顶级科学家中有28%是出生于外国的科学家,其中出生于发展中国家科学家的比例接近8%。公式:A国
对B国人才外流的严峻程度=(出生于A国、服务于B国的顶尖人才数/B国顶尖人才总数)(A国的顶尖人才/世界顶尖人才总数)
其中,分子表示A国人才对B国的贡献;分母表示A国在世界科技格局中的地位,例子BasicDMforKDD–
Algorithm(公式)例子BasicDMforKDD–Knowledgediscovered根据前述公式
,有关国家和地区对美国的顶尖人才外流严峻程度如下:中国大陆,28.0;印度,13.0;俄罗斯,5.1;韩国,4.2;
台湾,3.6;香港,1.4。中国大陆高端人才外流最为严重。(这才是名副其实的KDD!没有基础信息,不行;没有对信息的深加工
,也不行;没有一个合适的指标或公式,还是不行!)第二节数据挖掘在CRM中的应用(或目的)按客户生命周期按行业CR
M在客户生命周期中的应用1、CRM实施的前提——客户细分顾客细分就是把客户根据其喜好、性别、收交易行为等属性细分为具有
不同需求和交易习惯的群体。同一群体中的客户在对产品的需求及交易心里等方面具有相似性,不同群体间差异较大。分类和聚类等挖掘方法可
以把大量的客户分成不同的类,适合于进行客户细分。通过群体细分,CRM用户可以更好地理解客户,发现群体客户的行为规律。在行为分组完成
后,还要进行客户理解、客户行为规律发现和客户组之间的交叉分析。1、CRM实施的前提——客户细分聚类分析Cluster
ing客户细分市场细分Debt<10%ofIncomeDebt=0%GoodCreditRisksBad
CreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40K决
策树DecisionTrees倾向性分析3、提升客户价值——交叉销售交叉销售。商家与其客户之间的商业关系是一种持续
的不断发展的关系,通过不断地相互接触和交流,客户得到了更好更贴切的服务质量,商家则因为增加了销售量而获利。交叉营销指向已购买商品的
客户推荐其他产品和服务。这种策略成功的关键是要确保推销的产品是用户所感爱好的,有几种挖掘方法都可以应用于此问题,关联规则分析能够发
现顾客倾向于关联购买哪些商品;聚类分析能够发现对特定产品感爱好的用户群;神经网络、回归等方法能够猜测顾客购买该新产品的可能性。关
联分析Association市场组合分析套装产品分析目录设计交叉销售4、保持客户——客户分析客户分析。主要包
括:客户价值金字塔分析、客户分布分析、新增客户分析、流失客户分析和购买行为分析。其中分类等技术能够判定具备哪些特性的客户群体最轻易
流失,建立客户流失猜测模型,从而帮助企业对有流失风险的顾客提前采取相应营销措施。利用数据挖掘技术,可以通过挖掘大量的客户信息来构建
猜测模型,较准确地找出易流失客户群,并制订相应的方案,最大程度地保持住老客户。QQQQII12345
6factor1factor2factorn神经网络NeuralNetworks倾向性分析客户保留目
标市场欺诈检测数据挖掘-引子数据挖掘数据库越来越大有价值的知识可怕的数据数据爆炸,知识贫乏苦恼:淹没
在数据中;不能制定合适的决策!数据知识决策模式趋势事实关系模型关联规则序列目标市场资金分配贸易选择
在哪儿做广告销售的地理位置金融经济政府POS.人口统计生命周期CRM-背景知识联机事务处理OLTP(On-l
inetransactionprocessing):也称为面向交易的处理系统,其基本特征是顾客的原始数据可以立即传送到计算中心
进行处理,并在很短的时间内给出处理结果。这样做的最大优点是可以即时地处理输入的数据,及时地回答。也称为实时系统(Realtime
System)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。背景知识OLTP在企业
的应用日渐成熟,能顺利地完成事务型业务,如自动开机(电信运营商)、即时交易(金融企业)、实时收银入账(零售商场)。但随着金融、电
信等高端服务业的市场逐渐完善,OLTP系统的不足和局限也越来越为人所诟病,这是因为OLTP是处理事务的系统,可是面对诸如什么客户的
利润率最高、哪些客户摇摆不定有离开的想法、哪些客户有继续购买的需求、客户喜欢什么等等问题时,就开始显得苍白无力了。因为手头现有的大
量报表、报告,虽然它们详尽地说明了过去甚至今天正在发生的事件,却不能回答明天将要发生的事情。背景知识CRM是为了帮助发现以往
没有发现的“问题”,发现隐藏在数据海洋里的“规律”和“趋势”。CRM的重要功能是预测未来。它的独特之处是,能充分利用企业历史上的数
据,来预测企业的未来,使企业能领先一步,识别风险和机会,超前采取应对策略。第六章数据挖掘和CRM第一节数据挖掘第二节
数据挖掘在CRM中的应用第一节数据挖掘一数据挖掘的基本内涵二数据挖掘的分析方法三数据挖掘的常用的经典算法四
数据挖掘的工作流程一数据挖掘的基本内涵通俗地讲,数据挖掘就是对海量数据进行精细加工。从技术角度定义从商业角度定义
技术角度数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人
们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义(1)数据源必须是真实的、大量的、含噪声的;(2)
发现的是用户感兴趣的知识;(3)发现的知识要可接受、可理解、可运用;(4)并不要求发现放之四海皆准的知识,仅支持特定的发现问题
。商业角度按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进
有效的方法。从商业数据到商业智能客户接触客户信息客户数据库统计分析与数据挖掘客户知识发现客户管理数据挖掘:从
数据中深入抽取隐含的、未知的和有潜在用途的信息数据挖掘与传统分析方法的区别数据挖掘与传统的数据分析(如查询、报表、联机应用分
析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识.。数据挖掘所得到的信息应具有先未知,有效和可实用三个特征.
先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出
的信息越是出乎意料,就可能越有价值。在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系二
数据挖掘的功能关联分析:即利用关联规则进行数据挖掘。预测:通过建立表示数据中固有模式和模型,该模型可以用来对未来时间的结
果进行预测。分类分析:分类是数据挖掘中应用最多的任务。聚类分析:是一种对具有共同趋势和模式的数据元素进行分组的方式。序列模式
分析和关联分析相似,但侧重点在于分析数据间的前后序列关系。数据挖掘功能—关联分析若两个或多个变量的取值之间存在某种规律性,就
称为关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的
规则带有可信度。关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买啤酒的人也有可能购买香烟,比重有多大,可以通过关
联的支持度和可信度来描述。啤酒与尿布问题美国加州某个超级连锁店通过数据挖掘发现:该超市啤酒与尿布的销售量成正相关关系。后来
发现,在下班后,来购买婴儿尿片的多数是男性,他们在购买婴儿尿片的同时往往也购买啤酒。于是连锁店经理当机立断重新布置货架,把啤酒与尿
布放置在邻近的货架上,并且在两者之间放上土豆片之类的佐酒小吃,这样一来,上述几种商品的销量几乎马上成倍上涨。买尿布的客户二
者都买的客户买啤酒的客户基于语义的文本关联挖掘案例卓越亚马逊的推荐系统数据挖掘功能—预测数据挖掘自动在大型数据库中寻找
预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。数据挖掘功能—分类按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。数据挖掘功能—聚类数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。聚类技术在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。基于词频的文本数据聚类挖掘三数据挖掘的常用的经典算法决策树算法神经网络聚类算法K-最邻近算法
献花(0)
+1
(本文系小海的幸福...首藏)