配色: 字号:
腾讯大讲堂59-数据蕴含商机,挖掘决胜千里
2020-02-28 | 阅:  转:  |  分享 
  
数据蕴含商机,挖掘决胜千里Agenda从运筹帷幄到决胜千里…观日月之行,察天地之变数据爆炸的时代数据挖掘是……多学科的融合Ag
enda几个基本概念模型(Model)vs模式(Pattern)数据挖掘的根本目的就是把样本数据中隐含的结构泛化(Gen
eralize)到总体(Population)上去模型:对数据集的一种全局性的整体特征的描述或概括,适用于数据空间中的所有点,例
如聚类分析模式:对数据集的一种局部性的有限特征的描述或概括,适用于数据空间的一个子集,例如关联分析算法(Algorithm)
:一个定义完备(well-defined)的过程,它以数据作为输入并产生模型或模式形式的输出描述型挖掘(Descriptive
)vs预测型挖掘(Predictive)描述型挖掘:对数据进行概括,以方便的形式呈现数据的重要特征预测型挖掘:根据观察到的
对象特征值来预测它的其他特征值描述型挖掘可以是目的,也可以是手段数据挖掘是一个过程数据挖掘方法论CRISP_DM(Cr
ossIndustryStandardProcessforDM)1998年,由NCR、Clementine、OHRA和
Daimler-Benz的联合项目组提出SEMMASAS公司提出的方法Sample,Explore,Modify,M
odel,Assess在战略上使用Crisp_DM方法论,在战术上应用SEMMA方法论工欲善其事必先利其器数据清洗填充
缺失值,修均噪声数据,识别或删除孤立点,并解决数据不一致问题主要分析方法:分箱(Binning)、聚类、回归数据集成多
个数据库、数据方或文件的集成数据变换规范化与汇总数据简化减少数据量的同时,还可以得到相同或相近的分析结果主要分析方法:
抽样、主成分分析数据离散化数据简化的一部分,但非常重要(尤其对于数值型数据来说)先来玩玩数据(EDA)探索性数据分析(
ExploratoryDataAnalysis,EDA)探索性地查看数据,概括数据集的结构和关系对数据集没有各种严格假定
主要任务数据可视化(apictureisworthathousandwords)残差分析(数据=拟合+残差)
数据的重新表达(什么样的尺度-对数抑或平方根-会简化分析)方法的耐抗性(对数据局部不良的不敏感性,如中位数耐抗甚于均值)常见
方法统计量,如均值、方差、根方差、协方差、峰度、偏度、相关系数等统计图,如饼图、直方图、散点图、箱尾图等模型,如聚类数据挖
掘=模型+算法你使用过信用卡吗?分类过程物以类聚,人以群分聚类示意基于欧氏距离的三维空间中的聚类基于质心的
聚类算法 (K-Means)发现商品间的关联规则关联规则的量度支持度:Support(A=>B)=#AB/#N,表示A和B
同时出现的概率期望可信度:Support(A)=#A/#N,表示A出现的概率置信度:Confidence(A=>B)=Supp
ort(A=>B)/Support(B)改善度:Lift(A=>B)=Confidence(A=>B)/Support(B)关
联规则的度量发现具有最小置信度和支持度的全部规则X^Y?Z支持度(support),s,事务中包含{X&
Y&Z}的概率置信度(confidence),c,事务中包含{X&Y}的条件下,包含Z的条件概率从算法到应用数
据挖掘厂商Agenda看看QQ的流失数据一切从目标出发打开观测用户的窗口训练样本\测试样本观察窗口:2007年1
月—2007年3月表现窗口:2007年5月—2007年6月TimeLag:2007年4月交叉校验样本观察窗口:20
07年2月—2007年4月表现窗口:2007年6月—2007年7月TimeLag:2007年5月勾勒出用户行为的特征
黄沙吹尽始到金基础变量和中间变量数目约为224个经过变量变换后的变量数目约为1700个Lift曲线ROC曲线建立闭环的
业务流程Agenda几点心得参考文献网络资源联系我们12,267,293Total0.05226,7309
0.07226,72980.11226,72970.15226,73060.25226,72950.35
226,72940.55226,73031.03226,72822.27226,72915.17226,7
290Lift样本数量十分位>50%>75%流失客户分析数据挖掘数据分析数据采集/ETL现有流程评估计划和
设计挽留行动执行挽留行动评估挽留结果调整应用流程数据挖掘是什么?1模型+算法2数据挖掘实践分享3心得与总结4
实施数据挖掘是一个战略性举措BusinessFirst,TechniqueSecond数据挖掘不是万能的,没有它也不是
万万不能数据挖掘是一个循环探索的过程www.dwway.comwww.dmresearch.netwww.dm
review.comwww.datawarehouse.comwww.kdnuggets.com腾讯大
讲堂第五十九期研发管理部大讲堂主页:http://km.oa.com/class与讲师互动:http://km.oa.c
om/group/class腾讯研究院数据分析研究室SimonJiang/江宇闻2009-02-24数据挖掘是什么?
1模型+算法2数据挖掘实践分享3心得与总结4舌战群儒草船借箭巧借东风火烧赤壁赤壁怀古苏轼……羽
扇纶巾谈笑间樯橹灰飞烟灭......风雷电雨云云多会下雨刮风会下雨下雨会闪电闪电会打雷……换成它呢???
DataMining,circa1963IBM7090600cases“Machinestorageli
mitationsrestrictedthetotalnumberofvariableswhichcouldbe
consideredatonetimeto25.”DataInformationKnowledgeWisdom
Tofind/discover/extract/dredge/harvest、、、Interesting
/novel/useful/implicit/actable/meaningful、、、Informati
on/knowledge/patterns/trends/rules/anomalies、、、Inmas
sivedata/largedataset/largedatabase/datawarehouse、、、
Data+contextInformation+rulesKnowledge+experienceDataba
sesStatisticsPatternRecognitionKDDMachineLearningAINeuroc
omputingDataMining数据挖掘是什么?1模型+算法2数据挖掘实践分享3心得与总结4“from
dataminingtoknowledgediscoveryindatabase”.U.fayyad,G.P.
ShapiroandP.Smyth(1996)分类预测关联规则孤立点探测聚类LogisticRegression
决策树神经网络K-MeansK-ModeSOM(自组织图)AprioriFP-Growth基于统计基于距离基于
偏差卡应该发给谁?哪些持卡人会拖欠?哪些拖欠的客户会还款?影响资产组合(Portfolio)1、根据历史,
预测将来2、目标是一个分类变量3、预测结果是一个统计意义下的概率1、哪些人可以发卡,额度是多少。2、持卡人拖欠的概率是多少
3、该对谁催收训练集分类学习训练集IFrank=‘professor’ORyears>6THENten
ured=‘yes’JefisYES!分类器人为地选取细分维度客户价值地域活跃程度……维度灾难的发生维度
增长细分数目指数增长人脑仅能处理有限的维度市场A1A2B1xyzbuy(x,”diapers”)?buy(
x,”beers”)P(Y|X)/P(Y)置信度对期望可信度的比值改善度P(Y|X)X出现的前提下,Y出现的频率
置信度P(Y)Y出现的频率期望可信度P(X∩Y)X、Y同时出现的频率支持度公式描述名称令最小支持度
为50%,最小置信度为50%,则有A?C(50%,66.6%)C?A(50%,100%)顾客购买
尿布顾客购买两者顾客购买啤酒挖掘和统计分析平台SASEMSPSSClementineS+MinerStatist
icDataMiner与数据库集成挖掘平台IBMIMOracleNCRTeradataMinerSQL200
5DM行业运用及解决方案UnicaKXENHNC数据挖掘是什么?1模型+算法2数据挖掘实践分享3心得与总
结43.05%2.07%2.35%2.59%当月老帐户流失率8,217,5695,466,8076,006,58
26,572,087当月流失老帐户数269,060,000264,006,894255,749,736253,668,
411当月活跃总帐户数2007年6月2007年5月2007年4月2007年3月流失率每个月500~1000万的老用户
流失,一年老用户流失接近1亿,实际自然人流失状况虽然没有这么严重,但是仍然是一个惊人的数据。客户流失是每个行业每天都在面对的问题
1、建立流失预测模型,回答客户是否要流失,何时流失的问题2、通过预测模型建立客户流失管理机制,更为有效地管理流失,而不是去防止
流失目标变量:即需要根据业务需求确定模型需要预测的对象,在QQ客户流失模型中即是在业务上对“流失”的定义。沉默客户数在4月后区
域稳定模型选择连续沉默2个月作为流失的定义目标变量的定义:Good:在表现窗口连续两个月有登陆的客户Bad:在表
现窗口连续两个月都没有登陆的客户Intermediate:在表现窗口其中一个月有登陆的客户观察窗口表现窗口TimeL
agMM-1M-2M-3M-4M-5M+1M+2M+31观察窗口:形成自变量的时间段。表现窗口:形成因变量
的时间段。23TimeLag:预留给业务部门进行相应操作的时间段。123变化幅度特征变量
描述用户使用量上的变化幅度基本属性变量
描述用户的基本属性产品使用行为特征描述用户使用产品的情况消息业务使用
行为特征描述用户使用消息业务的情况音频业务使用行为特征描
述用户使用音频业务的情况视频业务使用行为特征描述用户使用视频业务的情况客户在线的行为特征
从在线时长,登陆次数,登陆频率等角度研究用户的使用行为归属地变化的行为特征描述用户在某一时间周期内登陆所在地的变化情况中间变量比例特征变量描述用户业务使用占比基础变量变量描述行为趋势特征变量描述用户的使用行为变化趋势变量描述变量筛选使用Logistic回归的Stepwise方法进行下一步拟合卡方统计量ChiSquare信息价值InformationValue信息增益GainIndex单变量回归偏相关分析PartialCorrelation
献花(0)
+1
(本文系新用户18771...首藏)