分享

如何构建有指导的数据挖掘模型

 明灭的烟头 2017-11-11

数据挖掘的目的,就是从数据中找到更多的优质用户。

什么是有指导的数据挖掘方法模型

以及数据挖掘如何构建模型?

在构建一个有指导的数据挖掘模型,首先要理解和定义一些模型试图估计的目标变量。

在构造有指导的数据挖掘模型的过程中

一、要定义模型的结构和目标。

二、增加响应建模。

三、考虑模型的稳定性。

四、通过预测模型、剖析模型来讨论模型的稳定性。

下面我们将从具体的步骤谈起,如何构造一个有指导的数据挖掘模型。

把业务问题转换为数据挖掘问题

如何构建有指导的数据挖掘模型
确定谁是不大可能续订的客户

为以家庭为基础的企业客户设定一个拨打计划,该计划将减少客户的退出率

确定那些网络交易可能是欺诈

如果葡萄酒和啤酒已停止销售,列出处于销售风险的产品

根据当前市场营销策略,预测未来三年的客户数量

有指导数据挖掘往往作为一个技术问题,即找到一个模型以解释一组输入变量与目标变量的关系。这往往是数据挖掘的中心,但如果目标变量没有正确的定义以及没有确定适当的输入变量。反过来,这些任务又取决于对要解决的业务问题的理解程度。没有正确的理解业务问题就没办法把数据转化为挖掘任务。在技术开始之前,必须认识两个问题:如何使用结果?以何种方式交付结果?

例如:许多数据挖掘工作旨在提高客户保留

主动向高风险或高价值的客户提供一个优惠,挽留他们

改变获取渠道的组合,以利于那些能带来最忠实客户的渠道

预测未来几个月的客户数量

改变会影响客户的满意度的产品的缺陷

有指导的数据挖掘项目可能会产生几个不同类型的交付形式。交付形式往往是一个报表或充满图标和图形的简报。交付形式会影响数据挖掘的结果。当我们的目的是提醒销售惊雷时,产生一个营销测试的客户列表是不够的。所谓的如何交付结果,就是在挖掘结果产生之后,我们要如何给用户提供这个结果,目的是好的,但实际的过程中会遇到,会遇到我们没有办法去交付这个结果。因为,你交付的结果,可能会导致一些本不该流失的客户,却流失了。这也是在具体工作之前,我们要考虑的问题。

数据挖掘人员的作用是确保业务问题的最后表述可以被转换成一个技术问题。前提是正确的业务问题。

选择合适的数据

如何构建有指导的数据挖掘模型

寻找客户数据的首要地方就是企业数据仓库。仓库中的数据已经被清洗和核实过,并且多个数据源被整合到一起。一个单一的数据模型有望确保命名相似的字段在整个数据库和兼容的数据类型中都有相同的含义。企业数据库是一个历史数据库,新数据不断的被追加,但历史数据一直不变。从这一点更有利于做决策支持。

问题在于,在许多企业组织中,这样的数据仓库实际上并不存在,或者存在一个或多个数据仓库,不符合直接作为规范的数据用来挖掘。在这种情况下,挖掘人员,必须寻求来自不同的部门的数据库和业务系统内的数据。业务系统数据是指执行一个特定的任务,如网站运行,索赔处理,完成呼叫或账单处理。它们的目标是快速、准确的处理事务,数据可以保存成任何格式。而这些对于没有数据仓库的一些企业来说,这些数据往往是隐藏的很深,需要大量的企业调度和规划来整理这些数据。这也就谈到了一个问题:就是数据仓库对一家企业的重要性,而建立企业级数据仓库,需要的决策不是一个经理就可以完成的,这可能需要企业级最高领导下令,下面的所有部门全部配合。

数据挖掘工作的方式并不是一直等到完美和干净的数据才进行下一步工作。虽然需要额外干净的数据,但是受挖掘必须能够使用目前的数据,提前入手,开始工作。

多少数据才足够?

①数据越多越好,更多意味着更好。在建模期间,必须对模型集进行平衡,使得每个结果的数目都相等。如果在一个大规模的样本中有一个比例很小的稀有数据,则一个较小的、均衡的样本会更受欢迎。

②当模型集足以建立良好的、稳定的模型时,使它更大将会产生相反的作用,因为这时需要更长时间在更大的模型上去运行,由于数据挖掘是一个反复的过程,这就导致时间的浪费。如果一次建模例程的运行都需要数小时而不是数分钟,这个时间的消耗就耗不起的。这就导致,在模型确定后,数据并不是越多越好。

需要多久的历史?

数据挖掘使用过去的数据预测未来。但是,数据需要来自多久的过去?这个没有定性的回答,这要考虑很多的因素。另一方面,历史上太久的数据未必对数据挖掘有用,因为市场环境在变化,特别是当一些外部事件(如监管制度的变化)进行了干预时尤其如此。对于许多以客户为中心的应用,2-3年的历史是合适的。然而,在这种情况下,客户关系确实存在有效才被证明是有价值的,那么重要的是什么:最初的渠道是什么?最初的报价是什么?客户最初怎么支付的等。

数据必须包含什么?

最低限度,数据必须包含有可能有意义的结果的例子。有指导数据挖掘的目的是预测一个特定目标变量的值,但在有指导的数据挖掘中,模型集必须由分类好的数据组成。要区分哪些人拖欠贷款哪些人不可能拖欠,模型集的每个类都需要有成千上万的例子。当一个新的申请产生时,他的申请会与过去的客户的申请进行对比,可以直接把新的申请归类。这其中隐含的意思:数据可用来形容过去发生了什么事情,从错误总吸取教训,首先我们必须识别我们已经犯了什么错。

认识数据

如何构建有指导的数据挖掘模型

在数据用于构建模型之前,在探索数据上花费时间的重要性通常没有得到足够的重视。要在陌生的数据集中利用直觉来感应发生了什么事情,唯一办法就是陷入数据之中,你会发现许多数据质量的问题,并能够得到启发提出在其他情况下不容易被发现的问题。

检查分布

在数据库的初步探索阶段,数据可视化工具非常有益,如:散列图、条形图、地理地图、Excel等可视化工具对观察数据提供了强大的支持。

值与描述的比较

观察每个变量的值,并把它们与现有文件中的变量描述进行比较。这项工作可以发现不准确或不完整的数据描述。其实是,你记录的数据,是否和你要描述的数据一致,这个要先确定。

询问大问题

如果数据看上去似乎不明智或者不如所愿,记录下来。数据探索过程的一个重要输出是对提供该数据的人给出一个问题列表。通常,这些问题将需要进一步研究。对数据的探索的前期工作,判断字段,含义,是否有用,是否缺失,是否有问题等一系列问题,需要大量的工作,同时也是一件心细的过程。

创建一个模型集

如何构建有指导的数据挖掘模型

模型集包含建模过程中使用的所有数据。模型集中的一些数据被用来寻找模式,对于一些技术,模型集中的一些数据被用来验证该模型是否稳定。模型集也可用来评估模型的性能。创建一个模型集需要从多个数据源聚合数据以形成客户签名,然后准备数据进行分析。

聚合客户签名

模型集是一个表或一系列表,每一行表示一个要研究的项目,而字段表示该项目有利于建模的一切。当数据描述客户时,模型集的行通常称为客户签名。客户签名,每个客户都由他离开的踪迹唯一确定,你可以利用踪迹充分的了解每个客户。

创建一个平衡的样本

知识发现算法需通过实例来进行学习。如果没有足够数量的关于某个特定类或行为模型的例子,数据挖掘工具无法得出一个预测该类或模式的模型。在这种情况下,利用罕见事件的例子丰富该模型集,提高建模中该事件的概率。如果比较罕见,有两种方法可以平衡样本:①分层抽样。②权重。

时间帧

基于一个时间段内的数据建立模型会增加风险,即学习的知识不真实。结合模型集中的多个时间帧可以消除季节性因素的影响。由于季节性影响如此重要,因此应该把它们明确地添加到客户签名中。把客户的信息按照时间细分,或是在相应的数据上打上标签。

创建一个预测模型

任何客户标签在预测变量和目标变量之间都应该有一个时间差。时间可分为,过去、现在、将来。当部署模型时,它能够使用最近的数据预测未来。

划分模型集

对于预测模型,一个好主意是测试集所在的时间段与训练集和验证集的时间段不同。一个模型的稳定性证据在于它在连续的月份中都能够良好的运行。来自不同的时间段的测试集,也称为不合时宜的测试集,虽然这样的测试集并不总是可用,但是它是验证模型稳定性的一个很好的方法。

作者:连妹数据  转自紫数

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多