分享

大数据计算平台搭建方法论

 mrjiangkai 2016-08-14

跨行业数据挖掘标准流程为一个知识发现工程提供了一个完整的过程描述.该模型将一个知识发现工程分为6个不同的,但顺序并非完全不变的阶段。

大数据计算平台搭建方法论

Business understanding: 商业理解.。在第一个阶段我们必须从商业的角度上面了解项目的要求和最终目的是什么,并将这些目的与数据挖掘的定义以及结果结合起来。商业理解阶段应算是数据挖掘中最重要的一个部分,在这个阶段里我们需要明确商业目标、评估商业环境、确定挖掘目标以及产生一个项目计划,比如推荐商品、广告点击。

Data understanding: 数据的理解以及收集,对可用的数据进行评估。数据是我们挖掘过程的“原材料”,在数据理解过程中我们要知道都有些什么数据,这些数据的特征是什么,重点是数据的稳定性与准确性及获取的便利性。

Data preperation: 数据的准备,对可用的原始数据进行一系列的组织以及清洗,使之达到建模需求。在数据准备阶段我们需要对数据作出选择、清洗、重建、合并等工作,即基础数据的ETL工程。

Modeling: 即应用数据挖掘工具建立模型,建模过程也是数据挖掘中一个比较重要的过程。我们需要根据分析目的选出适合的模型工具,如广告点击常用的为逻辑回归、推荐中的协同过滤。

Evaluation: 对建立的模型进行评估,重点具体考虑得出的结果是否符合第一步的商业目的。并不是每一次建模都能与我们的目的吻合,评价阶段旨在对建模结果进行评估,对效果较差的结果我们需要分析原因,作为反馈返回前面的步骤对挖掘过程重新定义,比如准确率、精确率、召回率、CTR、CVR等指标及AB测工具

Deployment: 部署,即将其发现的结果以及过程组织成为可读文本形式.(数据挖掘报告)。这个阶段是用建立的模型去解决实际中遇到的问题,它还包括了监督、维持、产生最终报表、重新评估模型等过程。通过在生产环境的实际应用,通过上述描述的指标数据来重新优化整个闭环系统。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多