分享

什么是数据挖掘?分析如何揭示洞察力

 快读书馆 2018-03-06

摘要:数据挖掘是通过海量数据集进行排序的自动化过程, 用于识别趋势和模式并建立关系。


今天的组织正在收集越来越多来自各种来源的信息,包括网站、企业应用、社交媒体、移动设备,以及越来越多的物联网(lot)。


最大的问题是:如何从这些信息中获得真正的业务价值?这就是数据挖掘可以做出重大贡献的地方。数据挖掘是一种自动化的过程,通过大量的数据集来识别趋势和模式,建立关系,通过分析数据来解决业务问题或产生新的机会。


这不仅仅是要看数据,还要看看过去发生了什么,才能在当下明智地采取行动。数据挖掘工具和技术可以让你预测未来会发生什么,并据此采取行动来利用即将到来的趋势。


“数据挖掘”一词在IT行业中广泛使用。它经常应用于各种大型数据处理活动,如收集、提取、存储和分析数据。它还可以包括决策支持应用程序和技术,如人工智能、机器学习和商业智能。


数据挖掘被应用于许多商业和研究领域,包括产品开发、销售和市场营销、遗传学和控制论。如果以正确的方式使用,数据挖掘与预测分析相结合,可以使您比没有使用这些工具的竞争者有很大的优势。


从数据挖掘中获得业务价值


数据挖掘的真正价值来自于能够以数据的模式和关系的形式挖掘出隐藏的宝藏,这些数据可以用于对企业有重大影响的预测。


例如,如果一个公司决定某一特定的营销活动导致某个特定地区的某一种产品的销售非常高,而另一些地区却没有,那么它就可以在未来重新集中精力以获得最大的回报。


技术的好处取决于业务类型和目标。例如,零售业的销售和营销经理可能会以不同的方式挖掘客户信息,以提高比航空公司或金融服务行业的转换率。


无论行业如何,过去应用于销售模式和客户端的数据挖掘都可以用来创建预测未来销售和行为的模型。


还有数据挖掘的潜力,可以帮助消除危害企业的活动。例如,可以使用数据挖掘来提高产品安全性,或者检测保险和金融服务交易中的欺诈行为。


数据挖掘的应用


数据挖掘可以应用于几乎所有行业的各种应用程序。


零售商可以部署数据挖掘,以更好地识别哪些产品可能是基于过去的购买习惯,或者哪些商品可能在一年的某些时间销售。这可以帮助商家计划库存和店面布局。


银行和其他金融服务提供商可以挖掘与客户账户、交易和渠道偏好相关的数据,以更好地满足他们的需求。他们还可以从他们的网站和社交媒体互动中分析数据,以帮助增加现有客户的忠诚度,并吸引新的客户。


制造公司可以使用数据挖掘来寻找生产过程中的模式,因此他们可以精确地识别瓶颈和有缺陷的方法,并找到提高效率的方法。他们还可以将数据挖掘的知识应用到产品的设计中,并根据客户体验的反馈进行调整。


教育机构可以从数据挖掘中获益,例如分析数据集,预测学生未来的学习行为和表现,然后利用这些知识对教学方法或课程进行改进。


卫生保健提供者可以挖掘和分析数据,以确定更好的方式来为病人提供护理和降低成本。在数据挖掘的帮助下,他们可以预测他们需要照顾多少病人,以及那些病人需要什么样的服务。在生命科学中,采矿可以用来收集大量的生物数据,以帮助开发新的药物和其他治疗方法。


在包括医疗保健和零售在内的多个行业中,您可以使用数据挖掘来检测欺诈和其他情况,这要比用传统方法识别此类活动要快得多。


数据挖掘的关键组件


数据挖掘的过程包括几个不同的组件,它们满足不同的需求:

  • 预处理,在应用数据挖掘算法之前,需要构建一个目标数据集,进行预处理,以便能够分析数据集。

  • 数据清理和准备,必须对目标数据集进行清洗和准备,去除“噪声”,处理缺失值,筛选输出数据点(用于异常检测),消除错误,或进行进一步的探索,创建分割规则,执行与数据准备相关的其他功能。

  • 关联规则学习(也称为市场购物篮分析),这些工具搜索数据集中变量之间的关系,例如确定在商店中哪些产品经常一起购买。

  • 集群,数据挖掘的这个特性用于发现数据集中的组和结构,这些数据集在某种程度上与彼此相似,而不使用数据中的已知结构。

  • 分类,执行分类的工具将已知的结构一般化,应用于新的数据点,例如当电子邮件应用程序试图将消息分类为合法邮件或垃圾邮件时。

  • 回归,数据挖掘技术用于预测给定数据集时的一系列数值,如销售、房屋值、温度或价格。

  • 摘要,该技术提供了数据集的紧凑表示,包括可视化和报告生成。


几十个供应商提供数据挖掘软件工具,一些提供专有软件,另一些提供通过开源软件交付产品。


提供专有数据挖掘软件应用程序的主要供应商有Angoss、Clarabridge、IBM、Microsoft、Open Text、Oracle、RapidMiner、SAS Institute和SAP。


提供开源数据挖掘软件和应用程序的组织包括Carrot2、Knime、Massive Online Analysis、ml - flex、Orange、UIMA和Weka。


数据挖掘的风险与挑战


数据挖掘伴随着风险和挑战,与任何涉及使用潜在敏感信息或个人身份信息的技术一样,安全性和隐私是最大的问题。


在基本层面上,挖掘的数据需要完整、准确、可靠;毕竟,你用它来做重大的商业决策,经常与公众、监管机构、投资者和商业伙伴进行互动。现代的数据形式也需要新的技术,例如将各种分布式计算环境(也就是大数据集成)和更复杂的数据(如图像和视频、时间数据和空间数据)组合在一起。


获得正确的数据,然后把它集中到一起,这样它就能被开采,这并不是它面临的挑战的终点。云、存储和网络系统需要启用数据挖掘工具的高性能。从数据挖掘中得到的信息需要清晰地呈现给广泛的用户,希望他们能够对其进行解释和解释。你需要在数据科学和相关领域有技能的人。


从隐私的角度来看,有关人们如何行为、购买什么、访问什么网站等等的信息,可以引发人们对收集太多信息的担忧。这不仅影响你的技术执行,也影响你的商业策略和风险配置。


除了对个人进行彻底的追踪,还需要对如何收集数据、识别人和共享数据进行法律上的要求。美国的健康保险可移植性和责任法案(HIPAA)和欧盟的一般数据保护指令(GDPR)是最著名的。


在数据挖掘中,最初的准备行为,例如聚合和合理化数据,可以披露信息或模式,可能会损害数据的机密性。因此,有可能在无意中与伦理问题或法律要求相冲突。


数据挖掘还需要保护数据的每一步,以确保数据不会被窃取、修改或秘密访问。安全工具包括加密、访问控制和网络安全机制。


数据挖掘是一项关键技术


尽管存在这些挑战,但数据挖掘已经成为许多组织IT策略的重要组成部分,它们试图从收集或访问的所有信息中获取价值。随着预测分析、人工智能、机器学习和其他相关技术的不断进步,这种驱动无疑会加速。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多