数据挖掘领域中有哪些算法？

求是1025 2023-04-01 发布于山东

展开全文

数据挖掘领域会用到很多算法。数据挖掘主要分四类：聚类、分类、关联和推荐。聚类，让同一个类别信息距离最小、最相似，类与类之间距离越大、越不相似。分类，有监督的，是在聚类基础上的操作。比如事先已经把100个用户按男的占一半、女的占一半分。聚类之前不清楚男和女，自己分类很多人会自动男的站一边，女的站一边。分成两群以后，给两群用户打一个标签，定义这边是男的，这边是女的，第101个人进来以后，需要知道他到底属于哪一个类别，属于男还是属于女，只需要把这个用户跟每一个类群里的这些特征进行比对，就能知道他应该属于哪个类别。关联，比较经典的知识是购物篮分析，讲啤酒和尿不湿的故事。沃尔玛会把啤酒和尿不湿摆在一起，因为他通过整理商城购物清单，发现用户如果买了啤酒，他购买尿不湿的频率很高，因为买啤酒的用户都是一些奶爸，这些用户同时会买尿不湿。同样的，买了尿不湿的用户会买啤酒的比例很高。推荐，在电商领域、微博比较常见。比如买了这个商品的用户还会购买什么商品，都会有一些推荐。包括游戏，会基于你的一些游戏行为给你推荐相应的信息。四种分类会涉及一些算法技术，聚类会用到k-means、k-medoids、DBSCAN；分类会用到贝叶斯、SVD、KNN，KNN技术最简洁；关联会用到Apriori算法、FP-growth。FP-growth是Apriori算法的升级。用Apriori算法处理海量数据时，它的性能跟不上，需要多次扫描数据，因为它是发现一项频繁集，二项频繁集和k项频繁集，这种信息如果用FP-growth，只需扫描两次数据就可以得到所有的频繁集数据，是性能的提升；推荐，会用到协同过滤，还会有一些基于信息流、上下文、知识的推荐。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：求是1025 > 《162大数据与人工智能》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多