分享

数据挖掘领域中有哪些算法?

 求是1025 2023-04-01 发布于山东
 数据挖掘领域会用到很多算法。数据挖掘主要分四类:聚类、分类、关联和推荐。聚类,让同一个类别信息距离最小、最相似,类与类之间距离越大、越不相似。分类,有监督的,是在聚类基础上的操作。比如事先已经把100个用户按男的占一半、女的占一半分。聚类之前不清楚男和女,自己分类很多人会自动男的站一边,女的站一边。分成两群以后,给两群用户打一个标签,定义这边是男的,这边是女的,第101个人进来以后,需要知道他到底属于哪一个类别,属于男还是属于女,只需要把这个用户跟每一个类群里的这些特征进行比对,就能知道他应该属于哪个类别。关联,比较经典的知识是购物篮分析,讲啤酒和尿不湿的故事。沃尔玛会把啤酒和尿不湿摆在一起,因为他通过整理商城购物清单,发现用户如果买了啤酒,他购买尿不湿的频率很高,因为买啤酒的用户都是一些奶爸,这些用户同时会买尿不湿。同样的,买了尿不湿的用户会买啤酒的比例很高。推荐,在电商领域、微博比较常见。比如买了这个商品的用户还会购买什么商品,都会有一些推荐。包括游戏,会基于你的一些游戏行为给你推荐相应的信息。四种分类会涉及一些算法技术,聚类会用到k-means、k-medoids、DBSCAN;分类会用到贝叶斯、SVD、KNN,KNN技术最简洁;关联会用到Apriori算法、FP-growth。FP-growth是Apriori算法的升级。用Apriori算法处理海量数据时,它的性能跟不上,需要多次扫描数据,因为它是发现一项频繁集,二项频繁集和k项频繁集,这种信息如果用FP-growth,只需扫描两次数据就可以得到所有的频繁集数据,是性能的提升;推荐,会用到协同过滤,还会有一些基于信息流、上下文、知识的推荐。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多