分享

【算法新闻】大数据与算法推荐系统

 地球知识年鉴 2022-09-18 发布于辽宁

一、推荐系统的数据依赖

1. 大数据在个性化推荐系统中的应用

(1)研究用户

大数据可以用于“用户行为分析”“用户消费心理分析”“社交网络分析”等任务

用户行为分析 是指系统获取用户使用行为的有关键数据并进行统计、分析,从中发现用户使用习惯的规律,并将这些规律用于改进只能推荐算法。用户行为包含时间、地点、人物、动作、内容这些基本要素。通常推荐系统的日志模块可以记录并提取用户行为事件,获取了用户行为数据之后,就可以形成用户画像。用户行为数据越多、越准确,用户画像数据越准确,个性化推荐的效果就越好。

用户消费心理分析 是从心理层面分析和掌握用户的内在需求,从而改进推荐效果的一种方法。对于一些电商平台或付费类的内容推荐平台,由于涉及用户的支付行为,因此需要分析用户在何种心理情境下容易发生消费行为,识别出影响用户消费的心理因素,并以此为参考进行个性化的产品和内容推荐。

社交网络分析 关注在线社交网络中的个体、个体之间的关系和相互作用,以此在此之上的社群发现、情感分析、话题挖掘等等。通过社交网络分析,个性化推荐系统可以识别目标人群并进行有针对性的精准推荐。也可以使用基于影响力的分析寻找意见领袖,借助意见领袖完成内容的推广或产品销售。

(2)研究产品

从原理上讲,推荐系统就是要完成用户与产品的匹配。从理解产品的角度,大数据可以对产品进行“特征挖掘”“对比分析”“预测分析”等研究。

对于产品的预测分析,可以从产品的基本数据指标(如新增用户数、活跃用户数、用户留存率、产品的使用时长、用户的地域分布等)对产品的未来使用情况进行预测。可以使用的计算模型包括:①直方图分析、②时间序列图、③散点图

2. 推荐系统的数据依赖

推荐模型需要使用各种“特征”进行内容与用户的匹配计算,因此,内容分析和用户标签挖掘是搭建推荐系统的基石。具体来说,特征抽取来用户侧和内容侧的各种标签。此时,推荐模型面临的往往是上亿或者十亿的特征。这些特征既包括语义上可解释的性别、年龄、兴趣等维度,也包括机器学习算法如深度神经网络中提取的算法特征,能涵盖一切可以帮助推荐算法判断的信息,并且这些特征的数量还在不断增加。

二、用户侧大数据:用户标签的计算

1. 用户标签数据的分类和策略

①兴趣类标签:如主题、关键词、内容的来源,基于兴趣用户聚类的类别标签等。

②身份类标签:性别、年龄、常住地点等。

③行为标签:主要是用户使用推荐系统的行为特点,例如哪个时间段使用更频繁,关注哪种类型的内容。

推荐系统是如何生成这些标签的呢?可以使用如下策略:

①过滤噪声数据:对于用户停留时间短的点击率和阅读,不进行标签提取;用户可能由于操作有误或标题党内容误导而进行了点击,因此用户的真实兴趣并不高,将其认为是噪声数据。

②降低热门标签权重:对于用户在热门文章上进行点击,阅读等动作做降权处理,也就是这些热门文章对应的标签热度在系统中并不会持续增长。

③时间衰减:随着用户动作的增加,老的特征权重会随时间衰减,用户新动作贡献的特征权重会更大。

2. 用户标签数据的计算

①系统收集用户行为原始日志;②批量计算或流式计算;③线上读取高性能存储系统④推荐算法

三、内容侧大数据:组织和分类

语义标签就是一种能够合理组织内容的体系。文本内容通常都是典型的层次化分类方法进行组织的。通过一层一层的分类器,系统将内容从抽象到具象进行依据语义的分类和组织。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多