分享

[转载]电子商务推荐系统(一)

 rena_wang 2014-09-16

电子商务个性化推荐系统

推荐系统将成为未来十年里最重要的变革,社会化网站将由推荐系统所驱动。

――John Riedl 明尼苏达大学教授

网站正从一个搜索时代进入一个发现时代。他们的区别是,搜索是你明确知道需要什么东西;发现是说你并不十分清楚的知道一种东西存在,或者你并不清楚怎么样才能找到这种东西。而搜索时代创造了市值1500亿美金的google。

--美国财富杂志

亚马逊很早就意识到推荐系统能在电子商务上发挥的巨大作用。亚马逊使用协同过滤的算法来匹配你与其他顾客的购买习惯,从而过滤掉大量的商品信息,而只推荐出你愿意购买的商品。

--- ACM conference

调查显示,45%的用户更加喜欢到有产品推荐功能的网站上去购物,而在过去6个月里花费了¥1000以上购买商品的用户里,这个数字提高到了69%。同一个调查显示,41%的用户更加关注符合他们口味的个性化广告。新闻媒体网站通过显示个性化的相关内容来提高用户的阅读兴趣。

――ChoiceStream survey

随着电子商务规模的进一步扩大,为用户提供越来越多选择的同时,其结构也变得更加复杂。一方面,用户面对大量的商品信息束手无策,用户经常会迷失在大量的商品信息空间中,无法顺利找到自己需要的商品;另一方面,商家也失去了与消费者的联系。推荐系统模拟商店销售人员向用户提供商品推荐,帮助用户找到所需商品,从而顺利完成购买过程,因此可以有效保留用户,提高电子商务系统的销售;商家也可以通过推荐系统保持与客户的联系,重建客户关系。

推荐系统主要通过如下三种途径提高电子商务系统的销售能力:

1)将电子商务系统的浏览者变成购买者:电子商务系统的访问者在浏览过程中经常并没有购买欲望,电子商务推荐系统能够向访问者推荐他们感兴趣的商品,从而完成购买过程。

2)提高电子商务系统的交叉销售:电子商务推荐系统在用户购买过程中向用户提供其它有价值的商品推荐,用户能够从提供的推荐列表中购买自己确实需要但在购买过程中没有想到的商品,从而有效提高电子商务系统的交叉销售。

3)保留客户:与传统的商务模式相比,电子商务系统使得用户拥有越来越多的选择,用户更换商家及其方便,只需要一两次鼠标的点击就可以在不同电子商务系统之间跳转。电子商务推荐系统分析用户的购买习惯,根据用户需求向用户提供有价值的商品推荐。如果电子商务推荐系统的推荐质量很高,那么用户会对该电子商务推荐系统产生依赖。因此电子商务推荐系统不仅能要为用户提供个性化的推荐服务,而且能与用户建立长期稳定的关系,从而能有效保留用户,防止用户流失。

电子商务推荐系统具有良好的发展和应用前景。目前,几乎所有大型的电子商务系统,如Amazon、CDNOW、eBay、dangdang、淘宝等,都不同程度的使用了各种形式的推荐系统,各种提供个性化服务的Web站点也需要推荐系统的大力支持。在日趋激烈的竞争环境下,电子商务推荐系统能有效保留用户,提高电子商务系统的销售。有关研究表明,电子商务零售行业提供个性化推荐服务后,其销售额会提高2%~8%。由此可见,成功的电子商务推荐系统会产生巨大的经济效益。

1.推荐技术研究现状与分析

推荐系统中的推荐技术主要分为三类:基于内容的推荐技术,协同过滤推荐技术和混合推荐技术:

基于内容的过滤(Content-based filtering approach)是信息检索领域的重要研究内容。基于内容过滤的推荐系统需要分析资源内容信息,根据用户兴趣建立用户档案(Profile),然后根据资源内容与用户档案之间的相似性向用户提供推荐服务。基于内容过滤的实验型推荐系统主要包括Malone等人提出的电子邮件信息过滤系统(1987)、音乐过滤系统LyricTime(1992)、Stanford大学提出的信息过滤工具SIFT(1995)、SIFTER原形系统(1997)等。基于内容过滤的推荐技术具有一定的局限性主要表现在必须分析资源的内容信息,因此对音乐、图像、视频等信息无能为力;无法分析信息的质量;无法提供新颖的推荐

协同过滤推荐技术(Collaborative filtering approach)是目前研究最多、应用最广的电子商务推荐技术。它是基于邻居用户的资料得到对目标用户的推荐,推荐的个性化程度高。利用用户的访问信息,通过用户群的相似性进行产品推荐,不依赖于内容仅依赖于用户之间的相互推荐,避免了内容过滤的不足,保证信息推荐的质量。协同过滤是根据和自己有着相似爱好的邻居用户所喜欢的商品,自己也同样会喜欢的原理进行推荐,能为用户发现新的感兴趣的商品,不需要考虑商品的特征,任何形式的商品都可以推荐。例如,使用基于内容的推荐技术进行推荐冯小刚的电影,系统返回的只是冯小刚的电影,但是如果使用了协同过滤技术,它会根据品质等特征进行推荐,返回的是冯小刚确实拍的好的电影,协同过滤技术尤其适合应用在文化产品上,例如推荐音乐,电影等。但是协同过滤技术也同样存在着很多局限性:如冷启动问题,如果一个用户没有对任何项目进行过评价,自然不存在评分矩阵,也不能得到推荐,同理,如果一个项目是新项目,同样也得不到推荐;评分矩阵稀疏问题,在大多数的推荐系统中,用户涉及的信息量是相当的有限的,在一些大的系统如Amazon,用户最多不过评价了上百万书的1%-2%,这样的评分矩阵是很稀疏的,难以找到相似的用户集,导致推荐结果大大的降低;可扩展性问题,面对日益增多的用户,数据量的急剧增加,算法的扩展性问题(即适应系统规模不断扩大的问题)成为制约推荐系统实施的重要因素。但随着计算机性能的增强,这个问题己经得到了很好的解决。

每种推荐技术都有各自的优缺点。为了给用户提供更准确更合理的推荐,在设计推荐系统的推荐方法模块时结合多种基本推荐技术,以达到扬长避短的目的。这就是组合推荐的思路。一般而言,推荐技术的组合有以下几种思路:

l) 加权(weight):采用多种推荐技术得到对某一项目的预测评分,根据权重相加得到总评分,以此得出推荐结果。

2) 切换 (switch):具体采用哪种推荐技术取决于当时的实际情况,根据应用场合切换不同的推荐技术。

3) 混合(Mixed):同时采用多种推荐技术进行推荐。

4) 特征组合 (Feature combination):组合来自不同推荐数据源的特征并被一种推荐算法所采用。

5) 层叠(Cascade):一个推荐器从另一种推荐器中提炼抽取一部分推荐。

6) 特征放大 (Feature augmentation):一种推荐技术的输出结果作为另一种推荐技术的特征输入。

7) 模型放大(Meta-level):被一种推荐器学习的模型作为另一种推荐器的输入。

2.个性化推荐系统相关技术

2.1数据挖掘

数据挖掘(Data mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。所以,数据挖掘有时也被人们称为知识挖掘、知识提取、知识发现等。随着信息技术的高速发展,人们积累的数据量急剧增长,如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这肿需要应运而生发展起来的数据处理技术。它采用了包括数据库,数据仓库和OLAP、统计、机器学习、可视化、神经元网络等不同领域的技术,并且在诸如零售、银行、保险、股票市场分析、Web挖掘等不同行业都得到了应用。

数据挖掘 (Data Mining)采用数学的、统计的、人工智能和神经网络等领域的科学方法,如机器学习、聚类分析、关联分析、决策树、神经网络、基因算法等技术,从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程。综合了各个学科的技术,有很多的功能,当前的主要功能包括:

(1)分类:按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。

(2)聚类:识别出分析对内在的规则,按照这些规则把对象分成若干类。例如:将申请人分为高度风险申请者、中度风险申请者、低度风险申请者。

(3)关联规则:关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来描述。

(4)预测:把握分析对象发展的规律,对未来的趋势做出预见。例如:对未来经济发展的判断。

(5)偏差的检测:对分析对象的少数的、极端的特例的描述,揭示内在的原因。例如:在银行的100万笔交易中有500例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减小以后经营的风险。

电子商务推荐系统中的数据挖掘技术主要是包括关联规则挖掘和分类挖掘两类。关联规则挖掘是数据挖掘中一个重要的研究内容。在电子商务领域,关联规则挖掘根据销售数据发现不同类型商品在销售过程中的相关性。关联规则的挖掘可以离线进行,基于关联规则的商品推荐根据生成的关联规则模型和用户的购买行为产生推荐结果。分类挖掘模型根据用户的输入信息将之划分为相应类别,基于分类挖掘的推荐系统根据用户输入信息和项的特征信息,预测是否向用户推荐该项。

2.2 信息检索与信息过滤

2.2.1信息检索

信息检索技术一般是指根据用户需求,从大规模的相对静止的数据库中检索用户需要的信息,主要满足用户瞬时的信息需求。信息检索技术主要用于相对静止的信息存储领域。例如,当用户在数字图书馆中进行检索时,用户提交关键字反映了用户当前的信息需求,数字图书馆中的搜索引擎根据预先建立好的内容检索,检索出用户需要的信息。

信息检索的研究内容主要包括索引技术和查询技术。索引技术是对资源内容进行分析,从而将资源内容表示为计算机可处理的数据结构的过程。查询技术根据用户需求,查询用户需要的资源信息。其研究内容主要包括查询语言设计研究、可视化查询接口研究、用户请求与资源信息的匹配研究等。在很多情况下,索引技术与查询技术是重叠的,查询技术依赖资源信息所采用的索引结构。信息检索系统的界面主要包括两种形式。传统的信息检索系统主要使用关键字查询接口,用户根据自己的信息需求输入一到两个关键字,信息检索系统根据用户提交的关键字进行查询,然后向用户返回检索结果。目前,越来越多的信息检索系统提供动态查询接口。信息检索系统动态查询接口向用户提供一系列的信息主题供用户选择,然后根据用户的选择向用户提供下一层的信息主题,这样一直进行下去,直到用户检索到自己需要的信息为止。这种不断与用户进行交互的

动态查询接口使得用户能更容易的检索到所需信息。

信息检索技术是实现推荐系统的关键技术。推荐系统根据用户需求,搜索产品类别数据库,然后返回用户需要的信息。其搜索过程可以实时进行,也可以定期周期执行。同时,推荐系统提供的推荐界面既可以基于传统的关键字查询,也可以基于动态查询接口。前者的例子如Amazon.com中的关键字查询,后者的例子如drugstore.com中的Advisor推荐。

2.2.2信息过滤

信息过滤技术一般用户用户需求相对不变,但信息动态呢更新比较频繁的情况。信息过滤系统主要面对的是半结构化和非结构化的数据,它为用户的长期信息需求提供信息过滤服务。用户的兴趣模型可用用户档案文件的形式表示。信息过滤系统将动态信息与用户档案文件进行匹配,根据匹配结果返回用户需要的信息。

信息过滤与信息检索的区别主要包括:

1)信息过滤面向用户长期的信息需求,而信息检索技术面向的是用户短期

的、实时的查询。

2)信息过滤用档案文件表示用户的信息需求特征,而信息检索技术是用关

键词表达用户的查询请求。

3)信息过滤中用户需求相对不便,但用户访问的是动态数据流,是从动态数据流中选择数据;信息检索技术访问是相对静止的数据,但用户需求却具有瞬时性。

邮件系统信息过滤和新闻组信息服务是信息过滤技术的典型应用。在新闻组信息服务中,用户输入自己感兴趣的一组关键词,新闻组信息服务通过关键词建立用户档案。当新闻组中加入新信息时,信息过滤系统对新信息进行过滤,将满足用户需求的新信息反馈给用户。新闻组信息服务也可以分析用户订阅的信息自动抽取关键词,简历用户档案,然后通过信息过滤系统将用户感兴趣的新信息反馈给用户。

信息过滤技术也是实现推荐系统的关键技术。例如,Amazon.com提供的Eyes推荐就是一个典型的基于关键词检索的信息过滤系统。用户输入基于作者、标题、主题、ISBN和出版日期的关键词,Eyes推荐根据用户输入的关键词,建立用户档案。当产品目录中加入新书时,Eyes推荐根据用户输入的关键词和新书提供的相关信息,选择用户感兴趣的新书作为推荐结果,通过E-Mail的方式推荐给用户。

2.3协同过滤技术

在协同过滤中,用户通过相互协作来选择信息,它依据其他用户对信息作出的评价来挑选信息。协作方常常是用户所信任的朋友、同事等,依据他们的判断向用户推荐信息。协同过滤方法对用户的行为进行分析,并不关心信息的实际内容。自动化协同过滤系统通过收集用户对信息的评价,搜索具有相同兴趣喜好的用户,然后根据具有相同兴趣喜好的用户对信息的评价产生推荐结果。

和基于内容的过滤方法相比,协同过滤具有如下优点:

1)适合于过滤难以分析内容的资源:协同过滤不关心资源的具体内容,因此,在难以分析资源内容的情况下,如图形、图像、视频、音乐等,协同过滤是很好的选择。

2)新奇的推荐:协同过滤可以发现内容上完全不相似的资源,用户对推荐信息的内容事先是预料不到的。

协同过滤推荐是当前最成功的推荐技术。最近邻协同过滤根据评分相似的最近邻居的评分数据向目标用户产生推荐。由于最近邻居对项(电子商务中的商品,电影,音乐等)的评分与目标用户非常相似,因此目标用户对未评分项的评分可以通过最近邻居对项评分的加权平均值逼近。

协同过滤推荐通过用户对项的评分信息产生推荐,用户对项的评分信息可以通过隐式和显式两种方式得到。隐式方式通过用户浏览或购买过的商品推断用户兴趣爱好。显式方式则让用户直接输入用户对商品的数字评分和文本评价信息。协同过滤推荐系统通过用户对项的评分信息,建立用户档案,然后使用不同的推荐机制提供推荐服务。最简单的协同过滤系统计算所有用户对项的平均评分,选择平均评分最高的前N个项作为推荐结果推荐给用户。这种推荐机制根据所有的用户评分信息产生推荐,所有用户在同一时间得到的推荐都是相同的,因此这种推荐方法又称为非个性化推荐。

Tapestry是最早提出的个性化协同过滤推荐系统。用户需要明确指出与自己兴趣爱好相似的其他用户,推荐系统根据指定的其他用户对商品的评价信息产生推荐结果。与之类似,Maltz等人提出的个性化协同过滤推荐系统允许用户向自己熟悉的用户群体主动提供推荐信息。在上述协同过滤推荐系统中,用户之间必须了解对方的兴趣爱好,因此一般只适用于用户数量比较小的场合。

随着电子商务系统的发展,用户和项的数量逐渐扩大,与之相适应,研究者提出了自动个性化协同过滤推荐系统。在自动个性化协同过滤推荐系统中,系统自动识别用户的最近邻居,根据最近邻居对项的评价产生推荐。Group Lens是最早提出的自动个性化协同过滤推荐系统,用于从大量的新闻中搜索用户感兴趣的新闻列表。Movie Lens自动个性化协同过滤推荐系统用于产生电影推荐。Video自动个性化协同过滤推荐系统和Ringo自动个性化协同过滤推荐系统分别用于推荐电影和音乐唱片。Video推荐系统证明,相对于基于电影评论的推荐而言,使用协同过滤推荐技术可以大大提高推荐系统的推荐质量。PHOAK系统使用用户隐式评分产生推荐,PHOAK系统根据新闻贴的发表和阅读情况分析出每个新闻组中最受用户欢迎的站点。研究表明这种技术可以有效识别站点的受欢迎程度。基于协同过滤的推荐系统在电子商务系统中非常流行。MYCDNOW采用基于隐式评分和显式评分的混合评分模式提供CD唱片推荐。在MYCDNOW推荐中,当用户对推荐系统请求推荐时,推荐系统自动搜索用户的最近邻居,然后根据最近邻居的评分信息向用户提供六个推荐结果。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多