基于用户画像的信息智能推送方法

西域过客01 2017-01-07

展开全文

姜建武，李景文，陆妍玲，叶良松

(桂林理工大学测绘地理信息学院，广西桂林 541004)

针对传统信息推送服务由于缺少对用户个人综合因素的考虑，存在针对性差、推广转化率低的问题，在大数据理论基础上提出了一种基于用户画像的智能信息推送方法。该方法将用户抽象为结构化信息本体，通过构建行为－主题、主题－词汇及行为－词汇三位一体的数学模型，研究基于用户画像的信息本体提取方法。采用包含对象、时间、地点、内容、行为和重返次数六方面内容的事件描述法计算本体权重，以此构建用户画像。设计了基于用户画像的智能信息推送系统，为大数据环境下面向用户的智能信息推送提供了一种新的方法。

用户画像；信息推送；信息本体；大数据

TP399文献标识码：ADOI： 10.19358/j.issn.16747720.2016.23.025

姜建武，李景文，陆妍玲，等. 基于用户画像的信息智能推送方法［J］.微型机与应用，2016,35（23）：86-89,92.

0引言

基于“用户画像”的信息智能推送服务已经广泛应用于亚马逊、京东、阿里、百度、百分点、腾讯等电商和信息服务企业，国内外众多学者也对其进行了深入研究。彭艺等研究了云环境下智能推送服务在数字化教学中的应用［1］;颜友军研究了移动平台上基于本体知识库的问答与Web服务推送系统［2］;赫磊研究了基于云平台的智慧旅游信息推送系统［3］;黄舒榕提出了基于JXTA的移动智能小区信息推送服务平台［4］;刘海等采用4C理论构建了服装领域的“用户画像”数据库，并在此基础上构建了精准营销细分模型［5］;莫静泱构建了B/S架构的用户健康消费智能推送系统［6］;肖锋等围绕LBS服务、情景模型和智能信息推送，提出了基于位置的智能信息服务模式［78］。然而，这些研究都是传统的信息推送方法，缺少对用户的偏好、时间、购买力等个人因素的考虑，导致推送信息泛滥，缺乏精准性。本文研究了用户画像数学模型的构建及基于用户画像的智能信息推送方法，通过对用户网络行为数据和个人信息数据的采集、处理，建立用户画像数学模型，提取信息本体、计算本体权重，构建用户个人信息画像，并融入信息智能推送过程，提供面向用户的个性化精准信息推送服务。

1构建用户画像数学模型

1.1信息本体的确定

用户画像又称用户角色［9］，是一种大数据环境下用户信息标签化方法。信息本体是一种语义本体，分为静态(如人口属性、商业属性等)和动态两类。静态本体来自用户注册信息，该类本体自成标签，在实际提取中主要进行数据清洗工作。动态本体隐藏于用户随机互联网行为中，具有隐蔽性，需通过数据分析，挖掘隐藏信息并提取本体，其提取过程如图1所示。

图1中，K表示主题集合，M表示行为集合，Nm表示第m个行为中的词汇个数，α,β为先验参数。

动态本体的提取分为数据预处理、行为主题建模、主题词汇建模和行为词汇建模四个部分，其中行为主题模型与主题词汇模型服从Dirichlet分布，行为词汇模型服从Multiomial分布。

(1)行为数据预处理

首先过滤用户行为数据，去除非文本信息，且只保留行为文本中的动词和名词［10］，然后求解各词汇的TFIDF指标，保留指标在70%以上的词汇，构成动态本体数据源。

其中，TF指词项频率，TFIDF指逆文档频率［11］，TFIDF指标的计算公式为：

式（1）中，N代表互联网行为总集，ni为词汇i出现过的行为集合，j为某一行为记录，fi,j表示词i在j中出现的次数［12］。

(2)行为主题建模

从参数为α的Dirichlet分布中抽取各文档M对应的行为主题分布模型，记为θm，则有［10］：

其中整个行为库中主题的生成概率为：

(3) 主题－词汇建模

从参数为β的Dirichlet分布中抽取各主题K对应的主题－词汇分布模型，记为φk，则：

其中所有主题中词汇生成的概率为：

根据主题生成概率和词汇生成概率得出主题词汇的联合分布为：

(4) 行为词汇建模

根据主题词汇分布模型和行为主题分布模型，则行为m对应的第n个词汇的计算过程为：

① 从θm中采样一个主题，记为Zm,n，则［10］：

② 根据计算的主题Zm,n，从φk中取出与Zm,n对应的特定单词Wm,n：

在以上求解过程中，Wm,n为获取量，Zm,n为隐含量，本文采用Gibbs Sampling采样法求解Zm,n，由于图1中①和②两过程均服从Dirichlet－Multiomial共轭分布，根据前述所得的联合分布p(w,z|α,β)，并将行为Z中的第i个词对应的主题记为Zi，i表示去除下标为i的词，假设已经观测的词wi=t，则有如下推导：

mk和kt是对应的两个Dirichlet后验分布在贝叶斯框架下的参数估计，根据Dirichlet参数估计公式得［13］：

根据以上两式，得到最终行为－词汇模型的Gibbs Sampling公式如下［13-14］：

通过以上步骤，提取用户随机互联网行为中的动态信息本体，综合静态信息本体，构成用户画像数学模型的label参数。label只能表示用户的兴趣偏向内容，而无法体现偏向程度，需计算label权重p(i)。

1.2本体权重的计算

权重用于表示用户对某一本体的偏向程度。静态本体相对稳定，权重设为1。目前，用户画像标签权重的计算主要考虑对象、时间、地点、内容4个因素，文中提出用户随机互联网行为的对象、时间、地点、内容、行为和重返次数6因素事件描述法，可更全面地描述用户的随机互联网行为。采用6因素事件描述法表示的互联网随机行为动态本体的权重计算方法如下：

(1) 对象

对象即互联网上区分用户的标识(Cookie、IP、Email、身份证等)，不同标识的可信度不同。对象权重为该标识可信度值与可信度值总和的比值，即：

(2) 时间

时间包含时间戳和时间间隔两方面内容。时间戳用于标识事件发生、结束的时刻，时间间隔用于标识浏览时间，则时间对动态本体的权重T(label)记为浏览本体的时间与用户所有上网时间的比值，即：

(3) 地点(接触点)

地点是用户互联网行为的接触点(天猫、官网等)，用户行为接触点的不同，对标签的影响亦不同。为不同接触点设置重要程度度量值，则地点对本体的权重L(label)为：

(4) 内容

内容是动态本体权重的重要组成部分，标识了一个互联网行为的核心，用C(label)表示，即该动态本体包含词汇的最大TFIDF指标：

(5) 行为

行为是用户对网站内容的操作，如浏览、收藏等，不同的行为具有的权重不同，用A(label)表示，计算公式为：

(6) 重返次数

重返次数体现了用户对该网站(产品、内容)的关注程度，这将在很大程度上影响该次互联网行为的“有效性”。重返次数采用R(label)表示，其权重为该行为的重返次数与用户所有浏览次数的比值，计算公式为：

1.3用户画像最终数学模型

用户画像最终数学模型如式（18）所示。

基于用户画像的信息智能推送方法

式中labeli表示某一方面用户的信息标签，p(i)表示该标签的权重，Obj(label)、T(label)、L(label)、C(label)、 A(label)、R(label)为事件对应六方面内容对标签的权重，r为衰减因子，用来描述信息本体对某一标签的兴趣随着时间变化的衰减程度。

2基于用户画像的智能信息推送系统

推送技术的模式分为操作式推送和触发式推送两种［15］。基于用户画像的智能信息推送系统是操作式推送与触发式推送的结合体，即客户端操作触发信息推送与服务器主动推送二者相结合。该系统分为数据获取及处理、信息本体获取及权重计算、信息推送三个阶段，具体过程如下：

(1) 数据获取及处理

用户基本数据(年龄、体重等)通过注册信息获取，该部分信息相对稳定，为静态信息本体(如表1所示)，权重定为1。动态本体隐藏于用户行为中，通过用户互联网行为抓取，实现电商、社交、媒体等信息的获取。对数据进行预处理，主要获取网页的标题信息，过滤用户行为中非文本信息，只保留动词与名词，且只保留TFIDF指标在70%以上的词汇，并按照对象、时间、地点、内容、行为五方面内容以天为单位存储至数据库(如表2所示)。

基于用户画像的信息智能推送方法

(2)动态信息本体获取

通过行为主题建模、主题词汇建模、行为词汇建模三个过程，从用户行为库中挖掘动态信息本体，提取行为主体及主题词汇。

(3)动态信息本体权重计算

根据对象、时间、地点、内容、行为五个方面，依据动态信息本体权重计算公式求解其联合影响权重。

(4)用户画像构建

根据步骤(1)、(2)、(3)所得结果，结合用户画像数学模型，构建特定用户的用户画像，采用非关系型数据库MongoDB以Bson格式存储。对用户画像做可视化处理，直观显示用户偏向内容及偏向程度，如图2所示。

基于用户画像的信息智能推送方法

(5)信息推送

将用户画像中各信息本体按照权重排列，采用LBS技术定位用户实时位置，以位置和信息本体为查询条件，查询信息数据库，将查询结果组合、排序，为用户提供符合个人情况的智能信息，如图3。

基于用户画像的信息智能推送方法

3结束语

本文提出的信息本体概念利于用户描述和计算机处理，基于行为主题、主题词汇及行为词汇模型的信息本体提取方法和采用对象、时间、地点、内容、行为和重返次数的联合影响权重计算方法构建的用户画像数学模型，能够较好地描述用户偏好。本文设计的基于用户画像的智能信息推送系统，为大数据环境下的精准营销提供了一种新的方法。

参考文献

［1］ Peng Yi .An application for digital teaching of intelligent push technology under the cloud environment［C］.International Conference on Social Science and Education,2013:398-403.

［2］颜友军.移动平台上基于本体知识库的问答与Web服务推送系统［D］.南京:南京大学,2013.

［3］赫磊.基于云平台的智慧旅游信息推送系统研究［D］.西安:西安工业大学,2014.

［4］黄舒榕.基于JXTA的移动智能小区信息推送服务平台的设计与实现［D］.厦门:厦门大学,2014.

［5］刘海,卢慧,阮金花,等.基于“用户画像”挖掘的精准营销细分模型研究［J］.丝绸,2015,52(12):37-42.

［6］莫静泱.基于数据挖掘的用户个性化健康消费智能推送系统设计与实现［D］.南京:南京邮电大学,2015.

［7］肖锋,侯岳,王留召,等.基于LBS的智能信息推送技术研究［J］.测绘与空间地理信息,2015 (6):125-127.

［8］肖锋,侯岳,贾宝.情境建模下的LBS智能信息服务推送方法［J］.测绘通报,2016(4):96-98.

［9］余孟杰.产品研发中用户画像的数据建模——从具象到抽象［J］.设计艺术研究,2014，4（6）:62-64.

［10］何建云,陈兴蜀,杜敏,等.基于改进的在线LDA模型的主题演化分析［J］.中南大学学报（自然科学版），2015(2):547-553.

［11］周品.云时代的大数据［M］.北京:电子工业出版社,2013.

［12］张亮.数字图书馆多层次阅读扩展系统［D］.杭州:浙江大学,2010.

［13］ LDA math LDA ［EB/OL］.（2013-02-03）［2016-07-30］.https://www.baidu.com/link?url=7pX4p07QnrELNMnz Fp8w_tOVaZQjd_M_YCzHJ3K76EkWWlLdGHKTz7O0 BUQlsgOrp5zWAa87JtJ082036AWV_DTPWUPvUrK 0x9U8Wc44_&wd=&eqid=d0a6f0b80002a92f000000035672ad45.

［14］ GREGOR Heinrich. Parameter estimation for text analysis［R］.Darmstadt: Fraunhofer,2009:17-30.

［15］石岩.基于智能推送技术的个性化服务系统研究［J］.现代情报，2006，26(10):146-148.