分享

如何从无到有搭建资讯类产品商业广告系统?

 产品经理是条狗 2017-08-31

本文是在总结了网上其他关于商业广告系统文章、以及个人对于商业广告使用的体验再结合产品工作经验得来。

如有侵权请及时联系我,如有错误请在下方评论会第一时间修正、共同进步;

如果是故意搞事情,那么我想说我是个产品经理,这个商业广告系统我就决定这样做了,你爱咋滴咋滴!

---------------------------------------------------------------------------

首先,对于资讯类产品而言,首先应该先确定用户动机,因为从用户的根本动机,我们才好做相应的推荐处理。

所以我们应该优先建立用户行为体系,依据用户行为,分析用户动机;不管是主动动机还是被动动机,之后提取这些动机特征,结合用户物理属性,再进行后处理。

再有要将特征值加以过滤,分配权重,结合衰减因子进行最终输出。最终输出的结果应该分为基本属性、用户兴趣、用户关系及用户行为,结合所有综合分析用户动机,在适时的时候推荐合适的广告从而形成推荐最佳化的最终目的,让用户愉快、准确的获取信息。

商业广告系统建立的基础是推荐体系的建立,辅助降噪系统;而推荐系统的建立在于用户体系的建立,辅助用户评估体系。

那么我们简单以今日头条为例:

构建用户体系,分析收集用户行为

1.明确用户分析的数据来源:

1.1. 频道定制:用户可以订阅自己感兴趣的频道(“今日头条”提供了社会、娱乐、政治、热点等48个频道),同时提供位置信息享受本地化新闻服务(还包含同城活动信息),而且“今日头条”也和微信一样开辟了自媒体平台,用户可关注自己感兴趣自媒体账号。

1.2. 个性化推荐:“今日头条”若在新闻标题最左方标注一个蓝色的“荐”字,则表示为是根据用户兴趣专门推荐的内容。“今日头条”的信息分发完全基于智能推荐,用户浏览、收藏、转发、评论每一条新闻的行为都会被记录,用户的阅读习惯、阅读时间、阅读位置也会被分析,两者结合形成“用户模型”。通过绑定社交媒体账号和大数据挖掘,后续还会根据用户使用产品的信息反馈(用户在“今日头条”上的“顶”、“踩”、“转发”、“收藏”等行为),不断进行算法的演进,用户分析越精准,推荐内容越来越精确。

1.3.个性化体验:服务性功能如“离线阅读”“同步收藏”“我的话题”“摘要模式”“阅读模式”“字体设置”都可以根据自己需求定制,体现了良好的用户体验。

2.用户体系的建立:

2.1 分析模型

由上图可知,我们应该依据已经成熟的用户行为,推断用户的动机因子,再推断至心里因素。实际来说是用户其实已经是带动机才打开APP,先依据有限的数据进行分析推荐,等有相关的行为之后,反推回去用户的动机,根据用户动机调整推荐内容,达到核心目的。

所以当我们记录了用户在任何情况之下的行为之后,反推回用户动机,进一步推回用户心里因素,依据心里结合喜好和行为,完成完美推荐。

前文理论中同样表明,是社会因素与心里因素决定动机,所以当行为习惯模型建立,社会因素已经量化的时候,只有心理因素是变量,那么我们也能分析出不同的心理因素,依据不同心理因素改变本次的推荐内容,我想应该会大大提升转化率,并且可能是目前头条产品所不具备的一个点。

结合常规的用户画像的相关属性,我们可以看到如下图(增加了购买):

所以两者,也就可以合并成为两条大的脉络,一条是实际,一条是内心,而我们是要依据实际行为猜测内心。

用户的浏览行为反映了用户的兴趣,两者之间的关系具有如下特点:

1. 不同年龄、性别、职业的用户偏好反映在用户对商品的浏览行为上;

2. 用户偏好具有动态转移性,将其反映在用户兴趣度上,即若用户偏好发生转移,则原来的兴趣度值减少;

3. 用户对感兴趣的商品会高频度地点击和浏览,假设用户对某种/某类商品的浏览时间越长、频率越高,顾客对该种/类商品越感兴趣,反映用户偏好的兴趣度值也会随之增加。

所以最终,我们会确定需要收集的量化数字,以代表行为的部分,反推分析,达到最终目标。

2.1 行为收集

一般情况下,动机拆分为媒介、社交和体验需求,分别代表的可能原因有:

● 媒介需求一般有:更新速度快、推送内容多;

● 社交需求一般有:社交性强、互动性强;

● 体验需求一般有:个性化推荐精准、智能搜索快速全面、操作方便、离线下载。

依据两种形式,主动行为和被动行为进行分类,主动行为就是用户主动自然操作,被动行为也就是APP人为增加拦截、问题、问卷等收集,所以整理一下我们通过不同动作需要收集的相关动作应该是,主动行为:

● 媒介:PUSH消息、打开时间;

● 社交:PUSH通知、分享、攒、回复、收藏、举报、等级;

● 体验:打开内容类型、内容载体、内容长度、历史搜索行为、历史打开偏好、间隔点击时间、滑动内容位置、阅读设置、下载缓存;

● 人口属性:年龄、性别、地区、收入、签名等;

● 周边场景:地理位置、网络环境、端、信号强度、耳机扬声器、高度等;

● 被动行为:增加拦截、询问兴趣区域、反馈、小问题、问卷、×、卸载等。

上面是通过用户行为获取的标签,还有一部分是用户物理属性,也就是如性别、地区、客户端、网络环境等属性,尽量收集全,并且每日收集,记录维度以登陆时间为维度。最终行为标签与物理标签相结合,综合展示于内容标签及用户标签系统中。之后,需要根据用户的标签体系,通过算法分析用户性格,性格会帮我们在之后的个性化产品中不去招惹用户,让每个用户获有满足感。

2.3 后处理

后处理一般有三个环节,过滤、权重、衰减因素。过滤一般指过滤提取的无效特征或干扰数据,权重一般根据不同的行为偏好等因素综合考量后进行调整,衰减一般要考虑到用户某个兴趣会随时间延长而降低,相关变量是用户点击频率和浏览时长,依据相关变量进行调整遗忘因子系数。

还有一点是利用自然范数梯度下降算法,来进行准确度的修正。从技术方面来说都已经相对成熟,也有成熟算法,不多做阐述。

用户体系建立后,用户被打上属于自己的标签。不同内容之间一定存在某种弱关联,弱关联的发现是通过内容标签背后的二维化体系支撑;但是关联侧重和确定选择,是通过用户层级标签来做到的,最终借此我们就可以相应的给一部分猜测,并给予惊喜推荐,完成超越用户所想的目的。通过弱关联,我们可以完成用户之间的相互推荐。

3. 用户评估体系

根据用户对推荐的显性或隐性反馈改进、优化原有用户模型,以确保模型能够匹配用户的最新偏好,从而提高模型精度和推荐质量。

3.1 评估维度

精确度的衡量最典型的算法是平均绝对误差(MAE)、平均平方误差(MSE)以及标准平均误差(NMSE)。平均绝对误差是所有单个观测值与算术平均值的偏差的绝对值的平均,用来衡量一组数自身的离散程度。有两个优点,第一是计算方法简单,易于理解,第二是每个系统的平均绝对误差唯一,从而能够区分两个系统平均绝对误差的差异,能更好地反映预测值误差的实际情况。

在有些系统中,用户只在意推荐列表前端的预测误差,而对系统的整体误差并不是很在意,这时也不适合采用预测准确度进行评估,后两种更适合用分类准确度度量系统的推荐质量,来衡量观测值同真值之间的偏差,说明样本的离散程度,可作为衡量测量精度的一种数值指标。

集合准确率、召回率和精确率也可以用来衡量推荐的准确度,准确率表示用户对一个被推荐内容感兴趣的可能性,召回率定义为推荐列表中用户喜欢的内容与系统中用户喜欢的所有内容的比率,精确率定义为推荐列表中用户浏览的内容与全部推荐内容的比率。

其中还有像多样性(平均海明距离)、分类准确度(ROC曲线)、排序准确度(平均排序分)、以及半衰期(半衰参数)的因素,之前也描述过用户的兴趣还好是在随着时间的不断推移而增强或减弱的。除此之外与用户直接相关的比如惊喜度、意外程度、覆盖率、新鲜感、用户满意度等指标仍可说明。

这些评估的获得手段一般从用户反馈、数据量化、长期观察和体验数据来获得,最终均要转化为量化指标来进行评估,例如使用时长、使用深度、打开比例等等,之后再进行拆解,某一指标与哪些行为相关,进行相关的行为追查,直接定位。

从而达到评估体系的核心意义,到底是好还是不好,如果不好问题在哪儿,定位后进行修正。这部分产品同学只要大概了解有什么方法,即可,具体的原理有算法团队来做,要都搞清楚太难了,已经涉及太多的数学内容,有兴趣的课余时间自己学习即可。

3.2 相关修正

目前采用的用户模型更新技术主要可以分成三类:一类是从用户反馈中抽取新信息添加到用户模型中的信息增补技术;一类是根据生态系统的优胜劣汰法则来优化用户模型的自然进化技术;还有一类是通过调整网络连接权重来自适应更新的神经网络技术。

信息增补技术

这是目前为止使用最多的一类用户模型更新技术。它又包括了直接的信息增补以及涉及权重调整的信息增补两种类型。前者将获取的用户对推荐的反馈信息直接添加到用户模型中,典型系统如GroupLens、Ringo、Video Recommender、PC Findert、WEBSELL等。这种更新只是简单地添加了新信息,并没有删除或削减无效旧信息在用户模型中的作用,因此很可能导致推荐阶段假阳性错误的出现,即将用户不喜欢的项目推荐给了用户。

而且随时间的推移,模型规模不断扩大,这带来了存储空间占用和模型维护问题。

相比之下,采用后者作为更新技术的系统,如LetiziatL、Personal Web Watcher、Webmate、Krakatoa Chronicle和WebCobral ,不仅将用户新的反馈信息(如新关键词)增加到用户模型中,而且还会调整用户模型中新、旧信息的权重,使反映用户最新偏好的新信息在推荐中起到更为重要的作用,同时无效的旧信息将随其权重的不断减小而最终从模型中被删除。

因此,含权重调整的信息增补技术从一定程度上缓解了直接信息填补存在的问题,但这类技术的性能很容易受到新信息选择方法和被增加的新信息数量的影响。

遗传算法

遗传算法是一种基于自然选择和遗传机理的迭代搜索优化技术,由适应度函数、染色体种群以及选择、交叉和变异三个主要操作算子组成。每一代种群包含了若干个个体(被称为染色体)。依据每个个体的适应度函数值,种群经过选择,交叉和变异操作一代代向更优良、更适应环境的方向进化,从而逐渐逼近最优解。使用遗传算法作为模型更新技术的系统。

通常将用户模型编码成一个染色体并随机产生其他染色体作为初始种群。当初始种群进化迭代到满足终止条件时,解码适应度最高的染色体来取代系统目前的刚户模型即可实现更新。还有一部分系统也使用遗传算法作为模型的更新机制,但这部分系统通过对信息收集代理而不是用户模型本身的优胜劣汰来间接实现模型更新。

当用户兴趣发生变化时,通过遗传进化,低性能的旧代理被消除,能直接满足用户新必趣或对用户及其他代理有用的代理得到繁衍。

基于遗传算法的更新技术从多个初始点(群体)而不是单点出发持续搜索可能的用户模型构成空间,因此是一种高效且能够最优化用户模型的更新算法。但是基于遗传算法的更新技术,其适应度函数和染色体编码方法要求针对每个问题专门设计。

神经网络技术

神经网络是一种自适应的更新技术。当用户偏好随时问发生变化时,神经网络将自适应地调整网络连接权重,更新网络输出的识别结果来跟踪这种变化。有的更新只在原有类别的基础上对新旧偏好信息进行分类调整,有的则建立新的识别类,并剪除代表过时知识的识别类来对应于用户新兴趣的兴起和旧兴趣的衰亡。

在这种情况下,神经网络的网络结构发生了变化,网络可能需要被重新训练来识别和记忆变化后的用户偏好。由于神经网络的更新依赖于前期神经网络的学习,因此通常只有以神经网络作为学习技术的系统才会用其作为更新技术。

3.3小结

本节阐述评估体系的建立,列举相关维度和相关动作等,并且列举相关的修正手段和简单介绍,以供在长期不断修正模型和算法,达到更好的效果,更全面优质的服务用户。

4. 推荐体系的选择

4.1 推荐方法

很明显,推荐方法和推荐算法是整个推荐系统中最核心、最关键的部分,很大程度上决定了推荐系统性能的优劣。目前,主要的推荐方法包括:基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。详细的方法介绍也放置在附录4当中以供参考,下面梳理出各方法的优劣:

在除去场景外,也要结合性能因素来进行考量,不同数据量级的情况下不同方法配合不同算法产生的性能压力也是不同的,需要结合公司自身承受情况进行选择。可以看出,以上方法均有不同程度的优势和劣势,所以目前主流推荐方法也几乎均采用混合推荐的方法,利用两种或多种方法之间的优势,规避劣势从而达成尽量完美的方法,这其中也一定是基于不同的使用场景和产品具体情况具体分析了。

4.2 推荐算法

这是整个推荐系统的核心区域,之前做的许多的工作其实都是在给推荐算法提供所谓的相关系数条件,当系数越多的时候,计算出的结果一定是更准确的。

从数学角度来说是计算用户与内容之间的相似度和距离,相似度越高,距离越近的,自然越容易达成转化,所以常见算法也就是向量里面的夹角余弦算法、皮尔逊系数,从距离来说会有欧几里得空间距离算法、曼哈顿距离算法等等,包括还有许多新进研究的算法例如基于图摘要和内容相似混合聚类的推荐算法GCCR。

简单介绍下GCCR,该算法可以极端稀疏的数据集上具有较高的准确度,同时在冷启动的场景下能够提供多样性的推荐结果,从而避免推荐结果收敛过快的问题。

首先,选取用户节点中关注数量较高的节点,从而抽取出稀疏数据中的一个密集子集,利用图摘要的方法,对此密集子集形成关注兴趣相似的核心聚类。

然后,提取种子聚类的内容特征和整个数据集中其它用户的内容特征,基于内容相似度对整个用户群进行聚类,最后将聚类结果用于主题推荐。通过对密集数据子集和全数据集的两阶段聚类过程,提高对极端稀疏数据集的聚类效果。同时,由于图摘要聚类中的类模糊性,可以在对用户兴趣聚类的过程中保留一定的多样性,从而避免冷启动时收敛过快。

所以当前算法非常的多,结合不同场景和产品选择最优算法,才是最好的,在附录5当中也列举了常规的一些距离算法以供参考。

4.3 运用思路

当运用于实际情况时,一定要结合产品自身情况考量,例如产品冷启动期间数据过少,用哪种方法,在数据量级充分上来的时候,减轻计算压力应该用哪种,长期需要修正的时候需要用哪种,都是需要我们综合考量的,下面也将自己梳理的整体推荐思路进行分享。

5.降噪系统

5.1 研究模型

“今日头条”用户的年龄,性别等人口统计特征和用户媒介偏好,自变量为“今日头条”用户的使用动机,中介变量为“今日头条”用户的使用态度,因变量为“今日头条”用户的使用行为。本研究的主要研究方向是利用使用态度这个中介变量研究使用动机(需求)对使用行为的影响。

5.2 控制变量

控制变量主要包括性别、年龄、教育程度、职业等人口统计学特征。

5.2.1 自变量——动机(需求)

根据“使用与满足”理论,用户是被看作有特定“需求”的个人,而他们接触媒介的活动被看作是基于某种特定的需求动机来“使用媒介”,最终使这些需求得到满足的过程。而这种特定的需求的产生,主要有两个方面:一个是社会因素,另一个是个人心理因素。

本研究从个人因素和社会因素出发,兼顾“今日头条”的用户体验(易用性、有用性)等方面,总结了用户使用“今日头条”的若干动机。本调查将用户使用今日头条的需求分为三个维度:媒介需求,社交需求,体验需求。

5.2.2 中介变量

本研究以用户对“今日头条”的使用态度(满意度)为中介变量。在理性行为理论和技术接受模型(TAM)中,中介变量包括两个方面:使用态度和行为意向。使用态度包含个人对某种使用行为所持的正面或负面的看法;行为意向反映个人从事某项行为的意愿。

但在社会心理学中,“态度”界定为个体对事物的反应方式,已经涵盖了行为意向的层面,通常体现在个体的信念,感觉或者行为倾向中。可见,“态度”已经涵盖了行为意向层面。所以本研究只以使用态度为中介变量,这里的“使用态度”是用户根据对“今日头条”的认知和使用经历对“今日头条”持有的正面或负面的看法。

5.2.3 因变量

因变量是“今日头条”用户的“使用行为”。这里的行为包括使用时长、使用频率、使用时间等问题。

5.3 统计分析

通过以下统计方法进行描述和分析:

● 统计描述分析(Descriptive Statistics):统计各变量的频数、比例、标准差和频率,来描述被测用户对“今日头条”的使用情况、使用动机、态度和行为等。

● 信度分析(Reliability Analysis):验证研究模型中的变量的信度分析,以衡量问卷的可靠性、一致性和稳定性。

● 相关分析(Correlation Analysis):用于分析两个或两组随机变量的关系,可以检测变量之间密切程度的一种统计方法。

● 交叉列表分析(Crosstabs):将两个或两个以上有一定联系的变量及其变量值按照一定的顺序交叉排列在一张统计表内,使各变量值成为不同变量的结点,从中分析变量之间的相关关系。

5.4 小结

在每天够后一定要有相应的review,评估之前广告的效果,结合浏览时间、打开比例、互动反馈、分享、投诉情况等综合考虑策略的优劣,快速调整。这个可以参考微信的朋友圈商业广告分发模式。

--------------

先更新一部分,后续整理中.....

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多