分享

大数据背后的用户画像...

 昵称16619343 2017-05-15

大数据背后的用户画像

天火,数澜小鲜肉产品经理,曾在互联网电商、汽车后市场从事多年,对于电商系统和汽车领域的大数据具有深刻的见解。

1. 什么是用户画像

什么是用户画像呢?其实它是建立在一系列真实数据之上,抽象出来的一个标签化的用户模型,构建用户画像的核心工作就是给用户打上一系列标签,标签则是通过对用户信息进行分析挖掘出来的高度精炼的特征表示。就好像如果你经常购买一些玩具玩偶,电商可能就会给你打上一个“有小孩”的标签,甚至更精准的分析出你家里的小孩是男孩还是女孩,年龄是1到3岁,还是5到10岁,这一系列的标签便构成了你的用户画像。

2. 为什么能对用户画像建模

那我们为什么能对用户画像做一个建模呢?可以想象一个场景:周末的早上醒来后很无聊,A便拿起手机玩NBA的游戏,玩了10多分钟之后,又看了DOTA的视频直播,接着A想起来今天有事要出去一趟,就起床去洗漱,然后A化妆,穿上高跟鞋……

到现在为止大家心里可能会有一个疑惑,就是A的性别到底是什么?我们想的根源可能就在于描述了上面四个动作,第一个是NBA游戏,第二个是DOTA视频,接着是化妆以及穿上高跟鞋。一开始我们并没有提到A的性别,而我们在潜意识里已经开始对这个用户进行了建模。尽管我们不知道A确切是谁,叫什么名字。

同样,在计算机科学领域也可以对这种行为做一次建模,以下是数据流:

△ 用户画像的数据流

一个用户在网络媒介上做了一系列的行为,比如浏览了一些网站,下载App……这些行为都会形成数据,需要一系列的算法为它打上一个标签,我们要做的就是先给它打上一个标签,也就是对它的某一些属性做一些判断。这里就会有一个疑问,这个标签和用户真实的属性是不是一个匹配的程度呢?这是一个很重要的问题,我们来简单分析一下,一开始就拿最简单的行为来分析,一开始A玩了一个NBA的游戏,他产生了一个行为,根据这个行为,我们可能给他性别的标签打上男性,因为他潜在的模式说明用户某一方面的属性与他的行为是有很强的关联性的,也就是玩NBA的游戏和性别是男性的关联是非常强的(但是也有一些情况,比如喜欢攀岩这个标签的属性和性别的关连性就很差),所以有一些用户的一些行为和他的某一些属性的关联性非常强,就有可能产生一定的可逆,而这个可逆是我们给他打标签的基础所在。

但是有些时候,获得的数据特征不像刚刚说得那么明显,比如想要判断一个刚打开微信的人是男是女、多少岁显然不可能,因为他的行为只是一个中性的标签。如果很多中性的标签放在一起,有可能就是某种特别的组合。比如打开QQ,又打开微信,偏低龄化的可能性就多一些。这都是我们潜在的经验。我们通过个体的一系列数据就可以给这个个体打上比较贴切的标签,但是很多时候用一个人的数据,匹配度会比较低,这时候可以通过一个群体的整体数据来给这个个体打上标签。

我们在群体数据里面,主要是要挖掘群体后面的知识,加上我们已经有的知识来对个体进行标签的匹配,之前所说的同时打开QQ、微信可能是一个很简单、线性的潜在模式,但是很多时候我们的数据有很多很频繁的特征,很频繁的行为里就为后面隐藏了一个非线性的潜在模式数据关系。我们可以通过数据挖掘找出这种潜在模式,从而挖掘出这种个体行为与他某一种属性的关联度,这就是我们要通过大数据来挖掘出它背后非常重要、不易寻找的规律,这也是为什么用户画像和大数据关联度比较高。

3.确保数据的有效性

回到上面的数据链,从行为到数据进行建模,首先要保证真实,因为有一些数据并不是真实的,这些行为并不是用户主动触发的,这些行为产生的数据都是无效数据。比如某些行为是通过投广告的行为来促使用户完成的,那在建模中就要剔除出去的。第二就是数据到标签这一步,要保证有效性,保证根据数据生成的标签是有用的,也就是说有一些记录,比如你只是打开一条微信消息的记录,可能这个是非常没用的,根本判断不出任何的标签,这部分记录就要把它剔除掉,这样我们就可以通过比较完美的数据进行建模。整个过程,用户的属性和行为的可逆性越强,数据的特征越明显,通过标签的算法,我们就可以找出标签和用户的属性相匹配,就可以得到标签和用户匹配度非常高的准确率。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多