【算法新闻】用户画像标签体系

地球知识年鉴 2024-02-29 发布于辽宁

展开全文

1.结构化数据和非结构化数据

所谓“结构化数据”，是指数据的存储、呈现、运算和管理等按照预先设定好的格式进行规范进行。结构化数据依赖于数据模型，数据模型对业务数据的类别实现规范化，用于业务数据的记录、存储、处理和访问。建立数据模型包括定义哪些类型的数据以及数据的哪些属性需要进行何种存储和处理。

“非结构化数据”则是指不具有预定义的数据模型或无预定义格式的数据，例如：照片、图像、视频、流式数据，网页、PDF文件、博客等等。由于此类数据格式的不规则的内容上的模糊性，传统的数据管理软件和程序并不能很好地对其进行分析和处理。

“半结构化数据”介于结构化数据和非结构化数据之间，其数据具有一定的结构，即可以使用标签或其他类型的标记方式识别出来半结构化数据中的特定元素，但是数据本身并不具备严格的结构，因此缺乏结构严谨的数据模型。

2.结构化标签用户画像

（1）基本信息表

用户的基础信息，系统保存用户注册信息时将系统分配的用户账号作为用户的唯一身份标识，同时保存用户的姓名、性别、电子邮箱、生日、城市、国别等等。而当系统用这样的数据模型来存储用户基本信息时，就完成了用户信息的结构化存储，数据表的每一项数据属性都是用户的一个标签。

（2）补充信息表

第二项：每个用户每天登录系统的次数各不相同，体现出用户对系统的喜爱程度和用户黏性。第三项数据记录用户最近一次浏览内容的类别，比如用户查看的是财经新闻，体育新闻还是历史故事等，这些都是刻画能力很强的个性化数据。第四项到第六项记录用户在最近一段时间内最感兴趣的了别，体现个性化浏览兴趣。第七项记录用户在算法推荐系统的平均驻留时间，即平均每次使用系统的时间，同样可以体现用户对系统的喜爱程度和用户黏性。

（3）细化信息表

在扩展信息表的基础上，还可以进一步细化不同类别用户的标签。例如对用户的兴趣类别进行细化。

（4）结构化用户画像的优势和劣势

结构化用户画像的优势包括几个方面：

首先，结构化数据模型严谨规范，数据的语义准确。

其次，业界有多种标准化的数据库应用软件支持结构化数据上的这种运算操作，如增加数据、删除数据、修改数据和查找数据等，并且提供优化性能，提高处理速度、保护数据安全等系统化提升运营效率的手段，帮助算法推荐系统提高服务水平和服务质量。

结构化用户画像的劣势体现在以下几个方面：

首先.结构化管理数据的方式能捕获的信息是有限的，只能局限于算法推荐系统已经设计好的数据表包含的数据属性，专用性比较强，但数据具有局限性。

其次，可记录信息的有限性导致了系统的可扩展性较差。

最后，由于算法推荐系统在初期不可能设计完备的数据模型，因此在系统投入运营之后，随着对用户行为的深入了解，系统分析人员需要不断识别出更多的数据并更新至数据模型，提高对用户的刻画能力。

3.非结构化用户标签

（1）非结构化用户画像模型

对算法推荐系统的非结构化标签用户画像进行抽象可以得到一种通用的表达格式:

{用户ID：标签1，标签2，标签3……}

（2）非结构化标签的权重

标签的权重值来更能集中地刻画在一段时间内用户的特征及其兴趣。

首先，从时效性上，依据用户近期行为获得的用户标签相比较依据用户历史行为获得标签，其重要性更高。

其次，从个性化的角度来说，每个用户都是不一样，越是能将一个用户有效地区别于其他用户的标签，其重要性也就越高。

（3）非结构化用户画像的优势和挑战

非结构化用户画像的优势包括以下几个方面：

首先，相对于结构化数据而言，非结构化数据的可扩展性更强。由于不会限制用户标签的数量和类别，因此捕获到用户的新标签时系统可以及时地给用户添加新标签，并且通过调整权重来体现新标签的重要性。

其次，基于良好的可扩展性，在用户级别对标签进行更新和修改并不需要系统级的修改，因此，用户画像可以及时地得到更新，系统的时效性更好。

最后，随着标签数量增长和权重的及时更新，对用户的刻画都是个体级别的表述，因此对用户级的刻画能力更强，应用场景也更广泛。

使用非结构化用户画像面临的挑战体现在以下几个方面：

首先，使用非结构化用户画像时系统需要维护和管理的数据量更大，其计算量较之结构化数据也有所增加。对于结构化用户画像而言，表述用户的数据维度是确定的，因此数据量与用户数量呈线性相关。而非结构化用户画像中，每个用户的标签数目各不相同，并且通过一个用户会具有成百上千个标签，对于千万或亿级用户的系统而言，获取和分析所有用户开行为并完善用户画像的运算量将是非常大的。

其次，巨大的数据量需要有效的计算机制来支持，因此，非结构化用户画像对算法和硬件要求更高。

4.非结构化用户画像的计算和更新策略

一般来说，算法推荐系统采取的策略是进行定期的数据维护和更新。例如，以天、周或者月为单位采集一个周期内用户的行为数据，对用户画像进行标签更新。这种更新策略称为增量式更新。

①全新标签：如果本周起从某个用户的行为数据中提取出了新的标签，则需要把这些标签加入这个用户的画像里边。从时效性的角度，全新标签代表了用户近期关注的兴趣类别，其权重可以适当地设置得更高一点。

②已有标签：对于本周期用户行为数据中出现的原用户画像中已有的标签，由于用户在最近一个周期仍然体现出对这些标签对应的内容的兴趣，其权重也可以有适当的提升，但是提升的幅度可低于新标签。

③去掉未出现的已有标签：由于用户在本周起的增量行为数据并未包含这些标签，可以考虑直接把未出现的已有标签从用户画像中删除。

④降低未出现的已有的标签之权重：由于用户在一个计算周期内的行为数据未必能覆盖其全部的兴趣类别，因此直接删除用户画像中的本周起未出现的已有标签可能会导致对用户特征表述失真，可以考虑把这些标签的权重降低，体现出其时效性的降低，同时在整体对用户的特征仍保留一个更全面的画像。