分享

召回机制下,如何解决召回“不精准”的问题。

 瓜爷耶 2022-09-07 发布于湖北

今天聊一下召回精准度的问题,先从新品老品那个好做谈起。

到底是新品好做,还是老品好做。

我想大家基本都会选择新品,认为新品有加权,容易来流量。

以前我也那么认为,但是现在我改变了自己的看法。

在目前的推荐式召回机制下产品不在老新,而在于谁能让系统精准“识别意图”。

新品感觉好做是因为新品是一张白纸,任你发挥。并不是新品有加权,而是新品期考核的指标相对简单,就是一些基础的精通质量分和人气分。

那么第一关就是点击率,这个已经强调了很多次了,这次我想通过算法运用实操刨析一下

系统精准识别意图的过程。

识别意图是人和货的交互,人就是消费者,货在这可以理解为查询词。

消费者通过查询词Query和本身身份识别两类信息来让系统识别意图。

在用算法细分说明的话就是系统会把你写的标题进行分词,通过分词器进行分词然后建立语法树进行词召回这是系统通过关键词相关性进行的词召回,但是系统把标题进行拆分后分词与分词之间的语义就被破坏了,要还原分词组合成关键词背后的语义就有了另一个算法:向量召回,向量的概念我就不说了,关注我的同学基本都有了一个大概的理解,那么向量召回其实就是把分词排列组合成的关键词的展现量点击反馈生成实数值然后通过Embedding技术进行向量表征通过相似度判断语义相似度。

简单理解向量召回算法其实就是一种计算机语言,通过空间向量的实数值代表计算机语言,表达计算机理解的语义相似度,通过语义相似度判断精准性,这个过程也是针对人脑自然语言进行的识别翻译。

那些说向量没有用的人,我不知道其用心,但我知道他一定不懂。

基本的召回机制都没懂,把召回机制简单的理解为召回相似人群就完了。

为了更精准的识别意图,除了进行词召回和向量召回多路召回的方式,最近系统还推出了实体识别,也就是知识图谱,三元组的概念。

三元组的组成就是实体,这里的实体如何理解,例如:标题进行分词后每一个单独的分词就是一个实体,系统会进行实体识别,把分词进行是品牌,品类还是属性还是颜色还是修饰词等等进行识别,实体与实体的组合就会形成三元组 也就是知识识别<实体,实体,实体>类似于主谓宾的结构完成的表达一个意思。

这里就有一个特别要注意的点就是:进行分词不精准,或者核心词识别不精准,下面的向量,和知识画谱 三元组就更不精准了。

何为分词不精准就用官方最代表性的例子《乒乓球拍卖完了》分词不同语义,《兵乓球,拍卖完了》;《乒乓球拍,卖完了》。

核心词不精准的经典案例:杨幂同款连衣裙,主题是杨幂还是连衣裙?

还有更可怕的是分词权重没有区分,直接改变三元组结构语义就彻底变了。

你只要看懂了这句话,你一定是刷单大神。

说到这,你感觉是做新品好还是老品好?

其实真的区别不大,如果一个没有被破坏的老品现在更容易起来,只是直接进入相对竞争的环境中进行爬坡,用什么策略有时候不是你说了算,要看真正的流失竞品说了算。

新品的最大机会在于她是一张白纸。

还有现在的活动!报活动就要预热,是不是大多电商人的基本常识;再看现在的活动事实和现在的竞争情况以及人群流转的速度,还有那些活动值得你去预热?

真的要分类目差异对待。

此一次彼一时,你的基本认知常识可能恰恰就是你现在做不好的最大障碍。

我现在的看法,七八月反而是电商人最好的弯道超车的机会。

召回机制下核心首要是“精准识别意图”

分词不精准,核心词不精准都会影响识别精准度,那么召回的流量更别提了,但是各位同学,分词的不精准是什么原因?

除了一些基础类似于紧密型原则,分词粒度,最大因素是不是不该碰的分词你给了权重,影响了精准度。

标签锁定展现范围,影响展现精准度。

其实战不就是在控制分词权重吗?

分词排列组合展现点击反馈决定“向量”精准度。

向量精准度决定语义相似度进行相似语义人群召回

分词进行实体识别,通过实体识别让分词组合更精准的组合方式-----三元组。

通过三元组把语义和语义关系表达更精准,从而进行精准召回。

精准识别语义也就精准识别意图,其核心怎么理解“分词权重”!

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多