【原】实践出真知，无偏差机器学习｜Mixlab人工智能 | MixLab人工智能

Mixlab交叉学科 2020-11-08

展开全文

在工业界

使用机器学习来提升商品总销量（GMV），在算法开发时，使用的是离线的数据集及评价指标，在算法上线后，通过实时数据进行评估。

这里有两个挑战：

挑战一：算法线上表现和公司商业表现的关系尚不清楚。一个模块（如推荐系统）更好的线上表现可能并不能使公司盈利增加，因为它可能同时导致其他模块（如搜索）的表现下降。

挑战二：我们无法直接使用线上表现的标签训练机器学习模型。这是因为正在训练的模型和已经上线的模型在预测上的不同带来的偏差。

如何无偏差地利用，已经上线的模型搜集到的数据，去离线场景下训练新的模型，也是一个因果机器学习中重要的问题，这个问题又被称为无偏差机器学习。

例如，搜索中，排在前的网页被点击得更多，用户点击网站有两个先决条件，用户看到网站，同时还喜欢网站，如果排序算法对网站的评分，没有考虑当前网页排名带来的影响，就会在评估时有偏差。然而推荐算法真正想提取的，是用户喜好的信息。

而相比传统的网页搜索，电商网站的搜索结果，往往会以二维的网格呈现，这使得电商搜索数据呈现带来的偏差与传统的网页搜索相比，变得更为复杂，为此在通过用倾向性得分 (Inverse Propensity Scoring) 来对标签进行加权。去校正选择性偏差前，需要根据离线数据或者在线随机实验，评估每个标签（点击或者购买）对应的倾向性得分。