到底什么是数据偏差？关于处理数据偏差，我能给你的启示

徐润秋nlxepzt1 2022-02-13

展开全文

如果你也有一个愿景，确保你正在开发的产品遵循“AI for good”的所有书面规则，那么你肯定会遇到数据偏差的情况。

有偏差的模型、数据或有偏差的实施——是数据科学家日常中典型的困境。因此，首先我们需要了解并承认偏差存在并且可以采取任何形式。

是的，偏差是一个广义的术语，它可以存在于数据收集、算法，甚至 ML 输出解释阶段。

为什么偏差会造成伤害？

偏差可能会导致基于种族、年龄或性别等多种人类特征的机会获得不同的机会，应予以劝阻。

一个基于斯坦福大学的AI指数报告，AI / ML组织诠释以下风险，普遍的行业，并努力减轻这种风险，因为它们不利于他们的一般业务和人性化。

数据偏差可以有多种形式：

结构性偏差：数据可能存在偏差，纯粹是因为它可以处理结构性差异。与护士、厨师、老师同义的女性代表显然源自社会结构。

一家电子商务巨头试图建立一个招聘工具，以捕捉现有员工的细微差别，不用说，这是有偏差的。许多属性，如体育、社交活动、成就等，都是由机器挑选的，导致偏向于男性的工具。
数据收集：数据收集偏差的可能原因可能基于一天中的时间、人群年龄组、原籍国、阶层等。输入算法的数据应不断更新以反映真实情况我们生活的世界以及我们想要预测的世界的未来状态。
数据操作：删除没有附加标签的实例或缺少值的实例更容易。但重要的是要检查被消除的观察结果是否会导致特定于性别、种族、国籍和相关属性的数据被歪曲。
算法偏差：算法将学习数据模式建议它学习的内容。该算法要么反映普遍存在的偏差，要么反映我们最害怕的恐惧，放大它们。如果判断偏向于特定人群，机器也会从训练数据中学习。

算法中的偏差源于数据不是正确的代表，或者是源于存在主义的偏差。如果输入数据不平衡，那么我们需要确保算法仍然看到足够的少数类实例以在其上表现良好。

有多种方法可以实现数据重新平衡，主要方法包括合成数据创建或分配类权重，以便算法对每个对少数类做出的错误预测施加更高的惩罚。
实施偏差：所有 ML 模型都建立在训练和测试数据集应该属于相似分布的基本假设之上。在夏季数据上训练的模型可能具有不同的特征分布，因此不适合预测冬季的消费者行为。

只有当新数据与过去训练模型时观察到的数据相似时，模型才会发挥作用。不仅仅是实施，解释也可能有偏差。如果我们在追求分析算法输出的过程中，尝试叠加我们的信念并支持我们的（有偏差的）观点会怎样。