【原】使用 MinDiff 框架减轻 ML 模型中的不公平偏见

雨夜的博客 2021-10-08

展开全文

机器学习 (ML) 的负责任研发可以在帮助解决各种社会挑战方面发挥关键作用。在谷歌，我们的研究反映了我们的人工智能原则，从帮助保护患者免受用药错误和改进洪水预测模型，到展示解决产品中不公平偏见的方法，例如谷歌翻译，并为其他研究人员提供资源来做同样的事情。

负责任地应用机器学习的一大类是分类任务——将数据分类为标记类别的系统。在 Google，我们在整个产品中都使用此类模型来执行政策，从检测仇恨言论到适合年龄的内容过滤。虽然这些分类器具有重要的功能，但它们的构建方式也必须最大限度地减少对用户的不公平偏见。

今天，我们宣布发布MinDiff，这是TF 模型修复库中提供的一种新的正则化技术，用于在训练 ML 模型时有效且高效地减轻不公平的偏见。在这篇博文中，我们讨论了这项技术背后的研究，并解释了它如何解决我们在将其纳入 Google 产品时所观察到的实际限制和要求。

分类器中的不公平偏差

为了说明如何使用 MinDiff，请考虑一个产品策略分类器的示例，该分类器的任务是识别和删除可能被视为有毒的文本评论。一个挑战是确保分类器不会对来自特定用户组的提交产生不公平的偏见，这可能导致从这些组中错误地删除内容。

学术界为 ML 公平性奠定了坚实的理论基础，就不公平偏见的含义以及评估公平性的不同框架之间的紧张关系提供了广泛的观点。最常见的指标之一是机会均等，在我们的示例中，这意味着测量和寻求最小化组间误报率(FPR) 的差异。在上面的例子中，这意味着分类器不应该更可能错误地从一个组中删除安全评论而不是另一个。同样，分类器的假阴性率应该在组之间相等。也就是说，分类器不应该比对另一组更多地错过针对一组的有害评论。

当最终目标是改进产品时，重要的是能够将不公平偏见缓解措施扩展到许多模型。然而，这带来了许多挑战：

稀疏的人口统计数据：关于机会平等的原始工作提出了一种针对该问题的后处理方法，包括在服务时间为每个用户组分配不同的分类器阈值以抵消模型的偏差。然而，在实践中这通常是不可能的，原因有很多，例如隐私政策。例如，人口统计数据通常由用户自行识别并选择加入，但有些用户会选择这样做，而其他用户可能会选择退出或删除数据。即使对于过程中的解决方案（即改变模型训练方式的方法），也需要假设大多数数据不会有相关的人口统计数据，因此需要有效地利用少数几个已知人口统计数据的例子。
易用性：为了广泛采用任何技术，它应该很容易融入现有的模型架构，并且对超参数不高度敏感。虽然将 ML 公平原则纳入应用程序的早期方法利用了对抗性学习，但我们发现它在训练期间过于频繁地导致模型退化，这使得产品团队难以迭代并使新产品团队变得谨慎。
质量：消除不公平偏差的方法也应该尽可能少地降低整体分类性能（例如，准确性）。由于缓解方法导致准确性的任何下降都可能导致审核模型允许更多有害评论，因此达到正确的平衡至关重要。

MinDiff 框架

我们在前几年迭代开发了 MinDiff 框架来满足这些设计要求。由于人口统计信息很少为人所知，因此我们使用过程中方法，其中模型的训练目标增加了一个专门针对消除偏差的目标。然后在具有已知人口统计信息的小数据样本上优化这个新目标。为了提高易用性，我们从对抗性训练切换到正则化框架，该框架会惩罚其预测与非有害示例的人口统计信息之间的统计依赖性。这鼓励模型在组间均衡错误率，例如，将无害示例分类为有毒示例。

有几种方法可以对预测和人口统计信息之间的这种依赖性进行编码。我们最初的 MinDiff 实现最小化了预测和人口统计组之间的相关性，这基本上优化了预测的平均值和方差在各组之间相等，即使之后分布仍然不同。此后，我们通过考虑最大平均差异(MMD) 损失进一步改进了MinDiff ，这更接近于优化独立于人口统计的预测分布。我们发现这种方法能够更好地消除偏差并保持模型准确性。

file