分享

到底什么是数据偏差?关于处理数据偏差,我能给你的启示

 徐润秋nlxepzt1 2022-02-13
如果你也有一个愿景,确保你正在开发的产品遵循“AI for good”的所有书面规则,那么你肯定会遇到数据偏差的情况。

有偏差的模型、数据或有偏差的实施——是数据科学家日常中典型的困境。因此,首先我们需要了解并承认偏差存在并且可以采取任何形式。

是的,偏差是一个广义的术语,它可以存在于数据收集、算法,甚至 ML 输出解释阶段。

Image

为什么偏差会造成伤害?

偏差可能会导致基于种族、年龄或性别等多种人类特征的机会获得不同的机会,应予以劝阻。

一个基于斯坦福大学的AI指数报告,AI / ML组织诠释以下风险,普遍的行业,并努力减轻这种风险,因为它们不利于他们的一般业务和人性化。

Image

数据偏差可以有多种形式:

  • 结构性偏差:数据可能存在偏差,纯粹是因为它可以处理结构性差异。与护士、厨师、老师同义的女性代表显然源自社会结构。

    一家电子商务巨头试图建立一个招聘工具,以捕捉现有员工的细微差别,不用说,这是有偏差的。许多属性,如体育、社交活动、成就等,都是由机器挑选的,导致偏向于男性的工具。

  • 数据收集:数据收集偏差的可能原因可能基于一天中的时间、人群年龄组、原籍国、阶层等。输入算法的数据应不断更新以反映真实情况我们生活的世界以及我们想要预测的世界的未来状态。

  • 数据操作:删除没有附加标签的实例或缺少值的实例更容易。但重要的是要检查被消除的观察结果是否会导致特定于性别、种族、国籍和相关属性的数据被歪曲。

  • 算法偏差:算法将学习数据模式建议它学习的内容。该算法要么反映普遍存在的偏差,要么反映我们最害怕的恐惧,放大它们。如果判断偏向于特定人群,机器也会从训练数据中学习。

    算法中的偏差源于数据不是正确的代表,或者是源于存在主义的偏差。如果输入数据不平衡,那么我们需要确保算法仍然看到足够的少数类实例以在其上表现良好。

    有多种方法可以实现数据重新平衡,主要方法包括合成数据创建或分配类权重,以便算法对每个对少数类做出的错误预测施加更高的惩罚。

  • 实施偏差:所有 ML 模型都建立在训练和测试数据集应该属于相似分布的基本假设之上。在夏季数据上训练的模型可能具有不同的特征分布,因此不适合预测冬季的消费者行为。

    只有当新数据与过去训练模型时观察到的数据相似时,模型才会发挥作用。不仅仅是实施,解释也可能有偏差。如果我们在追求分析算法输出的过程中,尝试叠加我们的信念并支持我们的(有偏差的)观点会怎样。

虽然偏差是我们追求合乎道德的 AI 框架时需要修正的因素之一,但减轻它肯定不是一件容易的事。

构建“AI for good”生态系统的一些重要方面是:

  • 数据收集者、开发者和产品经理一般都是在该领域工作并且更接近数据的人。对于组织而言,重要的是要提高员工的敏感度并传播有关偏差的可能原因以及如何减轻偏差的意识。

  • 拥有一位擅长识别偏差来源的专家(AI Ethicist)可以帮助企业将其愿景与道德框架保持一致。

  • 由来自隐私、道德和合规、产品和工程等不同团队的人员组成的治理团队将有助于提供全新的视角来识别可能被忽视的偏差。

没有任何一本规则书可以同时阅读和实施,这永远是一个不断发展的框架。

此外,值得称道的是,维护一个公正、公平和值得信赖的 AI 框架的努力不再被视为深奥的,并在全世界引起了适当的关注。

本文转载来自:https:///handling-data-bias-9775d07991d4

作者:Vidhi Chugh

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多