配色: 字号:
什么是算法偏差?
2020-03-18 | 阅:  转:  |  分享 
  
什么是算法偏差?CDA数据分析师出品2016年初,微软推出了AI聊天机器人Tay,该机器人旨在模仿好奇的少女的行为,并与Twitter用户
进行精巧的讨论。该项目将展示AI驱动的对话界面的前景和潜力。然而,不到24小时,无辜的Tay成为种族主义,厌恶女性主义者和大屠杀,
否认AI,再次揭穿了算法中立的神话。多年以来,我们一直认为人工智能不会受到人类创造者的偏见和偏见的困扰,因为人工智能是由纯粹的,严
格的数学逻辑驱动的。但是,正如Tay和其他一些故事所表明的那样,人工智能可能表现出与人类相同的偏见,在某些情况下,甚至可能更糟。这
种现象被称为“算法偏差”,源于AI算法的工作方式,并且随着软件在我们做出的每个决策中变得越来越突出而变得越来越成问题。算法偏差的根
源机器学习和深度学习是AI最受欢迎的分支,这是我们的软件偏颇的原因。深度学习算法取决于数据,其中很多。使用图像分类算法,为数以百万
计的带有标签的猫咪图片添加图像,它可以告诉您之前未看过的照片是否包含猫咪。为语音识别算法提供数百万个语音样本以及它们对应的书面单词
,它将能够比大多数人更快地转录口语。算法看到的标签数据越多,它执行的任务就越好。但是,这种方法的权衡在于,深度学习算法将根据训练数
据中缺少的或过于丰富的数据来开发盲点。例如,在2015年,Google的照片应用错误地将两只黑人的照片标记为大猩猩,因为该算法没有
经过足够深色皮肤图像的训练。在另一种情况下,选美大赛的AI法官大多选择白人参与者作为获奖者,因为它的培训是针对白人的图像进行的。这
些琐碎的案例可以通过在没有足够数据的区域为AI提供更多样本来轻松解决。在AI正在无休止的在线信息海洋中处理大量现有数据的其他情况下
,查找和应对偏差变得更加困难。一个示例是微软和波士顿大学的研究人员的一个联合项目,他们在单词嵌入算法中发现了性别歧视,该算法被用在
搜索引擎,翻译和其他依赖自然语言处理的软件中。在他们关于单词嵌入算法行为的发现中,有一种趋向于将诸如“编程”和“工程”之类的词与男
性相关联,将“家庭主妇”与女性相关联。在这种情况下,这种偏见根深蒂固,算法已自动从在线资源(如Google新闻和维基百科)中阅读和
分析了数千篇文章。例如,科技行业主要由男性主导。这意味着您更有可能看到男性名字和代词出现在工程和行政技术职位旁边。作为人类,我们承
认这是我们需要解决的社会问题。但是,对数据进行无心分析的算法得出的结论是,技术工作应该属于男性,并且不会将其视为行业缺乏多样性。以
Tay为例,与聊天机器人进行交互的Twitter用户比起进行有意义的对话更感兴趣的是教它讨厌的语音。再一次,不应该怪AI。罪魁祸首
是Twitter作为一种社交媒体滋生的普遍文化。为什么算法偏差是一个严重的问题?算法偏差并不是新事物。多年来,学者和专家一直在警告
它。但是,这次变得尤为重要的是,在我们制定的日常决策中发现了突出算法。以我们在上一节中介绍的词嵌入算法问题为例。这可能是为下一代招
聘软件提供动力的技术。不难想象,那些软件在寻找和选择编程工作的候选人时会歧视女性。例如,最近有单独的报告显示,谷歌和LinkedI
n平台都向男性展示高薪工作广告,而不是向女性展示广告。算法偏差可能在执法等其他领域产生更大的破坏作用。2016年,ProPubli
ca的一项调查发现,执法人员使用人工智能技术驱动的工具比白人更有可能宣布黑人有再犯的高风险。在某些州,法官依靠这种工具来决定谁留在
监狱中以及谁自由行走,有时自己不做进一步调查。类似的情况也可能发生在其他领域,例如贷款审批,而代表性不足的人将被进一步边缘化并被剥
夺服务。在医疗保健领域,人工智能正在大力诊断和治愈疾病,算法可能会伤害那些尚未将数据包含在训练集中的人群。实际上,如果不解决,算法
偏差会导致人为偏差的放大。在软件没有偏见的错觉下,人们倾向于相信AI算法的判断,而忽略了这些判断已经反映了自己的偏见。因此,我们将
毫无疑问地接受AI驱动的决策,并为这些算法创建更多有偏见的数据,以进一步“增强”自身。如何克服算法偏差?避免算法偏差的第一步是承认
人工智能的局限性。深度学习算法不是种族主义者,但我们是种族主义者,它们将弥补我们有意或无意存在的任何偏见。知道了这一点,我们需要采
取措施以确保我们提供给算法的数据是多样化的,尤其是在开发做出决策时可能会对直接或间接使用它们的人们的生活和健康产生严重影响的应用程
序时。有一些使用统计方法的工作来发现算法中的隐藏偏差。另一个必要步骤是,开发AI应用程序的公司对其产品更加透明。当前,大多数公司倾
向于将其算法的内部运作隐藏为商业秘密。这使得难以检查这些算法并找到潜在的痛点。我们还需要解决AI的黑匣子问题。当深度学习算法变得过
于复杂时,很难找到其决策背后的原因。不知道算法是如何得出结论的,这将使得很难找到和抵消有偏见的功能。在这个领域,包括美国国防部高级
研究计划局(DARPA)在内的多个组织也在牵头做出努力,以使深度学习算法可以接受审查或自行解释。归根结底,算法偏差是一个人为问题,
而不是技术问题,真正的解决方案是开始消除我们个人和社会生活各个方面的偏差。这意味着认可就业,教育,政治等方面的多样性。如果要修复算法,则应先修复自身。CDA数据分析师(CDA.cn)——真本事,心舒适!
献花(0)
+1
(本文系CDA数据分析...原创)