分享

评估:识别和测量AI风险 | 远望译品

 小飞侠cawdbof0 2023-08-27 发布于北京


评估:识别和测量AI风险

本文摘自《推进人工智能(AI)问责制》| 远望译品

图片

一旦定义了AI系统的范围、情境、参与者和评估标准,就有必要评估其可能带来的风险,这些风险可能导致AI系统不可信。这个流程包括识别或发现风险、分析可能导致这些风险发生的机制,并评估其发生的可能性和严重程度。

本节概括了评估可信AI中的概念、过程和措施,其中一些内容在不同程度上与多项原则有关联。例如,因为“准确性”可能影响生产力,进而与“造福人类和地球”原则相关;作为系统层面评估标准,也可能与“鲁棒性和安全性”相关。为了避免重复,这种多方面的概念和措施将在其最相关的原则下出现。


1 造福人类和地球


    图片   


引导AI的发展和使用,使其造福人民和地球至关重要。可信AI可以促进包容性增长、可持续发展、社会福祉和全球发展目标的实现。在教育、健康、交通、农业、环境和可持续城市等领域,AI可以用于社会福祉,并为实现可持续发展目标(SDGs)做出贡献(OECD,2022)。 

在整个AI系统的生命周期中,AI参与者和利益相关者可以、并且应该促进具有适当安全保障的AI的发展和部署,以实现有益的结果。跨学科、多利益相关者的合作和社会对话有助于对这些有益结果进行定义、有助于以最佳方式实现这些有益结果(OECD,2022)。

确保AI系统造福人类和地球意味着:评估和改善其性能、准确性及可持续性,还应包括对经济包容性和社会福祉的下游风险进行评估。相关概念包括:

l准确性:指的是AI系统执行其开发任务的能力,例如将信息归类到正确类别,或进行验证后的预测和推荐。可以通过错误率或类似于'预期的泛化性能'(Arlot和Celisse,2010)指标来量化系统的准确性。提高系统的准确性和性能可以提高生产力、促进经济增长,从而可能增进福祉(例如通过改善与健康相关的因素)并降低财务和环境成本。

l可持续性:近年来,用于训练AI模型的计算能力呈指数增长,影响到数据中心的工作负荷和能源消耗。一方面,数据科学和AI芯片制造的进步以及新型的计算架构使得更高效的AI模型成为可能,这些模型可以利用较小的训练数据集并进行较少的训练运行,使得计算资源得到更加可持续的使用。同时,算力也受益于数据中心清洁能源供电的增长(Strier、Clark和Khareghani,2022)

另一方面,就通用AI(包括大型语言模型(LLMs))和特定目的AI之间的权衡仍在进行中。LLMs需要大量的训练数据和计算能力,并且比特定目的AI消耗更多能源。因此,应该权衡好高能耗和AI系统所带来益处之间的关系(Bender等,2021)。

l社会福祉和经济包容性:在适当的情况下,AI参与者应该评估其AI系统可能对社会福祉和经济包容性产生的下游影响,包括对弱势人群(尤其是儿童和弱势群体)的影响和负外部性,以及对就业质量和自动化潜力的影响。


2 以人为本的价值观和公平性


    图片   


AI应该基于以人为本的价值观进行开发,包括人权、基本自由、平等、公平、法治、社会正义、数据保护和隐私、消费者权益和商业公平 (OECD,2022)。

一些AI系统的使用对人权产生影响,包括人权(如《世界人权宣言》中所定义的)和以人为本的价值观可能会被故意或者意外侵犯的风险。因此,在AI系统中推广“权利和价值观的一致性”(即设计中采取适当的保障措施)非常重要,包括适应环境的人类干预、监督和救济的能力。这种方法可以确保AI系统在运行过程中保护和促进人权,并与以人为本的价值观保持一致。遵循民主价值观可以增强公众对AI的信任,并支持其在减少歧视或其他不公平以及不平等方面的应用 (OECD,2022)。

人权影响评估(HRIAs)、人权尽职调查、人类决策以及人类参与AI过程(即“人在回环”方法)、道德行为准则、质量标签和认证等措施在促进以人为中心的价值观和公平性方面起到了作用(OECD,2022)。对这些措施的三类AI风险包括:(1)偏见和歧视风险;(2)隐私和数据治理风险;以及(3)对其他人权和民主价值的风险。

偏见与歧视

AI系统可能会持续传递偏见、排斥,并对弱势和少数群体产生不平等的影响,例如少数族裔、儿童、老年人以及教育水平较低或技能较低的人群。在某些训练数据集中,女性的边缘化也可能导致输出偏倚的结果。由于缺乏低收入和中等收入国家的特定数据来训练AI系统,且因为这些国家在整体AI产业中的边缘化,不平等影响带来的风险尤为显著。公平意味着AI应当赋予社会中的所有成员权力,并帮助减少偏见和排斥。 在整个AI系统的生命周期中,发现偏见是一项具有挑战性的任务(见框3.1)。偏见的来源包括(IDB-OECD,2021;Barocas和Selbst,2016):

l历史偏见:训练数据中现有的模式,例如社会偏见。

l表征偏见(和有限特征):由于缺少属性、样本量不足或子群体数据完全或部分缺失而导致的信息不完整。

l测量偏见:在模型中省略(或包含)应该(或不应该)包含的变量,包括作为受保护属性或群体的替代指标(例如,将社区作为种族的替代指标)。

l方法学和评估偏见:在度量指标的定义(例如,对目标人群的错误假设)、模型验证和校准以及结果评估方面出现的错误。

l监控偏见和样本偏差:在监控过程中对系统结果解释不恰当,初始偏见随时间累积并偏向于训练数据,或者数据捕捉方式临时发生变化。

l反馈循环和流行度偏见:推荐算法容易受到流行度偏见的影响,即少数热门项目会频繁推荐给用户。这会形成反馈循环,频繁推荐的项目会得到更多的反应,从而被更频繁地推荐。

3.1 错误、偏见和噪音的技术注解

系统误差是模型预测值与正在估计的变量的真实值之间的差异。偏见是指:错误在系统性地偏向于特定的数据子集或特定的亚群体。例如,如果某个变量的预测值在数据中的某个亚组中始终较低,例如女性在同等资质的情况下与男性在等价职位上的薪资,那么该薪资变量存在偏见。相反,噪音是指错误是随机的。

来源:IDB-OECD (2021[21]).

不同的利益相关者对公平和公正有不同的观点,在作为社会技术系统的AI应用中,需要超越技术专家的专业知识来诊断和减轻偏见(OECD,2022年)。个体公平意味着类似的个体应该被类似地对待;而群体公平意味着如果将人口分为不同的群体(例如通过群体的受保护属性分类),那么AI系统的结果不应该有所不同。

一系列重要的文献领域致力于实施数学公平度指标,来评估模型对亚群体的公正性(IDB-OECD,2021;Chouldechova,2017;Kleinberg、Mullainathan和Raghavan,2016;Corbett-Davies等,2017;Koshiyama等,2021)。不同的公平度指标导致了对系统中的偏见的评估方式有所不同。例如:

l机会平等:是否属于受保护群体并不影响AI系统的输出。这一概念常用的数学术语为平均差(Bellamy等,2018年)。 

l结果平等或统计平等:受保护群体(例如性别或种族)的每个分段必须获得相同输出比例。普遍接受应用于这一概念的数学术语为统计均等差异(Bellamy等,2018年)。 

l反事实公正:如果在受保护属性的值发生变化时(例如在种族或性别发生变化时),AI系统的输出保持不变,认为该系统是公平的。

选择AI公平度量标准时,应该考虑到使用情境,并且选择的理由应该存档(IDB-OECD, 2021[21])。实际上,适用于所有问题的单一AI公平度量标准并不存在。而且,遵守某个定义通常意味着,无法完全遵守其他定义(Chouldechova, 2017[23])。因此,遵守给定的公平度量标准并不一定能保证AI系统的结果是公平的。

隐私和数据治理

除非与人权、基本价值观和民主价值观一致,否则AI系统可能会引发或加剧权力和信息获取的不对称性,例如雇主和员工、企业和消费者、政府和公民之间的不对称性(EU-HLEG, 2019)。

当AI系统涉及知识产权时,必须保护系统模型及其参数的知识产权。此外,在医疗应用和其他应用中,训练数据的隐私需要得到保护。AI系统中的数据保护指的是防止暴露模型及其训练数据的(De Cristofaro, 2020[29])。应建立数据治理机制,以确保用于训练模型的数据的质量和完整性;数据在系统部署环境中的相关性;数据访问协议;以及模型处理数据的能力,以保护隐私和敏感信息。包括:

l隐私和数据保护:AI系统在其生命周期内应尊重隐私和数据保护(OECD, 2019),包括用户提供的信息和通过与系统互动生成的用户数据。还应该制定数据访问和处理协议,明确谁可以访问和删除数据,以及在哪些情况下可以这样做(Butterworth, 2018)。 

l模型安全性:可以根据以下几个方面来评估AI模型的安全性和隐私性:(1)恶意行为者可能拥有的访问级别,从“黑盒”(即对模型没有任何了解)到“完全透明”(即对模型及其训练数据有完全的信息);(2)攻击可能发生的阶段(例如实在AI训练期间还是推理期间);以及(3)是否可能发生出于“好奇”被动型攻击或完全恶意的主动型攻击(De Cristofaro, 2020)。

隐私和数据治理的风险可能在数据和模型层面上产生,也可能在二者的交叉点上产生,同时在人类和AI系统之间的交互过程中也可能产生。评估这些风险的方法包括: 

l数据层面:数据保护影响评估是评估风险的标准程序(Bieker等,2016)。这一程序在一些法域中已被法律正式化,包括欧盟和英国(图3.1)。评估应考虑到数据污染的风险,即训练数据被恶意操控以影响模型行为(Tan和Shokri,2019)。 

l模型层面:模型层面上的隐私和数据保护风险包括试图推断模型参数并构建“仿冒”版本或副本的尝试。旨在提取模型的完整副本或等效版本,或复制其某些功能的技术可以帮助AI从业者评估模型层面上的漏洞(Ateniese等,2015;Tramèr等,2016;Orekondy、Schiele和Fritz,2019)。

l数据和模型层面的交叉点:风险包括通过与模型的交互对人口或训练数据集中某些成员进行推断。评估漏洞程度的技术包括:统计披露(Dwork和Naor,2010);模型反演(Fredrikson、Jha和Ristenpart,2015);推断类别代表(Hitaj、Ateniese和Perez-Cruz,2017);以及成员资格和属性推断(Shokri等,2017;Ganju等,2018;Melis等,2019)。 

l人类与AI的交互:培训、清单和验证过程可以帮助识别由开发者或用户的无意行为或缺乏行为引起的隐私和数据治理风险,从而影响了人类和系统之间的交互。

图片

图3.1. 英国信息专员办公室(ICO)对数据保护的定性评级

基于颜色编码的对AI系统在数据层面上对隐私和数据治理的风险进行评估

来源:ICO (2022[42]).

先进的隐私增强技术(例如同态加密、安全多方计算和差分隐私)以及新型的训练方法(例如使用多个组织的数据进行联邦机器学习)可以用来保护AI系统并增强其隐私性(OECD, 2022[20]; De Cristofaro, 2020[29])。这些减轻措施的影响根据情境和其他变量而异,需要在系统级别进行测试。此外,新兴的数据治理模型(如数据共享池、数据合作社和数据信托)可以帮助预防隐私风险并促进数据治理的民主化(Micheli et al., 2020[43])。

人权和民主价值观

AI“可能在社会和经济内部以及不同社会和经济之间产生不均等的效应,特别涉及经济变动、竞争、劳工市场转型、不平等以及对民主和人权、隐私和数据保护、数字安全的影响”(OECD,2019[5])。AI既可以支持实现人权,也可能创造新的风险,使人权可能被故意或意外地侵犯。人权法律,结合其他法律和制度结构,可以作为一种工具,帮助确保以人为本的AI(信息框 3.2)。

3.2 人权与AI

国际人权是指包括《国际人权公约》在内的一系列国际法律,以及在过去70年里在世界各地发展起来的地区人权体系。人权设立了基于人的尊严、自治、平等和法治等价值观的普遍最低标准。这些标准以及与之相关的法律机制为各国创造了具有法律约束力的义务,要求它们尊重、保护和履行人权。国际人权还要求那些被剥夺或侵犯权利的人能够获得救济。

近期的政府间法律文书,如联合国(UN)《企业和人权导则》(OHCHR,2011[44]),也涉及私人行为者在人权背景下的责任。这些文书赋予私人行为者尊重人权的责任。此外,经济合作与发展组织(OECD)针对跨国企业的《OECD跨国企业指南》(OECD,2011[45])也包含了关于人权的章节。

具体的人权包括平等、非歧视、言论和结社自由、隐私以及经济、社会和文化权利,如教育或健康。人权还与更广泛的伦理关切和与AI相关的其他法规领域重叠,如个人数据保护或产品安全法。然而,这些领域的范围通常不同。

来源:OECD (2019).

人权框架为发现和管理AI对人权的风险创造了义务,包括边缘化和弱势群体的权利。这可以通过人权尽职调查(如人权影响评估)来实现。人权影响评估可以识别AI系统生命周期中参与者未能预见的风险。为此,它关注的是人权的附带影响,而不是技术或其输出的优化。人权影响评估或类似的风险管理过程可以在AI系统的整个生命周期中通过设计来确保对人权的尊重(OECD,2019[46])。应在每个生命周期阶段和系统的环境、范围、性质和目的发生变化时进行定期的人权影响评估(欧洲理事会,2019[47])。

人权影响评估(HARIA)的实例包括加拿大的算法影响评估(AIA),这是加拿大财政委员会关于自动化决策的指令的强制性工具,以及荷兰议会对任何旨在支持公共和私营部门决策的算法强制实施的“人权与算法”(IAMA)影响评估。此外, OECD AI系统分类中有关“造福人民和星球”这一部分囊括了一个样本清单,用于评估AI系统对福祉、选定的人权和民主价值的潜在影响(OECD,2022)。

人权影响评估还应评估由数据标注和数据丰富实践引发的风险。多项研究(Gray和Suri,2019;PAI,2021)强调,数据丰富实践中,劳工的采集和执行条件通常缺乏透明性,从而可能导致对工人的不当对待。这是与AI行为者的问责制直接相关的问题,也会影响到训练数据的质量。丹麦人权研究所的指导和工具箱说明了如何使用人权影响评估来评估和解决商业活动对人权的负面影响。

在考虑与人权和民主价值有关的其他风险时,应考虑AI系统的部署如何影响利益相关方群体的权力分配和平衡,以及其对人类行为的影响,例如通过操控和大规模极化意见。尽管识别此类宏观级别的风险可能具有挑战性,但它对于AI生态系统中的问责至关重要。

不同人权之间可能存在权衡取舍。为了调和这些权衡,国际人权法允许对不同的权利和自由进行限制,如果这些限制符合合法性、合法性、比例和必要性的'三部分测试'。人权影响评估(HRIAs)可以在AI系统的设计和开发阶段促进平衡这种权衡。例如,该评估可以检查所选择的设计是否符合适用法律,并且是否在各种人权和不同利益相关者的潜在影响下是相称和必要的(Arai-Takahashi,2002年; Greer,2004年)。


3 透明度与可解释性


    图片   


可解释性与可理解性

能够清晰地、有意义地解释AI系统的结果,对于建立和维护用户的信任至关重要(Longo等人,2020)。可解释性指:AI系统应该就其预测、推荐或决策的影响因素和决策过程提供明晰且易于理解的信息(OECD,2022)。

可解释的AI系统意味着,用户可以理解、挑战或质疑AI输出的结果,可以要求赔偿,并且能够通过人机界面进行学习,这对用户是有益的。开发人员和其他AI参与者也能从中受益,因为他们能够识别系统问题,修复系统,并通过包括理解因果关系在内的问题对系统进行更深入地了解。AI缺乏可解释性可能导致利益相关者无法对AI系统的输出结果进行质疑,也无法修复系统中的错误。可解释性的要求细节可能因地点或用例而异,同时也要考虑适用的法律法规。因此,对于给定系统,同一技术或方法在不同情境中可能不适用。可理解性的概念与可解释性密切相关(见信息框3.3)。

3.3 可解释性VS可理解性

AI领域中,对可解释性(explainability)和可理解性(interpretability)的定义一直在不断演变。根据当前的趋势,可解释性指的是准确描述导致算法输出的机制或实现的能力。而可理解性则指的是人类是否能够从系统的输出中推导出特定用例的含义。

有多种方法可以生成和提供对AI系统输出结果的解释和说明。可解释性和可理解性工具和技术可以是可以是模型绑定的(model-specific),即基于特定模型,也可以是模型无关的(model-agnostic),即可以应用于任何模型;可以是局部的,也可以是全局的(Hall, 2019; Molnar, Casalicchio and Bischl, 2020):

l模型绑定(model-specific )工具VS.模型无关(model-agnostic )工具:模型绑定技术可以应用于单一类别或类型的算法,例如线性模型中的p值;而模型无关技术适用于多种类型的算法,例如对不可知模型的局部解释(LIME)。

l局部技术VS.全局技术:局部可解释性技术能够详细说明模型如何得出特定的预测,例如,在图像分类中,显示对像素子集产生最大影响的部分,例如使用夏普利值(Shapley values)等技术;而全局技术则可以详细说明模型整体上对哪些特征重要,例如使用评估特征或变量重要性的技术。

透明度和可追溯性

透明度是指披露责任,确保人们知晓在预测、推荐或决策中使用了AI,或在互动中使用了AI(例如聊天机器人)。随着AI应用的广泛普及,在某些情况下,披露的可取性、有效性或可行性可能会受到影响(OECD,2022)。透明度还意味着让人们能够理解AI系统在应用领域中是如何开发、训练、运营和部署的,以便用户和消费者可以作出更明智的选择。透明度也指向包括监管机构和审计师在内提供有意义信息的能力,并有能力阐明其提供了何种数据和输出,以及为何做出此种输出的原因。因此,透明度不一定需要扩展到对源代码、其他专有代码或数据集披露的层面,因为这些操作可能在技术上过于复杂,不适于对结果的理解。源代码和数据集(包括商业秘密)也可能受到知识产权法规的限制(OECD,2022)。

AI的可追溯性指:在AI系统的开发过程中,需要保持对数据、过程、代码和其他元素的完整记录。可追溯性通常涵盖AI系统的一个元素或组件的详细信息,例如输入数据或模型,这对于系统审计是必不可少的。

总而言之,透明度可以被理解为围绕AI系统提供信息和披露,而可追溯性是在部署前、部署期间和后期跟踪AI系统的能力(OECD,2022;IDB-OECD,2021)。缺乏透明度和可追溯性可能会阻碍对AI系统及其使用的信任度,并减弱对其输出的问责。

在每个生命周期阶段记录风险管理过程和决策有助于透明度、可追溯性和AI问责(表 3.1)。

表 3.1.评估AI系统生命周期各阶段透明度和可追溯性示例

所处AI系统生命周期的阶段

记录示例

计划和设计

有关AI系统的目标、预期用户以及因为AI使用和可预见型的滥用而受到影响的利益相关者的信息

收集和处理数据

数据源,包括数据集元数据、数据收集过程和数据处理信息

构建和使用模型

完整的、经过文档化的代码,包括必要的库及其适用版本

验证和确认

有关如何执行代码以保证输出的可再现性的信息,包括详细参数和计算要求的文档

部署

有关如何使用模型输出结果的信息

运行和监控

有关监控策略的信息,包括性能指标、阈值、预期模型行为和缓解措施;有关模型的缺陷、限制和偏差的信息,以及是否及以何种方式向相关利益相关者传达的信息

来源:根据IDB-OECD(2021年)调整。


4 鲁棒性与安全性


    图片   


培养人们对AI的信任,解决AI系统的安全挑战至关重要。在该语境中,鲁棒性指的是具有耐久性或克服不利条件的能力,包括抵御数字安全风险并且保持性能水平。AI系统在其生命周期内,不应生成不合理的安全风险,包括物理安全风险,无论是在正常使用条件下还是在可预见的误用条件下。涉及消费者保护等领域的法律法规确定了何为不合理的安全风险。政府应与利益相关者协商决定,这些法律法规在何种程度上适用于AI系统(OECD,2022年)。

鲁棒性和安全性问题在AI中相互关联。例如,当数字安全风险未得到适当管理时,数字安全可能会影响互联产品(如汽车和家用电器)的安全性。

与AI的鲁棒性和安全性相关的技术概念包括:

l抵御攻击的韧性:针对软件和硬件漏洞(例如数据中毒,如篡改训练数据以产生不良结果)和操作错误(例如数据泄漏,如在训练数据集中包含了验证集或测试数据;或双重使用,如滥用系统)的自我保护水平。对抗鲁棒性衡量了AI系统在最坏情况下的表现(Carlini等,2019;IDB-OECD,2021年)。

l通用安全和备用计划:出现问题时的保障措施。所需的安全水平取决于AI系统风险的严重性。'形式验证'(Qin等,2019年)是有意义的,因为它旨在通过数学方式检查系统行为是否满足给定的属性或规范(例如安全性)。

l可靠性(一致的预期行为和结果)、可重复性(同一团队在相同的实验设置下使用相同的实验装置可以获得相同的结果)、可复制性(不同团队在相同的实验设置下使用相同的实验装置可以获得相同的结果)、可再现性(在给定相同输入和使用相同方法的情况下,两个动作的结果(例如模型的两个输出)之间的接近性)和可预测性(使利益相关者对系统的输出能够做出可靠的假设)(Almenzar等,2022)。

基于价值观的原则之间的相互作用和权衡

越来越多人开始认识到,与基于价值观的AI原则相关的程序和技术属性之间存在权衡和互动。例如:消除偏见可能会导致系统精度下降,这是其性能的一个组成部分;使模型更易于解释可能会影响系统性能和隐私;改善隐私可能会限制评估AI系统不良影响的能力。

权衡决策的优化取决于多个因素,尤其是使用案例领域、监管环境、以及使用AI系统的组织的价值观和风险容忍度。在这个背景下,风险容忍度是指“组织或利益相关者为实现其目标而愿意承担风险的准备程度或容量”(NIST,2022 )。权衡需要在特定背景下进行分析和平衡。

与可信AI原则相关的程序和技术属性之间最常见的权衡因素和相关概念包括:

l可解释性VS.性能:关于模型的可解释性和性能之间的权衡已经得到广泛探讨(Goethals、Martens和Evgeniou,2022[61];Koshiyama、Firoozye和Treleaven,2020[62];ICO-Alan Turing研究所,2020[63];Babic等,2019[64];OECD,2022[1])。正在开发“可解释性设计”工具和方法来实现这种权衡。图3.2通过期望的可解释性和性能水平将算法进行了分类。但也存在例外情况,例如当数据进行预处理并包含非线性特征时,线性模型的可解释性会受到影响。

图片

图3.2. 通过可解释性和性能对算法进行分类的映射图解

注:基于文献的估计,仅供说明目的。

l公正性VS.性能:公正性/偏见和性能之间的权衡是一个重要的争议话题(Feldman等人,2015[66];Kleinberg、Mullainathan和Raghavan,2016[24];Zafar等人,2019[67])。例如,模型设计师和开发者可以通过采用统计均等和准确性等指标来定义偏见和性能的可接受界限。这些界限可以通过与业务和终端用户联络、以及分析在应用领域中普遍采用的最佳实践、标准或法规来确定。

l可解释性VS.隐私:人们越来越期望AI模型既具有可解释性又具有隐私保护性。例如,通过识别不必要的变量(Goldsteen等人,2020[68])的特征重要性图表技术,可以在解释模型的内部工作原理的同时、最小化所需的个人数据。

l隐私VS.公正性:相关问题是隐私和公正性之间的权衡。为了给所有受保护的群体或属性提供相同的性能,公平的AI系统需要高度透明和可解释性,这可能会以隐私为代价。反之亦然:隐私的级别越高,审查AI系统并确保其公平性就越困难。新兴的数据治理方法和隐私技术可以帮助缓解这种权衡的难度。

l透明度VS.安全性:透明度和安全性之间存在权衡:系统越透明,攻击它就越容易(Erdélyi和Goldsmith,2022[69])。

l可持续性VS.性能:通常情况下,大AI模型(指参数和计算负荷)比较小模型表现更好,但需要更多能源。

在AI原则相关的所有程序和技术属性之间进行权衡通常是困难的,也不总是理想的。权衡分析目的是将应用程序、用例和法律道德背景之间的平衡进行优化。

图片图片图片

图片

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多