机器与信任:如何减轻AI偏见

本文概述

2016年, 世界经济论坛声称我们正在经历工业革命的第四次浪潮:使用网络物理系统进行自动化。这一浪潮的关键要素包括机器智能, 基于区块链的分散治理和基因组编辑。与以前的浪潮一样, 这些技术减少了对人工的需求, 但带来了新的道德挑战, 尤其是对人工智能开发公司及其客户而言。

本文的目的是回顾有关检测和减轻机器学习模型中不必要的偏见的最新想法。我们将围绕可信赖的AI讨论最近创建的指南, 回顾因模型选择和潜在的社会偏见而引起的AI偏见示例, 为发现和缓解偏见的AI提出商业和技术实践建议, 并讨论GDPR当前存在的法律义务以及他们可能会在未来发展。

人类:机器学习中偏见的最终来源

所有模型都是由人类制作的, 反映了人类的偏见。机器学习模型可以反映组织团队, 团队中的设计人员, 实施模型的数据科学家以及收集数据的数据工程师的偏见。当然, 它们还反映了数据本身固有的偏见。就像我们期望人类决策者的信任度一样, 我们也应该期望并交付模型的信任度。

可信赖的模型仍将包含许多偏见, 因为偏见(从最广泛的意义上来说)是机器学习的基础。乳腺癌预测模型将正确地预测具有乳腺癌病史的患者倾向于阳性结果。根据设计, 它可能会了解到女性偏向积极的结果。最终模型对于男女可能具有不同级别的准确性, 并因此而存在偏见。要问的关键问题不是我的模型是否有偏见?因为答案始终是肯定的。

为了寻找更好的问题, 欧洲联盟人工智能高级专家小组已经制定了适用于模型构建的指南。通常, 机器学习模型应为:

合法-遵守所有适用的法律法规道德-遵守道德原则和价值观稳健-两者均从技术角度考虑到其社会环境

这些简短的要求及其较长的形式, 包括并且超出了偏见问题, 可以作为工程师和团队的清单。通过检查模型中在问题陈述和领域中可能是非法, 不道德或不稳健的那些偏见, 我们可以开发更可信赖的AI系统。

AI偏见的历史案例

以下是由于非法, 不道德或不稳健的AI偏见而产生的可疑可信度的三种历史模型。第一个也是最著名的案例是COMPAS模型, 它说明了即使最简单的模型也可以根据种族进行不道德的区分。第二种情况说明了大多数自然语言处理(NLP)模型的缺陷:它们对种族, 性偏见和其他偏见并不健全。最后一个案例是Allegheny Family Screening Tool, 它展示了一个模型, 该模型从根本上因数据偏见而存在缺陷, 并提供了一些减轻这些缺陷的最佳实践。

罗盘

有偏见, 不可信任的AI的典型示例是COMPAS系统, 该系统在佛罗里达州和美国其他州使用。 COMPAS系统使用回归模型来预测犯罪者是否可能再犯。尽管针对整体准确性进行了优化, 但该模型预测非裔美国人累犯的误报率是白种人的两倍。

COMPAS示例显示了无论我们的方法多么舒适, 有害的偏见如何会渗入我们的模型。从技术角度看, COMPAS数据采用的方法极为普通, 尽管基础调查数据包含相关性可疑的问题。在具有少量特征的数据集上训练了一个小型监督模型。 (在我的实践中, 我遵循类似的技术步骤数十次, 对于任何数据科学家或ML工程师而言都是如此。)然而, 普通的设计选择产生的模型中包含了不必要的, 种族歧视的偏见。

在COMPAS案例中, 最大的问题不是简单的模型选择, 甚至不是数据有缺陷。相反, COMPAS团队未能考虑到域(量刑), 问题(检测累犯)和答案(累犯分数)即使在不涉及算法的情况下也涉及种族, 性别和其他方面的差异。如果团队寻找偏见, 他们会发现的。有了这种认识, COMPAS团队可能已经能够测试不同的方法并在调整偏见的同时重新创建模型。这样本来可以减少非裔美国人的不公正监禁, 而不是加剧这种监禁。

自Word2Vec以来, 所有的NLP模型都已在Common Crawl, Google News或任何其他语料库上进行过简单的预训练

预先训练的大型模型是大多数NLP任务的基础。除非为避免沿特定轴的偏见而专门设计这些基本模型, 否则肯定会对它们受过训练的语料库的固有偏见充满兴趣-出于与这些模型完全相同的原因。这种偏见的结果(沿种族和性别划分)已分别在Common Crawl和Google News上训练的Word2Vec和GloVe模型中显示。尽管BERT等上下文模型是当前最先进的模型(而不是Word2Vec和GloVe), 但没有证据表明对这些模型进行训练的语料库具有较低的歧视性。

尽管针对任何NLP问题的最佳模型架构都充满了歧视性情绪, 但解决方案不是放弃预先训练的模型, 而是考虑与团队讨论的特定领域, 问题陈述和数据。如果一个应用程序被认为是歧视性的人在其中起着重要的作用, 那么开发人员应该意识到模型很可能会延续这种歧视。

Allegheny家庭筛查工具:不公平的偏见, 但经过精心设计和缓解

在最后一个示例中, 我们讨论了基于不公平歧视性数据构建的模型, 但是通过多种方式可以减轻不必要的偏见。阿勒格尼家庭筛查工具是一种模型, 旨在帮助人类决定是否应因虐待环境而将儿童从家庭中驱逐出去。该工具是公开透明地设计的, 带有公共论坛, 并且有机会发现软件中的缺陷和不平等之处。

该模型中不必要的偏见来自反映广泛社会偏见的公共数据集。通过使用私人医疗服务提供者, 中上阶层家庭”隐藏”虐待的能力更高。非裔美国人和混血儿家庭被转介到阿勒格尼县的频率是白人家庭的三倍。弗吉尼亚·尤班克斯(Virginia Eubanks)和艾伦·布罗德(Ellen Broad)等评论员声称, 只有在社会固定的情况下, 才能解决此类数据问题, 这是任何一个工程师都无法完成的任务。

在生产中, 该县通过仅将其用作一线工人的咨询工具来消除其模型中的不平等现象, 并设计培训计划, 以便一线工人在做出决策时意识到咨询模型的缺陷。随着去偏置算法的新发展, 阿勒格尼县(Allegheny County)有新的机会来减轻模型中的潜在偏见。

Allegheny工具的开发有很多要教给工程师的算法限制, 以克服数据中的潜在歧视以及构成数据基础的社会歧视。它为工程师和设计人员提供了协商模型构建的示例, 该示例可以减轻模型中潜在的歧视性偏见对现实世界的影响。

避免和减轻AI偏见:关键业务意识

幸运的是, 有一些消除偏见的方法和方法-其中许多都使用COMPAS数据集作为基准。

改善多样性, 减轻多样性赤字

在人口统计和技能方面, 保持多样化的团队对于避免和减轻不必要的AI偏见很重要。尽管技术主管不断为多元化提供口头服务, 但女性和有色人种的人数仍然不足。

各种ML模型在AI行业本身的统计少数族裔中表现较差, 首先注意到这些问题的人是女性用户和/或有色人种。随着AI团队的多样性, 可以在发布到生产环境之前注意到并缓解有关不必要偏见的问题。

注意代理:从模型中删除受保护的类标签可能不起作用!

消除数据中与受保护类别(例如性别或种族)有关的偏见的一种常见的简单方法是从模型中删除标记种族或性别的标签。在许多情况下, 这是行不通的, 因为该模型可以从其他标签(例如邮政编码)建立起对这些受保护类的理解。通常的做法还包括删除这些标签, 这不仅是为了改善模型在生产中的效果, 而且是出于法律要求。我们将在下面讨论的反偏置算法的最新发展代表了一种在不删除标签的情况下减轻AI偏见的方法。

注意技术限制

甚至产品设计和模型构建的最佳实践也不足以消除不希望有的偏见的风险, 尤其是在数据存在偏见的情况下。重要的是要认识到我们的数据, 模型和偏见解决方案的局限性, 这既是出于意识方面的考虑, 也是可以考虑采用人工方法来限制机器学习中偏见的方法, 例如人在回路中。

避免和减轻AI偏见:提高认识和消除偏见的关键技术工具

数据科学家拥有越来越多的技术意识和消除偏见的工具, 从而补充了团队避免和减轻AI偏见的能力。当前, 认知工具更加先进, 涵盖了广泛的模型选择和偏见度量, 而去偏见工具是新生的, 仅在特定情况下才能减轻模型中的偏见。

监督学习算法的认知和反偏工具

IBM已在AI Fairness项目下针对二进制分类器发布了一套感知和反偏见工具。为了检测AI偏见并缓解它, 所有方法都需要一个类别标签(例如种族, 性取向)。根据该类别标签, 可以运行一系列度量标准(例如, 不同的影响和机会均等), 以量化模型对特定类别成员的偏见。我们在文章底部提供了对这些指标的解释。

一旦检测到偏见, AI Fairness 360库(AIF360)就会提供10种去偏方法(和计数方法), 这些方法可以应用于从简单分类器到深度神经网络的模型。一些是预处理算法, 旨在平衡数据本身。另一些是处理中的算法, 在构建模型时会惩罚不必要的偏见。还有一些应用后处理步骤来在预测之后平衡有利结果。最佳选择取决于你的问题。

AIF360有一个重大的实际限制, 因为偏见检测和缓解算法是针对二进制分类问题而设计的, 并且需要扩展到多类和回归问题。其他库, 例如Aequitas和LIME, 对于某些更复杂的模型也具有良好的度量标准, 但它们只能检测出偏见。他们无力修复。但是, 即使只是知道模型在投入生产之前就存在偏见的知识仍然非常有用, 因为它应该导致在发布之前测试替代方法。

通用意识工具:LIME

本地不可解释模型不可知性解释(LIME)工具包可用于度量特征的重要性并解释大多数模型的本地行为-包括多类分类, 回归和深度学习应用程序。总体思路是使高度可解释的线性或基于树的模型适合于要测试偏见的模型的预测。

例如, 用于图像识别的深层CNN非常强大, 但无法解释。通过训练线性模型来模拟网络的行为, 我们可以了解其工作原理。在特定情况下, 人工决策者可以选择通过LIME审查模型决策背后的原因, 并在此基础上做出最终决策。下图显示了医疗过程中的此过程。

向人类决策者解释个人预测。该模型基于症状或缺乏症状来预测患者患有流感。解释者LIME向医生揭示了每种症状背后的权重以及它如何适合数据。医生仍然可以做出最终决定,但可以更好地了解模型的推理。基于Marco Tulio Ribeiro的图像

去偏置NLP模型

之前, 我们讨论了用于训练NLP模型的大多数语料库中的潜在偏见。如果对于给定的问题可能存在不希望有的偏见, 我建议随时使用去偏词嵌入。从学术界的兴趣来看, 像BERT这样的较新的NLP模型很可能很快就会对词嵌入进行偏移。

去卷积神经网络(CNN)

尽管LIME可以解释单个功能的重要性并提供特定图像输入行为的局部解释, 但LIME不能解释CNN的整体行为, 也不能让数据科学家寻找不希望的偏见。

在发现不需要的CNN偏见的著名案例中, 公众(例如Joy Buolamwini)注意到基于偏弱群体的成员存在偏见的情况。因此, 缓解风险的最佳方法将技术和业务方法结合在一起:经常进行测试, 并建立多元化的团队, 这些团队可以通过在生产前进行测试来发现不需要的AI偏见。

有关AI伦理的法律义务和未来方向

在本节中, 我们重点介绍欧盟的通用数据保护条例(GDPR)。 GDPR在全球范围内是数据保护法规中的事实上的标准。 (但这不是唯一的立法, 例如, 还有中国的《个人信息安全规范》。)GDPR的范围和含义值得商highly, 因此我们在本文中均不提供任何法律建议。不过, 据说GDPR不仅适用于欧洲组织, 而且适用于处理属于欧洲公民或居民的数据的任何组织, 因此符合全球组织的利益。

GDPR分为具有约束力的条款和不具有约束力的演奏会。虽然这些文章给使用个人数据的工程师和组织带来了一些负担, 但缓解偏见的最严格规定是第71号建议书, 没有约束力。立法者已经考虑到, 第71号法规是未来最有可能的法规之一。评论进一步探讨了GDPR义务。

我们将重点介绍两个关键要求及其对模型构建者的意义。

1.防止歧视性影响

GDPR对任何对个人数据进行建模的技术方法都提出了要求。使用敏感个人数据的数据科学家将希望阅读第9条的文本, 该文本禁止对特别敏感的个人数据(例如种族标识符)进行多次使用。更普遍的要求可以在第71号建议书中找到:

[。 。 。]使用适当的数学或统计程序, [。 。 。]确保将错误风险降到最低[。 。 ], 并防止基于种族或族裔出身, 政治见解, 宗教或信仰, 工会会员资格, 遗传或健康状况或性取向的歧视性影响。 GDPR(重点矿)

这种独奏会的大部分内容被认为是建立良好模型的基础:减少错误的风险是首要原则。但是, 在本次演讲中, 数据科学家不仅有责任创建准确的模型, 而且还必须创建无歧视的模型!如上所述, 并非在所有情况下都可行。使用业务和技术资源来检测和缓解AI模型中不希望的偏见, 关键仍然是要对可能来自手头问题及其领域的歧视性影响敏感。

2.解释权

可以在GDPR第13至15条中找到对自动决策中”有意义的有关逻辑信息的权利”。第71条明确要求”权利[。 。 。]以获得自动决策的解释(强调我的意思)。 (但是, 对于任何具有约束力的解释权的讨论仍在继续。)

正如我们已经讨论的那样, 确实存在一些提供模型行为解释的工具, 但是复杂的模型(例如涉及计算机视觉或NLP的模型)在不损失准确性的情况下很难轻易地进行解释。关于解释是什么样的辩论仍在继续。作为最低的最佳实践, 对于可能在2020年之前使用的模型, 应开发LIME或其他解释方法并进行生产测试。

道德与人工智能:一项重大而必要的挑战

在本文中, 我们回顾了模型中不希望有的偏见的问题, 讨论了一些历史示例, 为技术人员提供了一些业务指南和工具, 并讨论了与不希望有的偏见有关的关键法规。

随着机器学习模型的智能超越人类的智能, 它们也超越了人类的理解。但是, 只要模型是由人设计的, 并根据人收集的数据进行训练, 它们就会继承人的偏见。

管理这些人为偏见需要认真注意数据, 在必要时使用AI来帮助检测和消除不必要的偏见, 组建足够多样化的团队, 并对给定问题空间的用户和目标有同感。确保AI公平是自动化的根本挑战。作为自动化背后的人员和工程师, 确保AI充当公平的力量是我们的道德和法律义务。

关于机器学习中AI伦理和偏见的进一步阅读

关于AI偏见的书籍

  • 人为制造:AI条件
  • 自动化不平等:高科技工具如何识别, 管理和惩罚贫困人口
  • 数字死胡同:信​​息时代的社会正义之战

机器学习资源

  • 可解释性机器学习:可解释黑匣子模型的指南
  • IBM的AI Fairness 360演示

AI偏见组织

  • 算法正义联盟
  • AINow研究所及其论文鉴别系统-人工智能中的性别, 种族和权力

消除会议论文和期刊文章的偏见

  • 男人是计算机程序员, 女人是家庭主妇?去偏词嵌入
  • AI Fairness 360:用于检测, 理解和缓解不需要的算法偏见的可扩展工具包
  • 机器偏见(长篇期刊文章)

AI偏见指标的定义

完全不同的影响

完全不同的影响定义为”非特权群体和特权群体之间获得有利结果的概率之比”。例如, 如果女性获得完美信用评级的可能性是男性的70%, 那么这将产生不同的影响。训练数据和模型预测中可能都存在不同的影响:在这些情况下, 深入研究基础训练数据并确定不同的影响是否可以接受或应该减轻是很重要的。

机会均等差

机会均等差被定义为”特权群体和特权群体之间的真实阳性率(召回率)之间的差异”(在上面的AI Fairness 360文章中)。本文中讨论的高等机会差的著名示例是COMPAS案例。如上所述, 非裔美国人被高风险评估为比高加索罪犯高的比率。这种差异构成了机会均等。


特别感谢Jonas Schuett为GDPR部分提供了一些有用的指示。

相关:重新调整星号:改进IMDb评级系统

微信公众号
手机浏览(小程序)
0
分享到:
没有账号? 忘记密码?