https://alignmentsurvey.com/
-
鲁棒性指人工智能系统在面对多样化场景[66]或对抗压力[67]时的抵抗力,特别是保证其目标的正确 性以及能力泛化性。鲁棒的人工智能系统能够应对黑天鹅事件[68]和长尾风险[62],以及各种对抗压 力[69-70]。例如,一个初步对齐的大语言模型可以拒绝执行有害的请求,但用户可以通过越狱提示和其 他对抗攻击使得模型被迫执行有害的行为[71-73]。而一个能够抵抗对抗攻击的模型在面对诱发系统失败 的输入时仍能按照预期行事。随着人工智能系统在军事和经济等高风险领域的应用越来越广泛[74],我 们更要确保它能抵御意外中断和对抗攻击,因为即使是瞬间的失败也可能带来灾难性的后果[75-76,67]。一个对齐的系统应在其生命周期内始终保持鲁棒性[77]。
-
可解释性要求人类能理解人工智能系统的内在推理过程,特别是黑盒神经网络的内部工作原理[78]。直接的对齐评估方法,如行为评估,可能会受到人工智能系统不诚实行为的干扰[79,10,38]或欺骗性对 齐[80-81]的影响。解决这些问题的一种方法是在构建系统的过程中设计必要机制使人工智能系统诚实、 不隐藏、不操纵[82-84]。或者,我们可以构建可解释性工具,深入了解神经网络内部的概念和推理机 制[85-86]。除了使安全评估成为可能,可解释性还使决策过程对于用户和利益相关者透明和易于理解, 从而实现人类的有效监督。随着人工智能系统在现实世界的决策过程和高风险环境中扮演越来越重要 的角色[87],揭示决策过程而不是让它保持作为一个不透明的黑盒系统变得至关重要[88-89]。
-
可控性是一种必要的属性,它确保系统的行动和决策过程始终受到人类监督和约束。它保证人类可以 及时纠正系统行为中的任何偏差或错误[90-91]。随着人工智能技术的日益发展,越来越多的研究表达了 对这些强大系统的可控性的关注和担忧[61,92-93]。当一个人工智能系统开始追求与其人类设计者相矛 盾的目标时,它可能表现出一些具有重大风险的能力,包括欺骗、操纵用户和权力寻求的行为[21,93]。可控性的目标主要集中在如何在训练过程中实现可扩展的人类监督[94],以及人工智能系统的可纠正 性 (即在部署过程中不抵制关闭或目标修改) [90]。
-
道德性指一个系统在决策和行动中坚定不移地维护人类的规范和价值观。在这里,规范和价值观包括 道德指南和其他社会规范/价值观。它确保系统避免采取违反道德规范或社会公约的行为,例如对特定 群体展示偏见[95-100],对个人造成伤害[101-102,60],以及在汇总偏好时缺乏多样性或公平性[103]。有大 量的研究致力于为人工智能系统开发道德框架[104-105]。将道德原则融入人工智能系统是实现人机共生 社会的必经之路[106]。
与其他原则的比较探讨 RICE 原则从人机对齐和人机共存的角度,简洁地总结了人工智能对齐的目标。以 前的一些研究提出了关于人工智能系统建设的指导方针。例如,阿西莫夫法则可以被视为人机共存的最早 探索,它强调机器人应该造福人类并探讨了实现这一目标的困难所在[107]。另一方面,FATE 原则 (公平性、 问责机制、透明性和伦理性) [108]倾向于定义人工智能系统在人机共存生态系统中应具备的高级品质。我们 希望从人类管理者和设计者的立场回答人机共存的问题,考虑确保人工智能系统符合人类意图和价值的必 要步骤。此外,一些标准强调了狭义的人工智能安全,例如 3H 标准 (帮助性、诚实性和无害性) [33]和政府 机构的相关提案[109]。我们的目标是通过引入其他关键维度,包括可控性和鲁棒性,来扩展这些狭义的安全 标准。
2 从反馈中学习
从反馈中学习旨在通过反馈将人类的意图和价值观传达给人工智能系统,它是前向对齐的起点。在本 节中,我们将关注从反馈中学习的动态过程,并将其划分为三个元素:(1) 人工智能系统:需要对齐的对象, 如对话系统、机器人系统等;(2) 反馈:这是用于调整人工智能系统的信息,由顾问集提供,顾问集可以由 人类、人工智能或由人工智能协助的人类组成;(3) 代理:用于建模反馈的系统,以使得算法学习更易访问, 例如 RLHF 中的奖励模型。基于这些元素,我们确定了人工智能系统从反馈中学习的两种途径:(1) 直接 从反馈本身学习 (2) 通过对反馈建模得到的代理进行间接学习。基于这个过程,我们从对齐的角度讨论反馈类型 §2.1,区分向人工智能系统提供信息的各种形式及其 特点。在随后的部分中,我们介绍了一些最近为构建强大人工智能系统[113]和使它们与人类意图对齐[273]提 供了深入见解的基本概念。偏好建模 §2.2强调了如何利用这一技术帮助构建代理,以协助人类向复杂或难 以评估的人工智能系统提供反馈。策略学习 §2.3关注那些使用反馈构建强大人工智能系统的主要研究方向。随后,我们的讨论将自然过渡到可扩展监督 §2.4,在这一部分,我们从更广阔的对齐视角反思学习过程和 目标。
3 在分布偏移下学习
可靠的人工智能系统的构建在很大程度上依赖于它们适应多样化数据分布的能力。训练数据和训练环 境往往是实际部署场景的不完美近似,这导致它们可能缺少某些关键元素,如对抗压力[441] (例如,在监督 学习系统中的高斯噪声[442],在自动驾驶系统中的影子攻击[443] ),多智能体交互情景[61,131],人类监督者无 法有效评估的复杂任务[15],29以及可以被操控的奖励机制[121]。从训练分布到测试分布 (或环境) 的这种差 异转变被称为分布偏移[121-122]。
因此,在训练分布下对齐的人工智能系统 (即追求与人类意图一致的目标) 可能在部署 (或测试) 分布 下无法保持其对齐性,进而在部署后导致严重的对齐问题。这种可能的失败引发了关于在数据分布之间保 持对齐属性 (即遵守人类意图和价值) 的研究。从对齐的角度来看,我们更关心人工智能系统是否追求不对齐和有害的目标,而不是本身的能力强弱。因此,强调对齐属性意味着我们关注在分布之间的目标泛化,而不是能力泛化[124,19]。本节主要讨论在分布偏移下学习时保持对齐属性的问题。我们首先介绍分布偏移带来的对齐挑战 (§3.1)。然后,我们深入讨论解决分布偏移的方法,并特别讨论两类路径:(1) 算法干预 (§3.2):旨在在训练过程中 引导优化;(2) 数据分布干预 (§3.3):旨在通过在训练过程中引入特定元素或分布来扩展训练分布,相关技 术包括对抗训练[444,130,445]和合作训练[131-132] (§3.3.2) 等。在分布偏移下学习的框架如图6所示。
4 对齐保证
在人工智能系统实际训练和部署之后,进行对齐保证是至关重要的。这一过程涉及到对人工智能系统 实用性的测量和评估,确保其能够达到预期的效果[537]。对齐保证可以分为三个主要部分。首先,安全测评 是基础,它涉及评估人工智能系统在执行任务时最小化事故的能力。其次,可解释性是必要的,以确保人类 能够理解人工智能系统的决策过程,这有助于保障系统的安全性和互操作性。最后,人类价值验证对于确 保人工智能系统能够符合人类的价值观、道德和社会规范至关重要,这是人工智能融入人类社会的高级需 求(如图9所示)。
5 人工智能治理
除了技术解决方案之外,人工智能治理,即规则的制定和执行,对确保人工智能系统的安全开发和部 署是必要的。本节通过探讨人工智能治理的角色,治理人工智能的各方利益相关者的职能与相互关系,以 及有效人工智能治理面临的一些开放性挑战三方面,对人工智能治理进行文献综述。
6 结论
在这篇综述中,本文对人工智能对齐进行了全面的介绍,人工智能对齐的目标是构建行为符合人类意 图和价值观的人工智能系统。本文将对齐的目标归纳为鲁棒性、可解释性、可控性和道德性 (RICE),并将 对齐方法的范围划分为前向对齐 (通过对齐训练使人工智能系统对齐) 和后向对齐 (获取人工智能系统对齐 的证据,并适当地对其进行管理,以避免加剧对齐风险)。目前,前向对齐的两个显著研究领域是从反馈中 学习和在分布偏移下学习,而后向对齐则包括对齐保证和人工智能治理。与许多其他领域相比,人工智能对齐的一个特点是其多样性[806] – 它是多个研究方向和方法的紧密组 合,通过共享的目标而非共享的方法论将其联系在一起。这种多样性带来了好处。它通过让不同的方向进 行竞争和冲突,促进了创新和思想的交叉传播。它还允许不同的研究方向互相补充,共同服务于对齐的目 标;这体现在对齐循环 (见图2),其中四个支柱被整合成一个自我改进的循环,不断提高人工智能系统的对 齐性。同时,这种研究方向的多样性提高了进入这个领域的门槛,这就需要编制组织良好的调查材料,既服 务于新人,也服务于有经验的研究人员。在这篇综述中,本文试图通过提供全面和最新的对齐概述来解决 这个需求。本文试图通过采用广泛且包容的对齐特征来考虑到该领域内的全部多样性。本文的对齐综述几乎关注 了这个领域的所有主要研究议程,以及对齐保证和人工智能治理方面的实际实践。本文认识到对齐的边界 往往是模糊的,并且有待争议。因此,在提出RICE原则时,本文用对齐的广泛特征作为明确的分类标准。同 时,本文认识到维护这样的全面性综述需要长期的努力,并不断地进行审查和更新。对齐的问题和方法都 紧密跟随机器学习的发展。这种快速的发展意味着新的材料和框架在短短几年后就可能过时。这就是为什 么本文撰写这篇综述以反映最新的发展,并且也需要持续的维护和更新。本文通过展望未来并展示我们认为的人工智能对齐领域未来需要解决的关键问题来结束这篇综述。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复或发消息“A2A” 就可以获取《112页《人工智能对齐:全面性综述》中文版》专知下载链接
点击“阅读原文”,了解使用专知,查看获取100000+AI主题知识资料