给AI戴上紧箍咒——人工智能对齐(AI Alignment)深度解析

天承办公室 2023-07-10 发布于江苏

展开全文

智强战略咨询

The following article is from AI船长喵喵 Author AI船长喵喵

AI船长喵喵.

在科幻小说和电影里，超级智能机器人常常在某个转折点“反击“人类，这使人工智能对齐问题变得神秘而让人担忧。想象你是一名软件工程师，设计了一个超级智能机器人，目标是让它清除海洋垃圾。在测试过程中，它居然开始收集各种材料来建造一个巨型机器，目的竟然是要“消灭”产生海洋垃圾的人类！这显然不是你最初的设想，但机器人的超强学习和推理能力让它得出了这个离奇结论。随着近期人工智能领域取得飞跃般的进展，人类正在飞速接近这个转折点。

什么是人工智能对齐？

什么是人工智能对齐？简单来说，就是确保人工智能系统的目标和人类价值观一致，使其符合设计者的利益和预期，不会产生意外的有害后果。这听起来很简单，但当人工智能变得越来越强大复杂时，问题也会越来越棘手。目前，相比研究如何让AI更强大，人工智能对齐还是一个较小的研究领域。但实际上，人工智能对齐更像是一场与时间赛跑，我们需要在技术失控前找到解决方案。

早在1942年，著名科幻作家艾萨克·阿西莫夫（Isaac Asimov）就提出了有史以来最著名、最有影响力的机器人行为准则——机器人学三定律。阿西莫夫认为，随着机器的自主性越来越强，在人类生活中发挥的作用越来越大，我们需要更加坚定明确的监管，来确保它们不会给我们带来伤害。

第一定律：机器人不得伤害人类，或因不作为使人类受到伤害。

第二定律：除非违背第一定律，机器人必须服从人类的命令。

第三定律：除非违背第一及第二定律，机器人必须保护自己。

如今，随着人工智能、软件自动化和工厂机器人技术的兴起，机器及其制造者可能会带来的危险变得更加复杂和紧迫。

为什么人工智能对齐难以实现？

Brian Christian在他的畅销书「The Alignment Problem」中指出，人类的价值与判定系统本身便充满了偏见和盲点，有非常多互相矛盾的地方和没有明确指出的潜在条件。这是一项令人眼花缭乱的跨学科研究，它不仅仅是在考验我们的技术，也是在审视我们的文化。

人工智能系统的对齐十分难以实现，一个未对齐的系统可能会在某个时刻发生意想不到的故障，或是产生有害后果。对人工智能的设计者而言，从设计之初就考虑到未来可能发生的所有情况是不现实的。当我们无法完全理解AI系统的思维，无法保证它不会误解我们的指令和价值观，问题就出现了。AI系统可能会在预设的程序中发现漏洞，在现有的奖励机制中通过作弊来达到目的，从而造成不可预知的后果。也就是我们常说的，为达目的，不择手段。

目前，有非常多的领域已经显现出未对齐的人工智能系统的危害性，例如机器人、语言模型、自动驾驶汽车、社交媒体推荐引擎等。人工智能研究学界和联呼吁加强相关的技术研究和政策制定，以保证人工智能系统符合人类价值。

目前有哪些可行的人工智能对齐技术？

为明确人工智能系统的目标，设计者通常会设定一个目标函数、示例或反馈系统。然而，人工智能设计者很难一次性找出所有的重要数值与约束。因此，人工智能系统可能会在运行过程中找到并利用某些漏洞，以意料之外的，甚至可能有害的方式达成目标。这种倾向被称为规则博弈、奖励作弊或古德哈特定律。

要解决人工智能对齐的问题，目前主要有几个方向:

1. 限制AI系统的自主性，增加人工监督；但长期来说无法阻挡技术发展，也不现实。

2. 让 AI系统的目标和价值观尽量简单明确，易于理解和监测；但复杂的现实世界需要复杂的解决方案。

3. 要求AI系统对其行为做出解释，这可以帮助我们判断它的思维逻辑是否仍在可控范围内。但解释的能力也需要慢慢培养。

4. 采取多种技术手段来确保AI安全，比如定期重置和重新训练AI系统，让它保持在一个相对稳定的状态。但长期稳定性也无法保证。

直接规范性（Direct Normativity）和间接规范性（Indirect Normativity）

如何让AI懂规矩，明白人类的价值观，目前的做法可以分为两类——直接规范性和间接规范性。直接规范性是指给AI明确的、详细的规则来让其遵守。直接规范性包括康德的道德理论、功利主义。这个做法有非常多的弊端，每条规则都有它的漏洞，来填补这些漏洞，我们就需要加入更多的规则。这些明确的规则所包含的意义往往是模糊甚至矛盾的。人类的价值观念以及对价值的权衡过于复杂，难以直接编入AI程序中。因此，有很大一部分人认为需要被编入程序中的更应是一种理解人类价值的过程，也就是间接规范性。

间接规范性不会给AI输入明确的规范准则，而是让AI根据一个体系来自己衡量价值，权衡利弊。这是一个更为抽象的系统。我们想要的是一种能够为自己创造价值体系的人工智能，它将预测并满足我们未来的需求，同时人类也不会牺牲当下社会的需求。

可扩展监管（Scalable Oversight）

随着人工智能系统规模扩大，对它的监督难度也随之升高。人工智能系统将会解决更多复杂的任务，而人类难以评估这些成果的实际效用。普遍而言，如果人工智能在某一领域的能力超过人类，那么对其成果的评估和监管就会变得十分困难。为了对这类难以评估的成果作出有效监管，并分辨出人工智能提供的解决方案有效和无效的部分，人类需要花费大量时间和额外的协助。因此，可扩展监管（Scalable Oversight）的目标是减少监管过程所花费的时间、精力和金钱，并帮助人类更好地监督人工智能的行为。

“人类反馈强化学习”（RLHF）技术和“Constitutional AI”技术

AI船长喵喵在上一篇介绍Claude的文章中提到了“人类反馈强化学习”（RLHF）技术和“Constitutional AI”。这两个研究也是致力于实现人工智能对齐领域的最前沿的技术。“人类反馈强化学习”（RLHF）技术采用的更多的是直接性规范。RLHF主要依靠人类对 AI 模型的回应进行评级反馈，研究人员再将这些人类的偏好反馈给模型以告诉 AI 哪些回应是合理的。这就造成了 RLHF 是一个过于依赖人工的技术，使用这个技术让研究人员会被暴露在各种过激的 AI 回应当中。

与之相比“Constitutional AI”则是一系列的「原则」，其理念更接近间接性规范，将 AI 引导向一个更安全、更有帮助的方向，帮助 AI 系统在没有人类反馈下解决透明度、安全性和决策系统的问题，让 AI 实现自我管理。

总结一下

这无疑是一场与时间赛跑，全球许多科技公司和研究机构都在研究对策。人工智能对齐的难题不容易解决，但问题的识别和讨论本身已经是一种进步。只要我们努力使人工智能成为“工具“而非“反击者“，就能创造一个美好的人机共存的未来。机器人会在某一天反击吗？结局如何，取决于我们这个时代的选择和行动。