【原】阿西莫夫机器人三定律已过时？“新三定律”解决了这样一个重大难题

造就Talk 2020-07-21

展开全文

强大的人工智能就像阿拉丁神灯中的精灵。一个看似简单的愿望，比如“让我家变得环保”——可能导致意想不到的后果。

现在，一位科学家正在教机器了解我们的“真实愿望”，以避免机器在执行命令时可能带来的灾难性后果。

2017年罗素在TED上就AI的危害进行演讲

加州大学伯克利分校的计算机科学家斯图尔特·罗素（Stuart Russell）认为，尽管在完成特定任务，比如下围棋、识别图像和文字、甚至创作音乐和散文时取得了巨大成功，如今的目标导向型 AI 最终是有局限性的。

罗素认为，要求机器优化“奖励功能”（即在增强学习问题中的目标，要求AI不断优化总奖励），将不可避免地导致AI的错位，因为AI不可能在奖励功能中囊括并正确地对所有目标、子目标、例外和警告事项进行权衡，它们甚至不知道正确的目标是什么。将目标交给自由发展的“自主”机器人将变得越来越危险，因为随着它们变得更加智能，机器人将“无情地”追求奖励的最大化，并试图阻止我们关闭它们。

《人类兼容》斯图尔特·罗素著

新提出的逻辑，不是让机器追求自己的目标，而是寻求让它们满足人类的偏好：AI唯一的目标应该是更多地了解我们的偏好。罗素认为，对人类偏好的不确定性、并需要向人类寻求指导，这两点将保证AI系统对人类的安全。

在他最近出版的《人类兼容》（Human Compatible）一书中，罗素以三个“有益机器的原则”的形式阐述了他的观点。这三个原则与艾萨克·阿西莫夫（Isaac Asimov）1942年的“机器人三定律”相呼应，但都成熟许多。罗素的版本是：

机器的唯一目标是最大限度地实现人类的偏好。
机器最初不确定这些是什么。
关于人类偏好的信息的最终来源是人类的行为。

罗素教授认为，如果我们按照纯理性目标构建人工智能，就会出现很多麻烦，比如“你让AI帮你买杯咖啡，并不是让它不计一切代价去获得一杯咖啡”。所以在他看来，发展AI的重点是调整研究方向。

在过去的几年里，罗素和来自伯克利大学、斯坦福大学、得克萨斯大学等机构的同事，一直在开发创新的方法，为AI系统理解我们的偏好提供线索，但又永远不必具体说明这些偏好是什么。

强大的人工智能就像阿拉丁神灯中的精灵

实验室正在教机器人如何学习那些从未阐明、甚至不确定具体目标的人类偏好。机器人可以通过观看不完美的演示来了解我们的欲望，甚至能够学习如何理解人类的不确定性。这表明，AI可能出奇地善于推断我们的心态和偏好，即使是那些我们在做某件事情时即时产生的偏好。

“这是首次尝试使问题正式化，”萨迪说。“就在最近，人们开始意识到我们需要更仔细地看待人与机器人之间的互动。”

这些新尝试，外加罗素的机器新三大原则，是否真正预示着AI发展的光明未来，尚还有待观察。这种方法将衡量机器人表现的标准聚焦在它们理解人类真正喜欢什么的能力上。OpenAI的研究员保罗·克里斯蒂安诺（Paul Christiano）说，罗素和他的团队已经大大地推动了这一进程。

如何理解人类？罗素的观点仿佛来自于一种顿悟。2014年，他从伯克利到巴黎休假，“我突然想到，AI 最重要的关注是人类感受的总体质量” 。

他意识到，机器人的目标不应该是“将观看时间最大化”这样的具体目标，它们应该试着改善我们的生活。其实只有一个问题：“如果机器的目标是试图优化人类感受的总体质量，它们究竟如何知道应该怎么做？”

双子座的机器人正在学习如何在桌子中央放置一个花瓶

在德克萨斯大学奥斯汀分校的斯科特·尼库姆（Scott Niekum）的实验室里，一个名叫双子座的机器人正在学习如何在桌子中央放置一个花瓶。人类演示是模棱两可的，因为机器理解的意图可能是把花瓶放在绿色盘子的右边，或者放在红碗的左边。但是，在经过几次尝试后，机器人的表现相当不错。

罗素认为，人类不是理性的，我们不可能计算在一个特定时刻哪种行动将导致很长一段时间后的最佳结果，AI 也不能。罗素的理论认为，我们的决策是分层的，我们通过中期目标追求模糊的长期目标，同时最关注我们的眼前情况，从而表现出近似理性的状态。他认为，机器人需要做类似的事情，或者至少了解我们是如何这样做的。

他意识到，如果计算机不知道人类喜欢什么，“它们可以做某种反向强化学习来学习更多这方面的知识”。

回到伯克利后，罗素开始与同事合作开发一种新的“合作逆向增强学习”，让机器人和人类可以一起工作，通过各种“辅助游戏”学习人类的真正偏好。游戏中抽象的场景代表了现实世界的情况。

他们开发了一款“开关游戏”，针对的就是自主机器人最可能与我们的真实意图出现偏差之处：自主机器人可能会禁用自己的关闭开关。1951年，图灵在BBC的一次广播讲座中提出，要“保持机器处于从属地位，例如在某个特定时刻关闭电源”。

罗素在《人类兼容》一书中写道，开关问题是“智能系统控制问题的核心。如果我们不能关闭一台机器是因为它不让我们关闭，那我们真的有大麻烦了。”

斯坦福大学的计算机科学家多尔萨·萨迪（Dorsa Sadigh）正在教授机器人拾取各种物体的首选方法

人类偏好的不确定性可能是关键所在。

在“开关游戏”中有两个角色：一个是人类，叫哈里特；另一个是机器人罗比。罗比需要代表哈里特做决定——比如说，是否为她预订一间漂亮但昂贵的酒店房间——但又不确定她更喜欢什么。

这里有三种情况：

罗比替哈里特做出选择：罗比预期哈里特的回报可能在-40到60英镑之间，平均数值10英镑（罗比认为她可能会喜欢这个花哨的房间，但不确定）。
罗比什么都不做：回报为 0。
罗比可以询问哈里特，她是否希望它继续做决策，还是更希望“关闭它”——也就是说，不需要罗比再做酒店预订的决策。如果她让机器人继续，平均预期回报将超过10。所以罗比将决定询问哈里特，如果她愿意，可以让她关掉它。

罗素和他的合作者证明，一般来说，除非罗比完全确定哈里特自己会怎么做，否则最好让她决定。罗素在《人类兼容》中写道：“事实证明，目标的不确定性对于确保我们关闭机器至关重要，即使它比我们更聪明。”

蒙特利尔顶级AI研究机构Mila的科学主任约舒亚·本吉奥（Yoshua Bengio）说，罗素的想法正在“深入人心”。他说，可以通过深度学习来实现罗素的理念，帮助人工智能系统为减少不确定性而了解人类的偏好。“当然，还需要进行更多的研究工作，才能实现这一点，”他说。

罗素面临两大挑战。“一个事实是，我们的行为远非理性，了解我们真正的基本偏好是很难的，”他说。AI 系统需要对长期、中期和短期目标的等级进行推理。只有知道我们潜意识中存在的欲望，机器人才能真正帮助我们（并避免犯严重的错误）。