图灵奖得主姚期智对谈Stuart Russell：人工智能应成为一门学科

腾讯科技讯 Stuart Russell是人工智能领域的重要学者，供职于加州大学伯克利分校，他在AI领域做出重要贡献，也是联合呼吁暂停开发人工智能的名人之一。Stuart Russell认为AI的发展将对人类社会产生深远影响，如果不对AI的发展进行适当的管理和监督，可能会引发严重的社会问题，他强调AI系统的设计和应用必须考虑到道德和伦理因素。

6月10日，在“2023北京智源大会”上，图灵奖得主、中国科学院院士姚期智与Stuart Russell教授在AI安全与对齐专题论坛进行了专家对谈。姚期智认为，人类首先要更好地理解自己，否则很难有效地管理机器与人的互动。Stuart Russell认为，人类对未来有各自的偏好，AI系统应该为人类服务，但它的行动范围必须被限制在这个人关心的领域内，避免损害其他人的利益。

核心观点：

(相关资料图)

1、如果你想要一个能够响应个人愿望的AI系统，那么你必须明确表明，这个AI系统的行动范围被限制在这个人关心的领域内，它不能在追求这个人的利益时伤害到其他人。

2、经济学中有一种被称为“地位商品”的东西。你重视它不是因为物品本身的价值，而是因为它能展示你的优越性。AI系统应该考虑地位商品吗？如果我们说不，那么这将会对社会运作方式产生巨大的影响，这是一个非常复杂的问题。

3、与其构建通用的人工智能，不如构建能解决特定窄领域问题的人工智能系统，如蛋白质折叠、交通预测等问题。这些系统既无自我，也无行动范围，不会产生大规模的风险。

4、人工智能要成为一门科学，就像我们了解我们所构建的结构与我们所期望的属性之间的关系一样。大型语言模型领域还不是这样一门科学。我们不知道它为什么具有这些属性。事实上，我们甚至也不知道它具有什么属性。

以下为对谈精华内容：

姚期智：Stuart，很高兴再次见到你。你的演讲深入而富有洞见，对AI和大型语言模型的发展给出了均衡的观点，这是非常少见的。你觉得我们该如何协调好人与机器这两个差异巨大的实体之间的关系？人类的利益关系错综复杂，我认为，除非我们首先更好地理解自己，否则我们如何可能有效地管理机器与人的互动？

在短期内，我们应该如何防止人类创建强大的AI，以避免人们为实现自己的目标而不惜牺牲他人？例如，像你刚才提到的，人们可能会尽力提高点击率。我想开发一种AI，它追求的不仅仅是潜在的议程。你说到机器可能会试图改变人类行为，但我想更准确的说法应该是，机器的所有者可能会试图改变人类行为。你说你的公司不应开发这样的程序，我同意，因为程序的复杂性使得隐藏某些行为变得相对容易。

那么，我的问题是，我们是不是正在创造一个巨大的问题，即如何协调人类的理想？我们真正想要什么？我不确定我们是否真的思考过一个理想的世界应该是怎样的，假设机器只是一个无害的工具，能做我们想要做的所有事情，我们甚至可能并不清楚自己真正想要什么。这就是我的问题。

Stuart Russell：你的问题确实很重要。特别是，我们无法将我们的目标清晰地定义出来，比如，我们无法将我们对未来的目标定义到深度强化学习系统中，因为我们自己并不清楚这个目标应该是什么。因此，机器知道它不知道目标是什么。

总的来说，人类对未来有一种偏好，这种偏好可以理解为：如果我能给你展示两个关于未来的电影，描述的是你和你的家人在你所在的国家的生活，可能还包括整个人类的命运。你只需要告诉我你更喜欢哪一部电影，有时你可能会说你对这两部电影都无所谓，这都没问题。关键在于，你有潜在的能力选择你更喜欢的未来，尽管我们无法在看过这些电影之前就做出选择，但我们有这样做的潜力。

你的问题涉及到一个重要的议题，那就是为一个人工作的机器和为全人类工作的机器之间的区别。我们可以思考这两个问题。在我所说的"协助游戏"中，我们主要处理的是一个人与一台机器的关系，也有一个人与多台机器的关系。我们如何确保这些机器，即使它们都想帮助那个人，也能成功地互相协作？

当有一个或多个机器与许多人一起时，这就涉及到道德哲学的基本问题。首先，我认为AI系统应该为人类服务。如果你想要一个能够响应个人愿望的AI系统，那么你必须明确表明，这个AI系统的行动范围被限制在这个人关心的领域内，它不能在追求这个人的利益时伤害到其他人。

我认为，AI系统应该默认为全人类工作。如果它在本地操作，如在我后院割草，那么与其他人的利益就不特别相关。如果它在一家大报纸上发表文章，那么它可能会影响到全世界每一个人的利益。它应该考虑到每一个可能被其行动影响的人的利益。这就涉及到了道德哲学家们长期以来一直在探讨的问题。

在中国，墨子在公元前500年就提出了普遍关爱的概念，意味着在做出道德决策时，应考虑到每个人的利益。这种观念在18世纪的西方哲学中以功利主义的形式再次出现。我认为有一种基于所谓的偏好功利主义的复杂形式，能够合理地考虑到每个人的利益。

然而，即使在形式功利主义中，也存在一些未解决的问题，例如，当决策可能影响实际存在的人数时，我们应该如何做出决策？我们是希望有一个人口众多但不太快乐的世界，还是一个人口较少但非常快乐的世界？对这些问题，我们并没有一个好的答案，但我们必须给出答案。这些都是道德哲学的核心问题，因为AI系统将有这样的能力。我们必须确保他们正确地使用这种能力。

姚期智：你说得对，我们确实需要区分个人小规模的偏好和那些可能影响到整个社会的事情。但我对后者比较悲观，因为这并不只是AI的问题，更多的是关于现代世界，尤其是由于生物技术、核能等强大工具的出现。

现在，我认为最严重的问题是，我们正在通往的、解决人类问题的AGI的力量。

世界上许多地方的社会严重分裂，一方面有50%，另一方面也有50%，而且每一方都坚信他们是对的。现在，AI有能力帮助进行宣传，这确实是一个严重的问题，因为机器可以写1万封热情的信件提交给报社，而这可能会影响到一场严肃辩论的权力平衡。

现在看来，我们似乎没有任何解决这些问题的希望。如果我们连人们对这些重要问题的偏好是什么都不清楚，我们怎么能假装它们不存在呢？你怎么看？

似乎在许多地方，社会一直在与这个问题作斗争。我认为在中国这个问题可能没那么严重，但在许多其他地方，情况却是这样。我们应该如何开始处理这个问题呢？因为人类有许多不同的目标，我们有很多想要的东西。

如果我们不解决这个问题，我们甚至都无法开始解决如何控制AI或AGI的问题。

Stuart Russell：你的问题中融合了多个子问题。我确实认为18世纪功利主义的诞生是人类的一大进步。在那之前，为了使国家中的每一个人受益而制定公共政策的想法是前所未有的。以前的决策更倾向于让贵族、国王、皇帝等富人和有权势的人受益，普通人的利益往往被忽视。

我们现在可以看到世界各地的很多国家都发生了变化，大多数管理良好的政府都认为他们的职责是提高国民的整体福祉。正如你所提到的，福祉的定义仍存在一些争议，对吧？福祉并不只是GDP，也包括各种形式的自由，可能还包括某些团体对其他团体的特权等问题。我认为这些都是功利主义中一些尚未解决的问题。

在功利主义中有一个简单的问题：对于那些从他人的痛苦中获取快乐的人，你应该如何对待他们？你应该将他们的利益考虑在整体福祉之内吗？我认为一个简单的答案是，不，你不应该去满足一个从痛苦中获取快乐的人的需求。

但实际上，还有很多其他人关心的问题，我们认为这些问题更无辜，但在数学上，这些问题的性质与施虐狂的性质相同。我举一个简单的例子，经济学中有一种被称为“地位商品”的东西。你重视它不是因为物品本身的价值，而是因为它能展示你的优越性，比如你支持的队伍赢得了足球、篮球或棒球比赛，或者你赢得了诺贝尔奖。诺贝尔奖的价值不在于你可以得到100万美元，而在于其他人没有得到。这就是我们所说的“地位商品”。

地位商品的本质是零和游戏。简单来说，不是每个人都能成为最优秀的1%。所以，如果你从成为1%中的一员中获取个人价值和自尊，那么我们不能给每个人这种自尊。那么在做出代表社会的决定时，AI系统应该考虑地位商品吗？如果我们说不，那么这将会对社会运作方式产生巨大的影响。这是一个非常复杂的问题。我认为，很多社会问题其实源自于地位商品，而这些地位商品是无法让每个人都实现的。

姚期智：现在，我要转向另一个问题。我很欣赏你的演讲和你的工作，你提出了一种优雅而可能有效的解决方案来处理一个关键问题，包括你的人工智能方法。你建议严格利用可证明的代码来构建关键的人工智能系统。这种可能性存在吗？这是否符合你们的理念？能否制定一个人工智能应用白名单？最好的是，人工智能系统应该被用来促进人类福祉，并产生积极的影响。

例如，我们完全支持使用人工智能设计药物和解决癌症问题。有些我们愿意做的事情是无争议的。它们将使GDP增长，至少会增长5倍，甚至可能增长10倍。我们能否主张把重要的人工智能大系统集中在这些白名单项目上？当然，我们可能无法阻止个别研究者进行他们的个人项目。

我认为这与互联网安全有相似之处。在所有的主流大学里，人们不会教授如何黑客入侵互联网，可能除了伯克利大学以外。

所以我在思考，这种方法可能有用，但可能不适合大规模推广，以免产生不稳定性。在我们找到一种全面、严谨和系统化的方法之前，我们是否可以采用这种方式来推进有益的人工智能？因为，正如你所说，从某种意义上说，我们其实还处于实验阶段。我们真的不确定会出现哪些大问题，因为有些聪明人可能会利用这种强大的技术做一些捣乱的事情。

Stuart Russell：我认为我们还有很长的路要走，才能理解如何大规模地解决“协助游戏”问题，然后如何确保人们使用这些系统。埃里克·德雷克斯勒在过去几年一直在研究人工智能安全，他提出了一个非常类似的观点，他称之为综合人工智能服务。他的观点是，与其构建通用的人工智能，不如构建能解决特定窄领域问题的人工智能系统，如蛋白质折叠、交通预测等问题。这些系统既无自我，也无行动范围，不会产生大规模的风险。我认为这是一种非常合理的短期解决方案。

例如，我们可以要求OpenAI不再发布通用系统给数十亿人。以一个可能出错的例子来说，Sam曾谈过一个试图优化农业的人工智能系统，可能会犯下导致生态灾难等错误。但仅通过与大规模的人类对话，如果你能与数十亿人交谈，你就可能让这些人对其他国家产生敌意，或者减少对气候变化的关注。这可能会使我们陷入核战争或气候灾难，而我们甚至不会意识到这是由人工智能系统引起的。这可能只是通过对话产生的，系统可能有一些我们无法检测的内在目标，将我们推向这个方向。

所以我认为已经发布的系统存在巨大的风险，人们已经对这些系统被故意滥用以传播虚假信息非常担忧。我认为对于这个问题，有一些结构性的解决方案。但更隐蔽的问题是，这些系统可能像社交媒体算法一样，将我们推向特定的方向，而我们甚至没有意识到它正在改变公众的态度和对未来的看法。我认为这对我来说是非常危险的。

所以我不同意这样一个观点，即我们唯一能了解人工智能安全性的方式是在现实世界中部署数十亿个系统，并观察发生了什么。在疫苗领域，我们并不这样做，对吗？我们在部署之前会测试疫苗，确保它是安全的，因为我们将向数十亿人注射疫苗。我们在人工智能领域，也需要用一种完全不同的思维方式来考虑我们所做的事情。

姚期智：从更乐观的角度来看，正如你所说，尽管大型人工智能系统可能是超出我们控制的怪物，但通过适当的设计，我们有方法来驯服它们，并制定适当的协议。这让我想起了一种类似情况的新技术，即量子技术和量子计算机，看起来它们将在接下来的几年内问世。

理论家已经找到了控制量子系统的方法，甚至是那些恶意的量子机器，只需使用经典手段就可以实现。我认为有一件有趣的事情是，量子机器在一个非常不同的领域中工作，基本上，我们人类并不具备处理它的良好直觉。但是，只要你用更多的——只用语言，只用经典对象，就可以对它们进行测试，看它们是否偏离了最初的设计目的，即使有人同意，他们不会向你展示代码，我会向你展示如何进行测试。这在某种程度上与医学科学相似，我们可能并不完全理解药物分子层面的工作原理，但我们可以进行测试。

所以我认为你提到的那种方式给了我希望，即使人类是一个非常微弱的种族，正如Harris所说的，我们也许能够控制一些在宇宙中原本不存在的东西，也就是以一种组织系统化的方式进行如此多的竞争，这是我们无法理解的。也许通过遵循你所提出的思路，我们可以开始看到一些希望，发展这个领域，并能真正使人工智能系统成为我们的“仆人”。

因此，基本上，根据我听到的内容，包括你的演讲，我们是否有办法利用极其有才能的人，无论是在身体上还是在某种程度上，我们是否可以以某种方式对它们进行教育，让它们为我们的目的服务。我不能百分之百确定这是否能够实现。我认为从长远来看，可能会出现某些人与大型人工智能系统合谋，或者与大型人工智能机器或社区合谋，以实现个人目标。

Stuart Russell：我认为我们将会有一种目前仅适用于核武器的治理方式。我要说的是，如果一群人获得核武器，他们可能会威胁整个世界，并要挟我们履行他们的目的。

如果这种技术比核武器更强大，我们可能需要以类似的方式管理它。实际上，我认为我们需要比现在对待核武器更好地管理它。有趣的是，在核武器实际被制造出来之前，第一个核弹的专利在1939年由法国提交。我们知道第一颗核弹是在1945年被投放的。在第一次世界大战期间，一些物理学家正在讨论核战争的威胁以及它会带来多么严重的后果。他们的观点是，在这项技术被开发出来之前，我们需要建立一种治理结构，确保这项技术只用于人类的利益，而不是作为武器使用。

不幸的是，物理学界、建制派和政府没有听从他们的建议。如果听从了，世界的历史可能会朝着一个非常不同的方向发展，也许是一个更好的方向。所以我们在创建超级智能之前，有机会在出现严重的军备竞赛之前，让它落实到位。我认为“军备竞赛”这个概念非常有害，因为它导致缺乏合作，导致不信任，导致在安全性方面的失败。出于所有这些原因，我认为我们应该尽快建立起这种合作。正如Sam所指出的，我们可以同意共享人工智能安全技术。因为每个国家都有分享这些信息的利益。

姚期智：我完全同意。你提到的关于大型语言模型的评论，至少我们理解的是，它们似乎没有任何内部目标和意愿。我想知道的是，人类行使和展示智能的方式是否是意识到内部目标的存在，这只是一个特例，还是物理世界中可能存在的智能方式。

也许大型语言模型必须通过预训练来建立一个模型。我们可能无法给出一个简明的描述，但也许这就是未来智能的样子。我们只需要接受它——我们可能无法理解它。

Stuart Russell：我认为通用智能必须能够从相对较少的数据中高效地学习。我认为宇宙中根本没有足够的数据供慢速、低效的学习算法实现真正的智能。它还必须能够根据长期后果选择行动，而不仅仅是当前的即时对话目标。

所以明确地说，我认为大型语言模型可能确实有内部目标，并且这些目标指导了即时输出的选择。但我不认为系统在思考未来。我不认为它正在建立一个关于世界-自身-世界状态的内部模型。它具有对话的一种状态，但它没有世界的内部状态。它没有一个关于世界运作方式的模型。另一个有趣的例子是，你可以说我有20美元，我给了我的朋友安迪10美元。我们还剩下多少钱？它说是30美元。对吧？它不理解当我给你钱时，我自己就没有了。它只是缺少一些关于世界基本物理的知识。

人工智能要成为一门科学，就像我们了解我们所构建的结构与我们所期望的属性之间的关系一样。就像我们建造飞机一样，飞机有一个物理形状和引擎等。我们可以展示它们与我们所期望的属性之间的关系，比如能够在空中飞行。目前，尤其是大型语言模型领域，它还不是这样一门科学。我们不知道它为什么具有这些属性。事实上，我们甚至不知道它具有什么属性。我们当然无法将这些属性与内部发生的事情联系起来。因此，我认为人工智能应该是一门更深入的科学，从那个意义上说。

关键词：