AI 的下半场:评估超越训练,效用定义未来(译)

本文译自 《The Second Half》,作者深入探讨 AI 发展进入“下半场”的核心转变。随着 RL 泛化“配方”成熟,研究重心需从模型方法创新转向问题定义与真实世界效用评估,以解决 AI 的“效用问题”。

下半场

长话短说:我们正处于 AI 的中场休息时间。

几十年来,AI 的发展主要围绕着开发新的训练方法和模型。这种方法卓有成效:从在国际象棋和围棋比赛中击败世界冠军,到在 SAT 和律师资格考试中超越大多数人类,再到赢得 IMO 和 IOI 金牌。在这些载入史册的里程碑——DeepBlue、AlphaGo、GPT-4 和 o-series——背后,是 AI 方法论的根本性创新:搜索 (search)、深度强化学习 (deep RL)、规模化 (scaling) 和推理 (reasoning)。随着时间的推移,一切都在不断进步。

那么,现在突然有什么不同了呢?

RL 终于奏效了。更准确地说:RL 终于能够泛化了。在经历了几个重大的弯路和一系列里程碑的积累之后,我们终于找到了一个行之有效的配方,能够利用语言和推理解决各种各样的 RL 任务。哪怕就在一年前,如果你告诉大多数 AI 研究者,同一个配方能够处理软件工程、创意写作、IMO 级别的数学、键鼠操作以及长篇问答——他们会嘲笑你的胡言乱语。这些任务中的每一个都极其困难,许多研究者穷其整个博士生涯也只专注于其中一个狭窄的领域。

然而,这确实发生了。

那么接下来会发生什么?AI 的下半场——从现在开始——将把焦点从解决问题转向定义问题。在这个新时代,评估变得比训练更重要。我们不再仅仅问:“我们能训练一个模型来解决 X 问题吗?”,而是问:“我们应该训练 AI 去做什么?以及我们如何衡量真正的进展?” 要想在下半场脱颖而出,我们需要及时转变思维模式和技能组合,也许是那些更接近产品经理 (product manager) 的思维和技能。

上半场

要理解上半场,看看它的赢家就知道了。你认为迄今为止最有影响力的 AI 论文是哪些?

我试着做了 Stanford 224N 课程里的一个小测验,答案并不令人意外:Transformer、AlexNet、GPT-3 等等。这些论文的共同点是什么?它们提出了一些根本性的突破,用以训练出更好的模型。而且,它们都通过在某些基准 (benchmarks) 上展示出(显著的)改进,从而成功发表了论文。

不过,这里有一个潜在的共同点:这些“赢家”都是训练方法或模型,而不是基准或任务。即使是 arguably 最具影响力的基准 ImageNet,其引用量也不到 AlexNet 的三分之一。方法与基准的对比在其他地方甚至更为悬殊——例如,Transformer 的主要基准是 WMT’14,其研讨会报告约有 1300 次引用,而 Transformer 的引用量超过了 16 万次。

这说明了上半场的游戏规则:专注于构建新的模型和方法,而评估和基准是次要的(尽管对于让论文发表体系运转起来是必要的)。

为什么?一个重要原因是,在 AI 的上半场,方法比任务更难,也更令人兴奋。从零开始创造一种新的算法或模型架构——想想那些突破,如反向传播算法 (backpropagation algorithm)、卷积网络 (convolutional networks, AlexNet) 或 GPT-3 中使用的 Transformer——需要非凡的洞察力和工程能力。相比之下,为 AI 定义任务通常感觉更直接:我们只是把人类已经在做的任务(如翻译、图像识别或下棋)转变成基准。这并不需要太多的洞察力,甚至不需要太多的工程工作。

方法也往往比单个任务更通用、适用范围更广,这使得它们尤为宝贵。例如,Transformer 架构最终推动了 CV、NLP、RL 和许多其他领域的进步——远远超出了它最初证明自己的那个单一数据集(WMT’14 翻译)。一种优秀的新方法可以通过简单的通用性在许多不同的基准上实现爬坡提升,因此其影响往往超越单个任务。

这个游戏规则已经有效运行了几十年,并激发了改变世界的想法和突破,这些都体现在各个领域基准表现的不断提升上。那为什么游戏规则会改变呢?因为这些想法和突破的积累,在创造一个解决任务的有效配方方面,已经产生了质变。

配方

这个配方是什么?不出所料,它的组成部分包括:大规模语言预训练 (language pre-training)、规模化 (scale)(数据和计算层面)以及推理 (reasoning) 和行动 (acting) 的理念。这些听起来可能像你在旧金山 (SF) 每天听到的热词,但为什么称它们为配方呢?

我们可以通过强化学习 (RL) 的视角来理解这一点。RL 通常被认为是 AI 的“终极目标”——毕竟,理论上 RL 保证能赢得游戏,而从经验上看,很难想象任何超人类系统(例如 AlphaGo)没有 RL 的参与。

在 RL 中,有三个关键组成部分:** 算法 (algorithm)、环境 (environment) 和先验知识 (priors) **。很长一段时间里,RL 研究者主要关注算法(例如 REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO……)——即智能体学习方式的智力核心——而将环境和先验知识视为固定的或最简化的。例如,Sutton 和 Barto 的经典教科书全是关于算法的,几乎没有涉及环境或先验知识。

然而,在深度 RL 时代,经验表明环境非常重要:算法的性能往往高度依赖于其开发和测试的环境。如果你忽略环境,你可能会构建出一个只在玩具环境 (toy settings) 中表现出色的“最优”算法。那么,为什么我们不先弄清楚我们真正想要解决的环境,然后再找到最适合该环境的算法呢?

这正是 OpenAI 最初的计划。它构建了 gym,一个包含各种游戏的标准 RL 环境,然后是 World of Bits 和 Universe 项目,试图将互联网或计算机变成一个游戏。这计划不错,不是吗?一旦我们将所有数字世界都变成环境,用智能 RL 算法解决它,我们就有了数字 AGI (digital AGI)。

计划虽好,但并不完全奏效。OpenAI 在这条路上取得了巨大进展,使用 RL 解决了 Dota机械手等问题。但它从未接近解决计算机使用或网页导航问题,而且在一个领域有效的 RL 智能体无法迁移到另一个领域。有些东西缺失了。

直到 GPT-2 或 GPT-3 之后,才发现缺失的那块拼图是先验知识 (priors)。你需要强大的语言预训练将通用的常识 (commonsense) 和语言知识提炼到模型中,然后可以通过微调 (fine-tuned) 使其成为网络 (WebGPT) 或聊天 (ChatGPT) 智能体(并改变世界)。事实证明,RL 最重要的部分甚至可能不是 RL 算法或环境,而是先验知识,而这些先验知识可以通过与 RL 完全无关的方式获得。

语言预训练为聊天创造了良好的先验知识,但对于控制计算机或玩视频游戏效果却不那么好。为什么?因为这些领域与互联网文本的分布相去甚远,并且在这些领域上简单地进行 SFT / RL 泛化效果很差。我在 2019 年注意到了这个问题,当时 GPT-2 刚问世,我在其基础上进行 SFT / RL 来解决基于文本的游戏——CALM 是世界上第一个通过预训练语言模型构建的智能体。但智能体需要数百万步的 RL 训练才能在一个游戏中实现性能爬坡,并且无法迁移到新游戏。尽管这正是 RL 的特点,对 RL 研究者来说不足为奇,但我却觉得很奇怪,因为我们人类可以轻松地玩一个新游戏,并且在零样本 (zero-shot) 情况下表现得明显更好。然后我迎来了人生中第一个顿悟时刻——我们之所以能够泛化,是因为我们可以选择做更多的事情,不仅仅是“去 2 号柜子”、“用 1 号钥匙打开 3 号箱子”或“用剑杀死地牢怪物”,我们还可以选择思考诸如“地牢很危险,我需要武器来战斗。这里没有可见的武器,也许我需要在锁着的盒子或箱子里找找。3 号箱子在 2 号柜子里,让我先去那里把它打开”之类的事情。

思考,或者说推理 (reasoning),是一种奇怪的行动——它不直接影响外部世界,然而推理的空间是开放式且组合无限的 (open-ended and combinatorially infinite)——你可以思考一个词、一个句子、一整段话,或者 10000 个随机的英文单词,但你周围的世界并不会立即改变。在经典的 RL 理论中,这是一笔非常糟糕的交易,使得决策变得不可能。想象一下,你需要从两个箱子中选择一个,只有一个箱子里有 100 万美元,另一个是空的。你的期望收益是 50 万美元。现在想象我加入了无限个空箱子。你的期望收益就变成了零。但是,通过将推理加入任何 RL 环境的行动空间,我们利用了语言预训练的先验知识来实现泛化,并且使得在测试时能够为不同决策灵活地分配计算资源。这真的是一件非常神奇的事情,很抱歉我在这里没能完全解释清楚,我可能需要专门写另一篇博客文章来阐述。欢迎阅读 ReAct 了解关于智能体推理的最初故事,以及我当时的感受。目前,我的直观解释是:即使你加入了无限个空箱子,但你在生活中各种游戏中都见过它们,选择这些(思考的)“箱子”能让你为任何给定的游戏更好地选择那个装有钱的箱子。我的抽象解释是:**语言通过智能体中的推理实现泛化 (language generalizes through reasoning in agents) **。

一旦我们有了正确的 RL 先验知识(语言预训练)和 RL 环境(将语言推理作为行动加入),结果发现 RL 算法可能是最微不足道的部分。因此,我们有了 o-series、R1、deep research、计算机使用智能体 (computer-using agent),以及更多即将到来的成果。这是多么具有讽刺性的转折!长期以来,RL 研究者关心算法远胜于环境,而且没有人关注先验知识——所有的 RL 实验基本上都是从零开始。但我们花费了几十年的弯路才意识到,也许我们优先考虑的顺序本应完全颠倒。

但就像 Steve Jobs 所说:你无法预先把点点滴滴串联起来;唯有回顾时才能做得到 (You can’t connect the dots looking forward; you can only connect them looking backward)。

下半场

这个配方正在彻底改变游戏规则。回顾一下上半场的游戏:

  • 我们开发新颖的训练方法或模型,以提升基准表现 (hillclimb benchmarks)。
  • 我们创造更难的基准,并继续这个循环。

这个游戏规则正在被打破,因为:

  • 这个配方基本上已经将基准爬坡 (benchmark hillclimbing) 标准化和产业化了,不再需要更多的新想法。随着配方的规模化和泛化能力的提升,你针对特定任务的新颖方法可能只能带来 5% 的改进,而下一个 o-series 模型可能会在没有明确针对该任务的情况下带来 30% 的改进。
  • 即使我们创造了更难的基准,它们很快(而且越来越快地)会被这个配方解决。我的同事 Jason Wei 制作了一张漂亮的图表,很好地展示了这一趋势:

那么,下半场还剩下什么可玩的?如果不再需要新颖的方法,而更难的基准只会被越来越快地解决,我们该做什么?

我认为我们应该从根本上重新思考评估 (evaluation) **。这不仅仅意味着创建新的、更难的基准,而是要从根本上质疑现有的评估设置 (setups)** 并创建新的设置,从而迫使我们发明超越现有有效配方的新方法。这很困难,因为人类有惯性,很少质疑基本假设——你只是想当然地接受它们,而没有意识到它们是假设,而非定律。

为了解释惯性,假设你发明了历史上最成功的基于人类考试的评估之一。这在 2021 年是一个极其大胆的想法,但 3 年后它就饱和了。你会怎么做?最有可能的是创建一个更难的考试。或者假设你解决了简单的编程任务。你会怎么做?最有可能的是找到更难的编程任务来解决,直到达到 IOI 金牌水平。

惯性是自然的,但问题在于。AI 已经在国际象棋和围棋比赛中击败了世界冠军,在 SAT 和律师资格考试中超越了大多数人类,并在 IOI 和 IMO 中达到了金牌水平。但世界并没有发生太大变化,至少从经济和 GDP 来看是这样。

我称之为** 效用问题 (utility problem) **,并认为它是 AI 最重要的问题。

也许我们很快就能解决效用问题,也许不能。无论哪种方式,这个问题的根源可能看似简单:我们的评估设置在许多基本方面与真实世界设置不同。举两个例子:

  • 评估“应该”自动运行,因此通常智能体接收任务输入,自主完成任务,然后收到任务奖励。但实际上,智能体在整个任务过程中必须与人互动——你不会只给客服发一条超长消息,等 10 分钟,然后期望得到一个详细的回复解决所有问题。通过质疑这种设置,新的基准被发明出来,要么在循环中引入真实人类(例如 Chatbot Arena),要么引入用户模拟 (user simulation)(例如 tau-bench)。
  • 评估“应该”是独立同分布 (i.i.d.) 运行的。如果你有一个包含 500 个任务的测试集,你会独立运行每个任务,对任务指标取平均,得到一个总体指标。但实际上,你是按顺序解决任务,而不是并行处理。一位 Google SWE 在解决 google3 问题时,随着对代码库越来越熟悉,会做得越来越好,但一个 SWE 智能体在同一个代码库中解决许多问题,却无法获得这种熟悉度。我们显然需要长期记忆 (long-term memory) 方法(并且已经这些方法),但学术界 (academia) 缺乏合适的基准来证明这种需求,甚至缺乏足够的勇气去质疑作为机器学习基础的 i.i.d. 假设。

这些假设“一直”都是这样的,在 AI 的上半场,在这些假设下开发基准没有问题,因为**当智能水平较低时,提高智能通常会提高效用 (utility)**。但现在,通用的配方保证能在这些假设下奏效。因此,玩转下半场新游戏的方式是:

  • 我们为真实世界的效用开发新颖的评估设置或任务。
  • 我们用现有配方解决它们,或者用新颖的组件增强配方。继续这个循环。

这个游戏很难,因为它不熟悉。但它令人兴奋。上半场的玩家解决视频游戏和考试,而下半场的玩家则可以通过将智能转化为有用的产品来建立价值数十亿甚至数万亿美元的公司。上半场充满了增量式 (incremental) 的方法和模型,而下半场在某种程度上会过滤掉它们。通用的配方会碾压你的增量式方法,除非你创造出打破该配方的新假设。那时你就能做出真正改变游戏规则的研究。

欢迎来到下半场!

致谢

这篇博客文章基于我在 Stanford 224N 和 Columbia 所做的演讲。我使用了 OpenAI deep research 来阅读我的幻灯片并撰写草稿。

AI 的下半场:评估超越训练,效用定义未来(译)

https://liduos.com/the-second-half.html

作者

莫尔索

发布于

2025-04-20

更新于

2025-04-21

许可协议

评论