AGI 前夜的思考:未来预测、技术趋势与社会影响(译)
AI 搜索基础设施产品 Exa CEO 对 AI 接下来发展趋势的展望,分了长短期讨论,绝大多数观点都认可,故翻译于此,原文链接。
AGI 前夜的思考
这周我和几个朋友聊了 o3。他们的总结反应基本上是“卧槽,这真的要发生了吗?”
是的,这真的要发生了。未来几年会非常疯狂。这是历史性的,甚至是银河系级别的事件。
令人啼笑皆非的是,对正在发生的事情竟然没有深入的讨论。AI 实验室不能公开谈论。新闻报道也只是蜻蜓点水。政府更是完全摸不着头脑。
我们竟然在一个社交媒体的迷因应用新闻推送里讨论人类的未来,这感觉就像荒诞情景喜剧,但这就是现实。
下面是我对正在发生的事情的一些思考——我对 X 想法深渊的贡献。
请注意,这些想法都是半成品和有趣的推测。我没有足够的时间去思考/研究所有这些,而且我肯定会错很多。但我希望这些对那些试图理解正在发生的事情的人来说是有趣的。
请享用。
o3 本不应该令人震惊。OpenAI 两个月前就展示了测试时扩展图,计算机的历史告诉我们,无论趋势线多么不可思议,都要相信它。真正令人震惊的是它只用了两个月就发生了。我们从大学水平的 AI 到博士水平的 AI 的转变就是这么快。对人类来说,变化是令人兴奋的,但快速变化是令人震惊的。
接下来会发生什么,显而易见。o3 级别的模型非常擅长优化任何你能定义奖励函数的东西。数学和编程很容易设计奖励函数。小说创作则更难。这意味着在短期内(1 年),我们将得到一些“尖刺”模型。它们在数学、编程和一般推理方面基本上达到 AGI 水平,但在小说创作方面却很平庸。虽然更好的推理能力会让模型在各个方面都感觉更聪明,但它们仍然会在那些没有经过 RL 训练的愚蠢方面出错——也就是不在它们的训练数据中的情况。长期来看(1-3 年),我们将不断增加新的领域来进行 RL 训练(情感数据、感官数据等),直到盲点被消除,到那时,这些模型对任何不是 Gary Marcus 的人来说都将显然是 AGI。
Agents 真的会在 2025 年到来。o3 级别的模型肯定能够浏览网页/应用并执行操作。这些事情很容易设计奖励模型。这也是一个巨大的市场——自动化计算机工作——因此需要证明其巨额支出的实验室有很大的动力。我猜到 2025 年 12 月,你就可以告诉你的电脑执行任何涉及浏览网页/应用和移动数据的工作流程。
在所有被“烹饪”的知识分子中,数学家肯定是首当其冲的。数学家在符号空间中工作。他们的工作与物理世界的接触很少,因此不受其瓶颈限制。LLM 是符号空间的王者。数学其实并不难,只是灵长类动物不擅长而已。正则表达式也是如此。
- 一个重要的问题是,制作研究级别的合成数据有多难。我猜不会太难。博士级别的数学和研究人员级别的数学对我们来说看起来有质的不同,但对 AI 来说可能只是量的区别,只需要再多几个数量级的 RL。我给数学家 700 天的时间。(这听起来很疯狂,但 o6 没有击败数学家听起来同样疯狂,所以我对这个预测的信心超过 50%,就像这篇帖子中的所有其他预测一样)。700 天后,人类将不再是已知宇宙中数学领域的佼佼者。
那我们软件工程师呢?短期内,这将是天堂。每个软件工程师都升职为技术主管,干得漂亮。对于那些完全采用 LLM 的人来说,到 2025 年底,编程将更像是编排一堆小任务,让小 agents 去执行。任何规格非常清晰的 PR 都可以由 o4 系统完成,其错误率小到可以接受。这里的一个问题可能是上下文窗口太小,无法容纳整个代码库,但像 Sam 这样的领导者很清楚这一点。
- AI 会很快自动化所有软件工程师的工作吗?不会。软件工程不仅仅是根据非常清晰的提示制作 PR。与数学家不同,软件工程师不断与物理世界互动,即与其他人类互动。工程师必须与客户合作才能了解他们的需求,并与队友合作才能了解他们的需求。当工程师设计架构或编写代码时,他们会考虑大量的组织背景。o4 无法做到这一点。但 o4 将帮助那些有背景的工程师提高 10 倍的速度。
- 如果软件工程师的速度提高 10 倍,那么我们是否需要更少的人?好吧,如果你看一家特定的公司,那么他们可能需要更少的软件工程师,因为他们可以用更精简的团队实现相同的产出。然而,整个世界对软件工程师的需求可能会增加,因为世界肯定需要 10 倍的高质量软件。所以我认为我们将看到精简公司带来应用程序的黄金时代。为每个人和企业提供个性化的微应用。
从长远来看(>2 年被认为是长期),软件工程将完全不同,很难说会怎样。当 o6 系统存在并完全集成到我们的应用程序中时,怎么可能不呢?像前端工程师这样的角色可能在 3 年内就不存在了。这很奇怪吗?其实不然——前端工程师这个角色 30 年前也不存在。
- 我们应该退一步认识到,软件每一代都在颠覆自身。软件过去和将来都是关于将需求转化为纯粹的逻辑。这个转化过程的抽象层次已经从二进制上升到 Python。现在的区别在于,它正在上升到英语。
- 转向英语为非技术人员打开了编程的大门。但最好的构建者始终是那些能够上下移动抽象层次的人。
- 简而言之,由于软件工程实际上都是通过代码理解和解决组织的需求,因此软件工程完全自动化的那一天,就是所有组织都被自动化的那一天。
我们讨论了一些知识工作者,但体力劳动者呢?AI 也会来找你们,但速度会慢一些,因为它必须应对重力和摩擦。但 o 级别的模型对机器人技术的帮助不会那么大,因为一个需要一个小时的模型对工厂生产线上的机器人没有帮助。基础模型变得更聪明确实有帮助,o 级别的模型将有助于训练这些模型,但我认为这并不能解决机器人技术进步的最大瓶颈。我猜最大的瓶颈是硬件改进和快速/可靠的感知+行动模型。这两者都需要更长的时间才能改进(即几年)。只有当机器人开始制造机器人,AI 开始进行 AI 研究时,机器人技术才会出现疯狂的快速进步。这可能来自 o 级别的模型,但我认为这还需要几年时间。
我一直在用“年”作为单位,但也许我们应该用“计算量”作为单位。时间决定人类的产出,而计算量决定 AI 的产出,AI 的产出在研究机构中将越来越重要。这就是为什么建造超级集群的竞赛正在进行——Meta 的 2GW 集群,Xai 的额外 10 万个 H100 等。
- 所有实验室都会很快效仿 OpenAI 的测试时计算模型,有些实验室最初可以用更多的计算量来弥补较差的算法。他们会像赶上 GPT-4 一样赶上。要制作这些模型,需要结合常识和每个实验室的秘密武器。目前尚不清楚 OpenAI 在 o 级别模型方面有多少秘密武器,但他们的改进速度表明这是一种算法上的进步(更容易复制),而不是某种独特的数据组合(更难复制)。
- 在测试时计算的时代,我不清楚拥有更多的计算量还是更好的模型更重要。一方面,你可以通过投入更多的测试时计算量来弥补较差的模型。另一方面,稍微好一点的模型可能会节省指数级的计算量。
- 如果 Xai 仅仅因为更擅长启动大规模集群而赶上 OpenAI,那就有点搞笑了。
- 无论如何,模型护城河都不会持续超过一年,因为实验室像交换棒球卡一样交换研究人员,也许更重要的是,实验室之间的研究人员会一起聚会和睡觉。而且我认为研究人员太理想主义了,如果事情失控,他们不会不分享信息。
- 我们现在的情况有点疯狂。AI 竞赛就像核竞赛,但美国人和苏联人在周末一起在洛斯阿拉莫斯聚会,并在推特上互相嘲讽“我敢打赌你 2025 年不会拥有最大的核弹,哈哈 :)”
- 在政府介入和/或发生非常糟糕的事情之前,AI 竞赛将继续感觉嬉皮和充满乐趣。
o 级别模型以几种有趣的方式改变了计算量扩展的动态。
- o 级别模型激励大规模建设,因为它们在每个数量级的计算量上都有明显的收益。计算提供商不可能要求更好的扩展定律。我猜 Sam 想要一个数万亿美元的计算集群,就是看到了这个定律。
- 这对 Nvidia 来说可能并不好。o 级别模型使推理比训练更重要。我认为构建超级优化的推理芯片比训练芯片更容易,因此 Nvidia 在这方面没有那么大的护城河。
- 非常投机的想法:如果 o 级别模型解锁了全世界的聚合计算量来训练最好的模型呢?如果我们把我们的 MacBook Pro 聚集起来,形成一个推理千兆集群,开源是否会因此击败闭源?
AGI 前夜的思考:未来预测、技术趋势与社会影响(译)