大模型“缩放定律”悖论：RL越强，AGI越远？

发布时间：2025-12-24 已有：位网友关注

　　在人工智能迈向通用智能的竞赛中，当前最受追捧的强化学习路径，可能正将我们引向一条歧路——RL越强，距离真正的AGI或许越远。

　　12月24日，知名科技博主、Dwarkesh Podcast博客主持人Dwarkesh Patel今日发布了一则引发行业深思的，直击当前大模型发展的痛点。在硅谷普遍对Scaling Law和RL持极度乐观态度的背景下，Patel提出了一个反直觉的犀利观点：对RL的过度依赖和投入，可能非但不是通往AGI的捷径，反而是其远未到来的明确信号。

　　Patel的核心论点在于，当前顶尖AI实验室正耗费巨资，通过基于可验证结果的强化学习，为大模型“预制”大量特定技能，例如操作Excel或浏览网页。然而，这一做法本身就构成了逻辑上的冲突。他犀利地指出：“如果我们真的接近一个类人学习者，那么这套在可验证结果上进行训练的整个方法就注定要失败。”

　　在Patel看来，这种“预置”技能的模式，恰恰暴露了当前模型的根本缺陷。人类之所以在工作中具有价值，正是因为我们不需要为工作的每一个细微部分都建立专门的“繁琐训练循环”。一个真正的智能体应该能够通过经验和反馈自主学习，而不是依赖于预先排练好的脚本。如果AI无法做到这一点，那么其通用性就大打折扣，离真正的AGI也就相去甚远。

　　因此，Patel认为，通往更强大AI的真正驱动力，并非无尽的RL，而是“持续学习”——即像人类一样从经验中学习的能力。他预测，解决持续学习问题不会是一蹴而就的“单一成就”，而会是一个渐进的过程，类似于模型在“上下文学习”能力上的逐步演进。这个过程可能需要“5到10年才能完善”，从而排除了某个模型因率先破解该难题而获得“失控优势”的可能性。

　　：目前的模型依赖“预先植入”技能，这恰恰证明了它们缺乏人类具备的通用学习能力，AGI并不是迫在眉睫的。

　　：机器人问题本质是算法问题而非硬件问题。如果拥有类人学习能力，机器人早已普及，无需在该特定环境下反复训练百万次。

　　：所谓“技术扩散需要时间”是自我安慰。如果模型真有类人智能，它们会瞬间被企业吸纳，因为它们比雇佣人类更低风险且无需培训。

　　：全球知识工

　　：AGI的真正瓶颈在于“持续学习”能力，而非单纯的RL算力堆叠。真正的AGI可能需要未来10到20年才能实现。

　　文字全文实录：

　　Dwarkesh Patel 00:00我很困惑。为什么有些人一方面认为AGI很快就会实现，另一方面却看好在顶级大模型上扩大强化学习的应用？如果我们真的接近造出一个像人类一样的学习者，那么这种基于“可验证结果”进行训练的整套方法注定是[*]路一条。目前，各大实验室正试图通过中途训练将大量技能“烘焙”进这些模型中。现在有一整条供应链的公司正在构建虚拟环境，教模型如何浏览网页或使用Excel建立财务模型。现在的情况是，要么这些模型很快就能以自我导向的方式在职学习，这将使所有这些“预烘焙”工作变得毫无意义；要么它们不能，这意味着AGI并非迫在眉睫。人类不需要经历这种特殊的训练阶段，也无需排练他们在工作中可能需要使用的每一个软件。Dwarkesh Patel 00:45Baron Millage在他最近的一篇博客中对此提出了一个有趣的观点。他写道：“当我们看到前沿模型在各种基准测试中取得进步时，我们不应只想到规模的增加和聪明的机器学习研究思路，还应想到支付给博士、医学博士和其他专家的数十亿美元，让他们编写问题并提供针对这些精确能力的示例答案和推理过程。”Dwarkesh Patel 01:07你可以在机器人领域最生动地看到这种张力。从某种根本意义上说，机器人学是一个算法问题，而不是硬件或数据问题。人类只需要很少的训练，就可以学习如何操作当前的硬件来做有用的工作。因此，如果你真的拥有一个类人的学习者，机器人学在很大程度上将是一个已解决的问题。但事实是，我们没有这样一个学习者，这使得我们必须走进1000个不同的家庭，练习一百万次如何拿起盘子或折叠衣物。Dwarkesh Patel 01:32现在，我从那些认为我们要么在未来五年内实现腾飞的人那里听到的一个论点是：我们需要做所有这些笨拙的RL工作，是为了构建一个超人类的AI研究员。然后，这百万个自动化的“Ilya”副本可以去搞清楚如何解决从经验中进行稳健且高效学习的问题。这给我的感觉就像那个老笑话：“我们要么每笔生意都亏钱，但我们会通过走量把钱赚回来。”这个自动化的研究员将找出AGI的算法——这是一个人类在这个世纪的大半时间里都在绞尽脑汁解决的问题——而它甚至不具备儿童拥有的基本学习能力。我觉得这极不可能。Dwarkesh Patel 02:09此外，即使你相信这一点，这也不能描述实验室目前如何通过“可验证奖励”来进行强化学习的方法。为了自动化“Ilya”，你不需要预先植入制作PPT幻灯片的咨询顾问技能。所以很明显，实验室的行动暗示了一种世界观，即这些模型将继续在泛化能力和在岗学习方面表现不佳，从而使得有必要预先将我们希望具有经济用途的技能构建到这些模型中。Dwarkesh Patel 02:36你目前可以提出的另一个论点是，即使模型可以在工作中学习这些技能，但在训练期间一次性构建这些技能，比为每个用户和每个公司一次又一次地构建要高效得多。听着，将常见工具的流畅使用能力直接植入模型是非常有意义的。确实，AGI拥有的关键优势之一是这种在副本之间共享知识的巨大能力。但人们真的低估了大多数工作所需的“公司特定”和“语境特定”技能的数量。目前还没有一种稳健、高效的方法让AI掌握这些技能。我最近和一个AI研究员以及一位生物学家共进晚餐，结果发现这位生物学家对AGI的时间线预期很长。所以我们问她为什么预期这么长。她说：“你知道，最近实验室工作的一部分涉及查看幻灯片，并决定幻灯片中的那个点实际上是一个巨噬细胞，还是仅仅看起来像一个巨噬细胞。”正如你所预料的那样，那位AI研究员回应道：“看，图像分类是一个教科书式的深度学习问题。这是[*]板的中心问题，也是我们可以训练这些模型去做的那种事情。”Dwarkesh Patel 03:45我觉得这是一次非常有趣的交流，因为它阐明了我与那些预期未来几年内会有变革性经济影响的人之间的关键症结。人类工人之所以有价值，正是因为我们不需要为他们工作的每一个细小部分建立那些繁琐的训练循环。鉴于这个实验室制备幻灯片的特定方式，建立一个定制的训练管道来识别巨噬细胞的样子，然后为下一个特定的微任务再建立一个训练循环，依此类推，这并不是净生产力的提升。你真正需要的是一个能够从语义反馈或自我导向的经验中学习，然后像人类一样进行泛化的AI。每天，你都要做100件需要判断力、情境感知以及在工作中习得的技能和背景知识的事情。这些任务不仅因人而异，甚至同一个人每天的任务也不同。仅仅通过植入一套预定义的技能来自动化单一工作是不可能的，更不用说所有的工作了。Dwarkesh Patel 04:46事实上，我认为人们真的低估了真正的AGI将是多么大的一件事，因为他们只是想象当前这种制度的延续。他们没有思考服务器上数十亿个类人智能，它们可以和合并所有的学习成果。明确一点，我预期这一点会发生，也就是说，我预期在未来一二十年内会出现真正的大脑般的智能，这已经相当疯狂了。Dwarkesh Patel 05:09有时人们会说，AI目前没有在企业中更广泛部署并在编码之外提供大量价值的原因是，技术扩散需要很长时间。我认为这是“Cope”，人们用这种托词来掩盖这样一个事实：这些模型就是缺乏产生广泛经济价值所必需的能力。Dwarkesh Patel 05:28如果这些模型真的像服务器上的人类，它们会以难以置信的速度扩散。事实上，它们比普通人类员工更容易整合和入职。它们可以阅读你所有的Slack记录并在几分钟内上手。它们可以立即提炼出你其他AI员工拥有的所有技能。此外，人类的招聘市场非常像一个“柠檬市场”，很难预先知道谁是优秀的人才。显然，雇佣一个结果很差的人成本是非常高的。如果你只是启动一个经过验证的API模型的另一个实例，这就不是你必须面对或担心的一种动态。Dwarkesh Patel 06:05所以基于这些原因，我预计将AI劳动力扩散到企业中要比雇佣一个人容易得多。而公司无时无刻不在招人。Dwarkesh Patel 06:14如果能力真的达到了AGI水平，人们会愿意每年花费数万亿美元购买这些模型生成的Token。全世界的知识工

上一篇：铂涨超7%

下一篇：中信银行行长芦苇出任邮政集团副总经理

温馨提示：所有理财类资讯内容仅供参考，不作为投资依据。

大模型“缩放定律”悖论：RL越强，AGI越远？

推荐

热门