Claude为一作发表了一篇论文，逐条反击苹果的“大模型推理能力崩溃论”

更新时间：2025-10-08 06:00:20 发布时间：113天前浏览：450 评论：0

内容摘要来源：DeepTech深科技近日，一场关于大型推理模型能力边界的学术争论在 AI 研究领域掀起波澜。继苹果公司发表论文质疑 DeepSeek-R1 等大型推理模型的根本能力后，社区内许多研究者纷纷对其提出质疑，认为苹果的结论更像是出于其在

来源：DeepTech深科技

近日，一场关于大型推理模型能力边界的学术争论在 AI 研究领域掀起波澜。继苹果公司发表论文质疑 DeepSeek-R1 等大型推理模型的根本能力后，社区内许多研究者纷纷对其提出质疑，认为苹果的结论更像是出于其在 AI 竞赛中暂时的落后而“吃不到葡萄说葡萄酸”。与此同时，针对研究内容本身的严谨性质疑也纷至沓来，甚至连 AI 模型本身也亲自下场，参与到了这场激烈的辩论之中。

来自 Open Philanthropy 的研究员 A. Lawsen 利用 Claude Opus 为第一作者发表了一篇针锋相对的反驳论文，题为《思考幻觉的幻觉：对 Shojaee 等人 (2025) 的评论》(The Illusion of the Illusion of Thinking: A Comment on Shojaee et al. (2025))。

在我们此前的报道中已经详细介绍过，苹果公司的研究团队通过让模型解答各种谜题，发现 DeepSeek-R1、o3-mini 和 Claude-3.7-Sonnet-Thinking 等前沿大型推理模型在超过某一复杂度阈值之后，准确率会出现全面崩溃。苹果研究团队认为，这表明这些模型并未真正发展出可泛化的推理能力，而只是在进行某种形式的模式匹配。例如，模型可以在汉诺塔中完成多达 100 个正确的动作，但在逻辑推理游戏渡河谜题中却无法给出超过 5 步的正确操作。

然而，这篇反驳论文以及其他相关质疑都指向了一个根本性问题：苹果团队的发现主要反映了实验设计的几个局限性，而非模型的根本性推理失败。第一个核心问题是“物理令牌限制驱动了表象上的崩溃”。

Claude 的研究发现，在苹果报告的失败点上，汉诺塔实验系统性地超出了模型的输出 token 限制。论文引用了 X 用户 @scaling01 的复现实验，他捕获到模型输出明确表示：“模式继续，但为了避免过长，我将在这里停止”。

@scaling01 指出，汉诺塔至少需要 2^N-1 次移动，而苹果使用的输出格式每次移动需要 10 个 token 加上一些常量。更关键的是，不同模型的输出限制差异很大：Sonnet 3.7 为 128k token，DeepSeek R1 为 64k token，o3-mini 为 100k token，这些限制还包括模型在输出最终答案前使用的推理 token。

图丨相关推文（来源：X）

这意味着所有模型在超过 13 个盘子时准确率都会变为零，纯粹是因为它们无法输出那么多内容。@scaling01 计算出，在没有任何推理空间的情况下，最大可解决大小为：DeepSeek 12 个盘子，Sonnet 3.7 和 o3-mini 13 个盘子。当实际观察模型输出时会发现，如果问题变得太大，模型甚至不会对问题进行推理，而是直接表示“由于移动次数庞大，我将解释解决方法而不是逐一列出所有 32,767 次移动”。

Claude 论文量化了这种关系：苹果的评估格式要求在每个步骤输出完整的移动序列，导致二次 token 增长。如果每个序列中的移动大约需要 5 个 token，那么总 token 需求 T(N) ≈ 5(2^N - 1)^2 + C。给定分配的 token 预算，最大可解决大小完全可以通过数学公式预测，而报告的“崩溃”正好与这些物理约束一致。

@scaling01 还发现了一个有趣的现象：对于 Sonnet 来说，一旦超过大约 7 个盘子，它就不会尝试推理问题。它会说明问题是什么以及解决它的算法，然后输出解决方案而不考虑个别步骤。这种行为模式进一步支持了 Claude 论文的观点，即模型理解问题和算法，但受到输出格式的限制。

更为严重的问题出现在河流渡河实验中。Claude 论文指出，苹果团队测试了 N≥6 个行为者使用船只容量 b=3 的实例，但这是一个早已确立的数学结果：传教士-食人族谜题及其变体对于 N 5 且 b=3 的情况根本没有解决方案。通过自动将这些不可能的实例评为失败，研究团队无意中展示了纯程序化评估的危险——模型得到零分不是因为推理失败，而是因为正确识别了不可解决的问题。

@scaling01 从另一个角度分析了复杂性度量的问题。他指出，苹果研究使用最优路径长度作为问题复杂性的代理指标是根本错误的，因为它没有告诉我们找到任何解决方案有多困难，只是告诉我们解决方案的长度。即使汉诺塔的搜索空间巨大，你实际上不必执行任何搜索或回溯，因为只有一个简单的规则要应用（大型语言模型知道），因此只有一条可能的路径。

为了验证这一观点，@scaling01 让 o3 和 Gemini 2.5 Pro 搜索游戏复杂性的其他更合适的指标，结果一致地将游戏难度排名为：河流渡河积木世界跳棋跳跃汉诺塔。这一排名也与苹果研究的图表中显示的内容完全一致，这意味着苹果团队的“模型可能在较低组合深度的谜题上遇到困难，同时在较高组合深度的不同谜题上取得成功”。这一发现并不令人意外，而是完全可以预期的。

除了上述问题，还有研究者质疑了使用汉诺塔这类知名谜题测试推理能力的合理性。他指出，如果担心数学和编程基准存在污染问题，为什么要选择解决方案已知存在于训练数据中的著名谜题？汉诺塔算法在模型训练数据中反复出现，给模型提供算法当然不会有太大帮助——模型已经知道算法是什么。此外，推理模型经过了数学和编程的专门训练，而不是谜题训练。有用户指出这就像说“语言模型在写彼特拉克十四行诗方面没有比 GPT-3.5 好多少，所以我认为没有取得真正的进步”。

图丨相关博文（来源：sean goedecke）

对于苹果研究声称的“复杂度阈值”意味着模型无法推理的观点，许多网友提出了一个灵魂拷问：“多少人类能够坐下来正确计算出一千步汉诺塔？”答案是极少数。但这是否意味着那些做不到或不愿做的人就不具备推理能力？当然不是。他们只是缺乏执行上千次枯燥迭代的耐心和细致。正如一位 Reddit 用户所说：“人类能推理，不代表人类有能力写下几千步的汉诺塔。反之，写不下几千步也不代表它不能推理。”

当然，这种将模型行为“拟人化”的解读也并非没有争议。另一派评论者认为，将模型的行为描述为“不愿意”或“寻找捷径”是一种过度解读。他们指出，关键在于模型在面对更复杂的 8、9、10 盘问题时，甚至连通用的递归算法都没能成功导出，这足以说明其推理能力在根本上是脆弱的，仅仅是在模拟简单情况下的推理模式。

为了进一步证明问题出在评估方法而非模型能力，Claude 的研究进行了一个关键实验。他们对相同模型进行了汉诺塔 N=15 的测试，但使用了不同的表示方法：要求模型输出一个调用时打印解决方案的 Lua 函数，而不是详尽列举所有移动步骤。结果显示，在测试的模型中准确率很高，在不到 5,000 个 token 内完成。生成的解决方案正确实现了递归算法，展示了当摆脱详尽枚举要求时模型完整的推理能力。

论文总结道，苹果的研究结果实际上揭示了一些有价值的工程性见解：模型无法输出超过其上下文限制的令牌、程序化评估可能会错过模型的能力和谜题本身的可解性，以及解决方案的长度并不能很好地预测问题的难度。但是，这些都不能支持其关于“模型存在根本性推理局限”的核心主张。

“问题的关键可能不在于大型推理模型能否推理，而在于我们的评估体系是否能够将推理能力与‘打字’能力区分开来。”

参考资料：

1.pdf/2506.09250v1

2.illusion-of-thinking/

3.scaling01/status/1931783050511126954

运营/排版：何晨龙

举报收藏打赏 评论 0