AI 推理能力之争：苹果结论遭专家挑战

更新时间：2025-09-24 01:07:55 发布时间：101天前浏览：8424 评论：0

内容摘要IT之家 6 月 14 日消息，科技媒体 9to5Mac 昨日（6 月 13 日）发布博文，报道称苹果公司 6 月 6 日发布的 AI 研究论文《The Illusion of Thinking》引发争议，专家质疑评估方法。苹果公司在论文中

IT之家 6 月 14 日消息，科技媒体 9to5Mac 昨日（6 月 13 日）发布博文，报道称苹果公司 6 月 6 日发布的 AI 研究论文《The Illusion of Thinking》引发争议，专家质疑评估方法。

苹果公司在论文中指出，即便是当前最先进的大型推理模型（LRMs），在复杂任务中也会崩溃。不过 Open Philanthropy 的研究员 Alex Lawsen 对此提出详细反驳，认为苹果的结论源于实验设计缺陷，而非模型推理能力的根本性局限。

争议的焦点是苹果论文指出，即便是当前最先进的大型推理模型，在处理汉诺塔问题（Tower of Hanoi）等复杂任务时，也会出现彻底失败的情况。

IT之家注：汉诺塔问题是一个经典的递归算法问题：上帝创造了三根柱子，并在第一根柱子上按顺序套有 N 个大小不同的圆盘（自下而上，圆盘由大到小，呈金字形）。

规定每次只能移动最顶端的一个圆盘，并且保证整个过程中大圆盘不能放在小圆盘之上。欲将所有圆盘从第一根柱子移动到第三根柱子，试给出解决方案。

Open Philanthropy 的研究员 Alex Lawsen 近日发布反驳文章《The Illusion of the Illusion of Thinking》，认为苹果的研究结果更多反映了实验设计的缺陷，而非模型推理能力的真正局限。他在文章中直言，苹果的研究混淆了输出限制和评估设置问题，与实际推理失败无关。

Lawsen 提出了三个核心问题，挑战苹果的结论。首先，他指出苹果忽略了模型的 Token 预算限制。在处理 8 盘以上的河内塔问题时，如 Anthropic 的 Claude Opus 等模型已接近输出上限，甚至明确表示“为节省 Token 而停止”。

其次，苹果的 River Crossing（过河）测试中包含无解谜题，例如 6 个以上角色搭配无法满足的船只容量限制，模型因拒绝解答而被扣分。

最后，苹果的自动化评估脚本仅以完整步骤列表为标准，未能区分推理失败与输出截断，导致部分策略性输出被误判为失败。Lawsen 认为，这种僵硬的评估方式有失公允。

为支持观点，Lawsen 重新设计了河内塔测试，要求模型生成递归 Lua 函数来打印解法，而非逐一列出所有步骤。

结果令人惊讶：Claude、Gemini 和 OpenAI 的 o3 模型均能正确生成 15 盘问题的算法解法，远超苹果报告的“零成功”复杂性界限。

Lawsen 得出结论：去除人为输出限制后，LRMs 展现出处理高复杂任务的推理能力，至少在算法生成层面是如此。这表明，问题可能不在于模型本身，而在于评估方式。

举报收藏打赏 评论 0