苹果《思考的错觉》再挨批，Claude与人类共著论文指出其三大关键缺陷

更新时间：2025-08-12 21:55:56 发布时间：59天前浏览：5383 评论：0

内容摘要几天前，苹果一篇《思考的错觉》论文吸睛无数又争议不断，其中研究了当今「推理模型」究竟真正能否「推理」的问题，而这里的结论是否定的。论文中写到：「我们的研究表明，最先进的 LRM（例如 o3-mini、DeepSeek-R1、Claude-3

联系电话：400-962-3929

几天前，苹果一篇《思考的错觉》论文吸睛无数又争议不断，其中研究了当今「推理模型」究竟真正能否「推理」的问题，而这里的结论是否定的。

论文中写到：「我们的研究表明，最先进的 LRM（例如 o3-mini、DeepSeek-R1、Claude-3.7-Sonnet-Thinking）仍然未能发展出可泛化的解决问题能力 —— 在不同环境中，当达到一定复杂度时，准确度最终会崩溃至零。」

不过，这篇论文的研究方法也受到了不少质疑，比如我们的一位读者就认为「给数学题题干加无关内容，发现大模型更容易答错，而质疑大模型不会推理」的做法并不十分合理。

著名 LLM 唱衰者 Gary Marcus 也发文指出这项研究的缺点，并再次批评 LLM。总结起来，他的意见有 7 点：

p/seven-replies-to-the-viral-apple

人类在处理复杂问题和记忆需求方面存在困难。

大型推理模型 (LRM) 不可能解决这个问题，因为输出需要太多的输出 token。

这篇论文是由一名实习生撰写的。

更大的模型可能表现更好。

这些系统可以用代码解决这些难题。

这篇论文只有四个例子，其中至少有一个（汉诺塔）并不完美。

这篇论文并不新鲜；我们已经知道这些模型的泛化能力很差。

而现在，我们迎来了对这项研究更强有力的质疑：《思考的错觉的错觉》。是的，你没有看错，这就是这篇来自 Anthropic 和 Open Philanthropy 的评论性论文的标题！其中指出了那篇苹果论文的 3 个关键缺陷：

汉诺塔实验在报告的失败点系统性地超出了模型输出 token 的限制，而模型在其输出中明确承认了这些限制；

苹果论文作者的自动评估框架未能区分推理失败和实际约束，导致对模型能力分类错误；

最令人担忧的是，由于船容量不足，当 N ≥ 6 时，他们的「过河（River Crossing）」基准测试包含在数学上不可能出现的实例，但模型却因未能解答这些本就无法解决的问题而被评为失败。

论文很短，加上参考文献也只有短短 4 页内容。而更有趣的是，来自 Anthropic 的作者名为 C. Opus，实际上就是 Claude Opus。另需指出，另一位作者 Alex Lawsen 是一位「AI 治理与政策高级项目专员」，曾经也担任过英国 Sixth Form College（第六学级学院）的数学和物理学教师。（第六学级学院是英国教育体系中的一种专门为 16 至 19 岁学生开设的学院，是英国中学教育（Secondary Education）之后、大学教育（Higher Education）之前的一个关键阶段。）

lxrjl/status/1932499153596149875

所以，这其实是一篇 AI 与人类合著的论文，并且 AI 还是第一作者。

论文标题：The Illusion of the Illusion of Thinking

论文地址：pdf/2506.09250v1

下面我们就来看看这篇评论性论文的具体内容。

1 引言

Shojaee et al. (2025) 声称通过对规划难题的系统评估，发现了大型推理模型（LRM）的根本局限性。他们的核心发现对 AI 推理研究具有重要意义，即：在超过某些复杂度阈值后，模型准确度会「崩溃」为零。

然而，我们的分析表明，这些明显的失败源于实验设计的选择，而非模型固有的局限性。

2 模型能识别输出约束

苹果的原始研究中忽略了一个关键观察结果：模型在接近输出极限时能够主动识别。

举报收藏打赏 评论 0

版权声明 本文仅代表作者观点，不代表本站立场。
如遇本文系为网络转载到本站发表，图片或文章有版权问题的请联系客服确认后会立即删除文章。
如遇本文系作者授权本站发表，未经许可，不得转载。

--结束END--

有问题投稿请发送至: 邮箱/

本文标题: 苹果《思考的错觉》再挨批，Claude与人类共著论文指出其三大关键缺陷

本文链接: http://www.cnhhw.cn/news/show-317565.html (转载时请保留)

0 条

别让空调“偷”走你的钱！避开这4个坑电费少交一半

科技 feitengjingxi ⋅ 19阅读量 ⋅ 0评论 ⋅ 8天前

2025-08-04
中国汽研回应理想i8和乘龙卡车对撞测试争议：仅验证车辆安全性

科技 ysyqym2010 ⋅ 17阅读量 ⋅ 0评论 ⋅ 8天前

2025-08-04
女子穿洛丽塔遭豪华酒店驱赶经理直言：就是歧视

科技 cypipe ⋅ 18阅读量 ⋅ 0评论 ⋅ 8天前

2025-08-04
高铁列车员发试卷：小朋友一秒静音

科技 w583104790 ⋅ 6阅读量 ⋅ 0评论 ⋅ 8天前

2025-08-04
CENSUSWIDE：2024年全球财务健康报告

科技 haizhiyuan2008 ⋅ 14阅读量 ⋅ 0评论 ⋅ 8天前

2025-08-04
Alterata：2024年全球性别多样性报告

科技 huangxiaolongbaby ⋅ 6阅读量 ⋅ 0评论 ⋅ 8天前

2025-08-04
Adobe&Econsultancy：2025年人工智能与数字趋势报告

科技 yidieya ⋅ 5阅读量 ⋅ 0评论 ⋅ 8天前

2025-08-04
你可曾听过微软Windows 11 SE将终止支持！主要面向低成本设备

科技 fszxslwj ⋅ 18阅读量 ⋅ 0评论 ⋅ 8天前

2025-08-04
沉浸式对接平台企业海贵携手探寻农文旅融合新突破

科技 dzxqhd ⋅ 14阅读量 ⋅ 0评论 ⋅ 8天前

2025-08-04
三条城际铁路通过初步验收

科技 zjtzslg ⋅ 3阅读量 ⋅ 0评论 ⋅ 8天前

2025-08-04

王家收

去ta空间

24小时热闻

今日推荐

浙ICP备19001410号-1

免责声明

本网站（以下简称“本站”）提供的内容来源于互联网收集或转载，仅供用户参考，不代表本站立场。本站不对内容的准确性、真实性或合法性承担责任。我们致力于保护知识产权，尊重所有合法权益，但由于互联网内容的开放性，本站无法核实所有资料，请用户自行判断其可靠性。

如您认为本站内容侵犯您的合法权益，请通过电子邮件与我们联系：675867094@qq.com。请提供相关证明材料，以便核实处理。收到投诉后，我们将尽快审查并在必要时采取适当措施（包括但不限于删除侵权内容）。本站内容均为互联网整理汇编，观点仅供参考，本站不承担任何责任。请谨慎决策，如发现涉嫌侵权或违法内容，请及时联系我们，核实后本站将立即处理。感谢您的理解与配合。

合作联系方式

如有合作或其他相关事宜，欢迎通过以下方式与我们联系：

电子邮件：675867094@qq.com
联系电话：400-962-3929