苹果最新研究：现有 AI 大模型“更像是在记忆，而非真正的推理”

更新时间：2025-08-13 10:36:40 发布时间：65天前浏览：6815 评论：0

内容摘要IT之家 6 月 8 日消息，苹果机器学习研究中心于当地时间 6 月 6 日发表了一篇研究论文，称现有 AI 模型并不具备真正的思维能力或推理能力，而是依赖于模式匹配与记忆，尤其是对于复杂的任务而言。苹果研究人员对现有的前沿“大型推理模型”

联系电话：400-962-3929

IT之家 6 月 8 日消息，苹果机器学习研究中心于当地时间 6 月 6 日发表了一篇研究论文，称现有 AI 模型并不具备真正的思维能力或推理能力，而是依赖于模式匹配与记忆，尤其是对于复杂的任务而言。

苹果研究人员对现有的前沿“大型推理模型”—— 如 OpenAI o3-mini、DeepSeek-R1、Anthropic 的 Claude 3.7 Sonnet Thinking 和谷歌 Gemini Thinking—— 进行了系统评估。

研究发现，尽管这些模型具备生成详细“思考链”的能力，并在中等复杂度任务上表现出优势，但其推理能力存在根本性局限：当问题复杂度超过特定临界点时，模型性能会完全崩溃至“零准确率”。

此外，在模型推理过程中，即使仍有充足的推理算力，它们用于“思考”的 token 数量反而随难度上升而减少，这种现象意味着现有推理方法存在根本局限性。

这篇《思考的幻象：通过问题复杂性的视角理解推理模型的优势与局限》由 Parshin Shojaee 等人撰写。研究表明，当前业界对这些模型的评估主要集中在数学和编程基准测试上，关注最终答案的准确性，但这往往忽略了数据污染问题，也无法提供有关内部推理轨迹结构和质量的洞见。

研究人员采用了一系列可控的解谜环境，允许精确操纵组成复杂性，同时保持逻辑结构的一致性。这使得不仅可以分析最终答案，还可以探究内部推理轨迹，从而更深入地了解这些模型是如何“思考”的。

研究团队提出，模型表现可分为三个阶段：

低复杂度任务：传统大模型（IT之家注：如 Claude-3.7 无思维版本）表现更佳；

中等复杂度任务：具备思维机制的大型推理模型（LRMs）更占优势；

高复杂度任务：两类模型均陷入完全失效状态。

特别是，研究发现 LRMs 在执行精确计算方面存在局限性，无法使用显式算法且跨不同谜题进行推理时表现出不一致性。

总的来说，这项研究不仅质疑了当前基于已建立数学基准的 LRMs 评估范式，还强调了需要更加细致的实验设置来探索这些问题。通过使用可控制的谜题环境，本研究提供了对语言推理模型能力和局限性的深刻见解，并为未来的研究指明了方向。

研究人员表示，“这些发现突出了现有 LRMs 的优点和局限性，引发了关于这些系统推理本质的问题，这对它们的设计和部署具有重要意义。”

参考资料：

《The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity - Apple Machine Learning Research》

举报收藏打赏 评论 0

版权声明 本文仅代表作者观点，不代表本站立场。
如遇本文系为网络转载到本站发表，图片或文章有版权问题的请联系客服确认后会立即删除文章。
如遇本文系作者授权本站发表，未经许可，不得转载。

--结束END--

有问题投稿请发送至: 邮箱/

本文标题: 苹果最新研究：现有 AI 大模型“更像是在记忆，而非真正的推理”

本文链接: http://www.cnhhw.cn/news/show-301408.html (转载时请保留)

0 条

别让空调“偷”走你的钱！避开这4个坑电费少交一半

科技 feitengjingxi ⋅ 19阅读量 ⋅ 0评论 ⋅ 9天前

2025-08-04
中国汽研回应理想i8和乘龙卡车对撞测试争议：仅验证车辆安全性

科技 ysyqym2010 ⋅ 17阅读量 ⋅ 0评论 ⋅ 9天前

2025-08-04
女子穿洛丽塔遭豪华酒店驱赶经理直言：就是歧视

科技 cypipe ⋅ 18阅读量 ⋅ 0评论 ⋅ 9天前

2025-08-04
高铁列车员发试卷：小朋友一秒静音

科技 w583104790 ⋅ 6阅读量 ⋅ 0评论 ⋅ 9天前

2025-08-04
CENSUSWIDE：2024年全球财务健康报告

科技 haizhiyuan2008 ⋅ 14阅读量 ⋅ 0评论 ⋅ 9天前

2025-08-04
Alterata：2024年全球性别多样性报告

科技 huangxiaolongbaby ⋅ 6阅读量 ⋅ 0评论 ⋅ 9天前

2025-08-04
Adobe&Econsultancy：2025年人工智能与数字趋势报告

科技 yidieya ⋅ 5阅读量 ⋅ 0评论 ⋅ 9天前

2025-08-04
你可曾听过微软Windows 11 SE将终止支持！主要面向低成本设备

科技 fszxslwj ⋅ 18阅读量 ⋅ 0评论 ⋅ 9天前

2025-08-04
沉浸式对接平台企业海贵携手探寻农文旅融合新突破

科技 dzxqhd ⋅ 14阅读量 ⋅ 0评论 ⋅ 9天前

2025-08-04
三条城际铁路通过初步验收

科技 zjtzslg ⋅ 3阅读量 ⋅ 0评论 ⋅ 9天前

2025-08-04

蒲建国

去ta空间

24小时热闻

今日推荐

浙ICP备19001410号-1

免责声明

本网站（以下简称“本站”）提供的内容来源于互联网收集或转载，仅供用户参考，不代表本站立场。本站不对内容的准确性、真实性或合法性承担责任。我们致力于保护知识产权，尊重所有合法权益，但由于互联网内容的开放性，本站无法核实所有资料，请用户自行判断其可靠性。

如您认为本站内容侵犯您的合法权益，请通过电子邮件与我们联系：675867094@qq.com。请提供相关证明材料，以便核实处理。收到投诉后，我们将尽快审查并在必要时采取适当措施（包括但不限于删除侵权内容）。本站内容均为互联网整理汇编，观点仅供参考，本站不承担任何责任。请谨慎决策，如发现涉嫌侵权或违法内容，请及时联系我们，核实后本站将立即处理。感谢您的理解与配合。

合作联系方式

如有合作或其他相关事宜，欢迎通过以下方式与我们联系：

电子邮件：675867094@qq.com
联系电话：400-962-3929