苹果联合推出 AI 交错推理方法,Qwen2.5 模型响应速度快 80%、准确率提高 19.3%

内容摘要IT之家 5 月 30 日消息,科技媒体 marktechpost 昨日(5 月 29 日)发布博文,报道称苹果公司携手杜克大学,提出交错推理(Interleaved Reasoning)的全新强化学习(Reinforcement lear

联系电话:400-962-3929

IT之家 5 月 30 日消息,科技媒体 marktechpost 昨日(5 月 29 日)发布博文,报道称苹果公司携手杜克大学,提出交错推理(Interleaved Reasoning)的全新强化学习(Reinforcement learning,RL)方法,进一步提升大语言模型的推理能力。

主流大语言模型在处理多步复杂问题时,常采用“先思考后回答”的长链式推理方式。然而,这种方法存在两大痛点:一是响应时间过长,难以满足实时交互需求;二是早期推理步骤出错可能导致最终答案偏差。

研究人员指出,与人类在对话中随时分享部分想法不同,模型往往等到推理全部完成才输出结果,导致效率不高。

苹果公司携手杜克大学,研发了交错推理技术,让模型在推理过程中交替进行内部思考和输出中间答案(sub-answer),从而提升速度与实用性。

交错推理基于强化学习(RL)框架,采用特殊的训练模板,包含 和 answer 标签,确保模型在达到关键推理节点时输出中间结果。

研究团队设计了基于规则的奖励机制,包括格式、最终准确率和条件性中间准确率,确保模型注重整体正确性。

测试中,交错推理在 Qwen2.5 模型(1.5B 和 7B 参数)上表现优异,响应速度提升超 80%,准确率提高高达 19.3%。

此外,该方法仅在问答(QA)和逻辑数据集上训练,却能在 MATH、GPQA、MMLU 等更具挑战性的基准测试中展现强大泛化能力。

研究还尝试了多种奖励策略,如全或无、部分积分和时间折扣奖励,其中条件性和时间折扣奖励效果最佳,显著优于传统方法。

IT之家附上参考地址

 
举报 收藏 打赏 评论 0
今日推荐
浙ICP备19001410号-1

免责声明

本网站(以下简称“本站”)提供的内容来源于互联网收集或转载,仅供用户参考,不代表本站立场。本站不对内容的准确性、真实性或合法性承担责任。我们致力于保护知识产权,尊重所有合法权益,但由于互联网内容的开放性,本站无法核实所有资料,请用户自行判断其可靠性。

如您认为本站内容侵犯您的合法权益,请通过电子邮件与我们联系:675867094@qq.com。请提供相关证明材料,以便核实处理。收到投诉后,我们将尽快审查并在必要时采取适当措施(包括但不限于删除侵权内容)。本站内容均为互联网整理汇编,观点仅供参考,本站不承担任何责任。请谨慎决策,如发现涉嫌侵权或违法内容,请及时联系我们,核实后本站将立即处理。感谢您的理解与配合。

合作联系方式

如有合作或其他相关事宜,欢迎通过以下方式与我们联系: