英伟达揭示RL Scaling魔力！训练步数翻倍=推理能力质变，小模型突破推理极限

更新时间：2025-08-11 23:52:05 发布时间：68天前浏览：474 评论：0

内容摘要强化学习（RL）到底是语言模型能力进化的「发动机」，还是只是更努力地背题、换个方式答题？这个问题，学界争论已久：RL 真能让模型学会新的推理技能吗，还是只是提高了已有知识的调用效率？过去的研究多数持悲观态度：认为 RL 带来的收益非常有限，

联系电话：400-962-3929

强化学习（RL）到底是语言模型能力进化的「发动机」，还是只是更努力地背题、换个方式答题？这个问题，学界争论已久：RL 真能让模型学会新的推理技能吗，还是只是提高了已有知识的调用效率？

过去的研究多数持悲观态度：认为 RL 带来的收益非常有限，有时甚至会让模型「同质化」加重，失去多样性。然而，来自英伟达的这项研究指出，造成这一现象的根本原因在于：数学、编程等任务在 base model 的训练数据中被过度呈现，以及 RL 训练步数不足。

论文题目：ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

链接：pdf/2505.24864

ProRL 来了！长期训练 = 推理能力质变！

由 NVIDIA 团队提出的 ProRL（Prolonged Reinforcement Learning）框架，将 RL 训练步数从传统的几百步大幅提升至 2000 步以上，释放了小模型潜藏的巨大潜力。结果令人震惊：

原本完全不会做的逻辑谜题，ProRL 模型的 pass@k 能达到 100%

创造力指标（Creativity Index）飙升，模型能主动生成全新解题路径

不再是「蒙对答案」，而是真正「开窍」了！

这一突破主要来自于稳定长期的强化学习，然而，长期 RL 训练并不容易，容易出现熵崩塌、性能震荡、甚至「摆烂」。为此，团队构建了完整的技术组合拳：

多样化可验证奖励任

引入了数学、编程、科学问答（STEM）、逻辑谜题、指令遵循等多领域数据，这些任务具有程序化可验证的正确答案，为 RL 训练提供了可靠、客观的监督信号，不再依赖「易被骗」的奖励模型。

改进算法组合：GRPO + DAPO

在 GRPO（Group Relative Policy Optimization）框架基础上，融合 DAPO（Decoupled Clip and Dynamic Sampling）关键的解耦裁剪（Decoupled Clipping）来避免策略更新失衡，以及动态采样（Dynamic Sampling）来过滤掉「太容易」或「完全不会」的无效样本，提升训练效率。

KL 正则化 + 周期性策略重置

与一些去 KL 正则的做法相反，本论文发现适度 KL 惩罚是稳定训练的关键。同时引入参考策略重置机制：当 KL 骤增或性能下滑时，重置参考策略为当前模型副本，并重置优化器，让训练「重启」。这个简单机制有效打破训练停滞，使模型持续进化。

基于 ProRL 技术，团队训练出 Nemotron-Research-Reasoning-Qwen-1.5B，展现出惊人的性能优势：

在数学任务中提升 14.7%，赶超 7B 模型

在代码生成上领先 DeepCoder-1.5B 达 6.5%

在逻辑推理方面，准确率提升高达 54.8%

ProRL 真的能够拓宽模型能力边界

近来，对于 RL 是否能够拓宽模型的能力边界一直有争议。作者在文章中着重分析了 RL 是否能够拓宽能力边界的问题，并且发现，长期稳定的 RL 能够带来模型能力的真正提升。围绕着这个主题，文章主要揭示了三个方面的发现：

RL 模型能解出 base model 无论如何采样都完全答不出的题，甚至做到 pass@k 100%。这不是随机波动，而是新能力的诞生。

强化学习带来的提升与基础模型的初始表现之间呈显著负相关关系。在那些 base model 表现较弱的任务（初始 pass@k 较低），RL 展现出极强的「推理边界扩展」能力。

而在本身已经很强的领域，如数学和代码（这些任务的「创造力指数」较低），ProRL 的边界扩展则较为有限。对于图中「Diminished Area」中提升较小的任务，作者观察到一个共同特征：这些任务在预训练数据中已被充分覆盖，缺乏进一步扩展的空间，因此 RL 提供的增益有限。

模型不仅「答对」，还「想得新」。作者使用 Creativity Index 对模型生成的解题路径进行量化评估，发现：训练步数越长，模型「跳出预训练语料」的能力越强。解题方式不再拘泥于模板套路，而是展现出更丰富、更具创造性的推理策略。

总结

这项来自 NVIDIA 的研究，让我们重新认识了 RL 的真正潜力——不仅能优化策略，还能扩展模型的能力边界。

通过 ProRL，我们第一次看到「小模型」也可以在复杂推理任务中「迎难而上」，甚至跑赢大模型。而这种进步，不靠更多数据、不靠更大模型，只靠更长、更稳、更聪明的训练流程。

未来，如果你想做出推理能力强、部署成本低、泛化能力强的小语言模型，ProRL 可能正是那把钥匙。

举报收藏打赏 评论 0

版权声明 本文仅代表作者观点，不代表本站立场。
如遇本文系为网络转载到本站发表，图片或文章有版权问题的请联系客服确认后会立即删除文章。
如遇本文系作者授权本站发表，未经许可，不得转载。

--结束END--

有问题投稿请发送至: 邮箱/

本文标题: 英伟达揭示RL Scaling魔力！训练步数翻倍=推理能力质变，小模型突破推理极限

本文链接: http://www.cnhhw.cn/news/show-293991.html (转载时请保留)

0 条

别让空调“偷”走你的钱！避开这4个坑电费少交一半

科技 feitengjingxi ⋅ 19阅读量 ⋅ 0评论 ⋅ 7天前

2025-08-04
中国汽研回应理想i8和乘龙卡车对撞测试争议：仅验证车辆安全性

科技 ysyqym2010 ⋅ 17阅读量 ⋅ 0评论 ⋅ 7天前

2025-08-04
女子穿洛丽塔遭豪华酒店驱赶经理直言：就是歧视

科技 cypipe ⋅ 18阅读量 ⋅ 0评论 ⋅ 7天前

2025-08-04
高铁列车员发试卷：小朋友一秒静音

科技 w583104790 ⋅ 6阅读量 ⋅ 0评论 ⋅ 7天前

2025-08-04
CENSUSWIDE：2024年全球财务健康报告

科技 haizhiyuan2008 ⋅ 14阅读量 ⋅ 0评论 ⋅ 7天前

2025-08-04
Alterata：2024年全球性别多样性报告

科技 huangxiaolongbaby ⋅ 6阅读量 ⋅ 0评论 ⋅ 7天前

2025-08-04
Adobe&Econsultancy：2025年人工智能与数字趋势报告

科技 yidieya ⋅ 5阅读量 ⋅ 0评论 ⋅ 7天前

2025-08-04
你可曾听过微软Windows 11 SE将终止支持！主要面向低成本设备

科技 fszxslwj ⋅ 18阅读量 ⋅ 0评论 ⋅ 7天前

2025-08-04
沉浸式对接平台企业海贵携手探寻农文旅融合新突破

科技 dzxqhd ⋅ 14阅读量 ⋅ 0评论 ⋅ 7天前

2025-08-04
三条城际铁路通过初步验收

科技 zjtzslg ⋅ 3阅读量 ⋅ 0评论 ⋅ 7天前

2025-08-04

刘雪冰

去ta空间

24小时热闻

今日推荐

浙ICP备19001410号-1

免责声明

本网站（以下简称“本站”）提供的内容来源于互联网收集或转载，仅供用户参考，不代表本站立场。本站不对内容的准确性、真实性或合法性承担责任。我们致力于保护知识产权，尊重所有合法权益，但由于互联网内容的开放性，本站无法核实所有资料，请用户自行判断其可靠性。

如您认为本站内容侵犯您的合法权益，请通过电子邮件与我们联系：675867094@qq.com。请提供相关证明材料，以便核实处理。收到投诉后，我们将尽快审查并在必要时采取适当措施（包括但不限于删除侵权内容）。本站内容均为互联网整理汇编，观点仅供参考，本站不承担任何责任。请谨慎决策，如发现涉嫌侵权或违法内容，请及时联系我们，核实后本站将立即处理。感谢您的理解与配合。

合作联系方式

如有合作或其他相关事宜，欢迎通过以下方式与我们联系：

电子邮件：675867094@qq.com
联系电话：400-962-3929