英伟达推出 ProRL 方法：强化学习训练至 2000 步，打造全球最佳 1.5B 推理 AI 模型

更新时间：2025-08-11 23:28:05 发布时间：67天前浏览：8871 评论：0

内容摘要IT之家 6 月 5 日消息，科技媒体 marktechpost 昨日（6 月 4 日）发布博文，报道称英伟达推出 ProRL 强化学习方法，并开发出全球最佳的 1.5B 参数推理模型 Nemotron-Research-Reasoning

联系电话：400-962-3929

IT之家 6 月 5 日消息，科技媒体 marktechpost 昨日（6 月 4 日）发布博文，报道称英伟达推出 ProRL 强化学习方法，并开发出全球最佳的 1.5B 参数推理模型 Nemotron-Research-Reasoning-Qwen-1.5B。

背景简介

推理模型是一种专门的人工智能系统，通过详细的长链推理（Chain of Thought，CoT）过程生成最终答案。

强化学习（Reinforcement Learning，RL）在训练中扮演非常重要的角色，DeepSeek 和 Kimi 等团队采用可验证奖励的强化学习（RLVR）方法，推广了 GRPO、Mirror Descent 和 RLOO 等算法。

然而，研究者仍在争论强化学习是否真正提升大型语言模型（LLM）的推理能力。现有数据表明，RLVR 在 pass@k 指标上未能显著优于基础模型，显示推理能力扩展受限。

此外，当前研究多集中于数学等特定领域，模型常被过度训练，限制了探索潜力；同时，训练步数通常仅数百步，未能让模型充分发展新能力。

ProRL 方法的突破与应用

英伟达研究团队为解决上述问题，推出 ProRL 方法，延长强化学习训练时间至超过 2000 步，并将训练数据扩展至数学、编程、STEM、逻辑谜题和指令遵循等多个领域，涵盖 13.6 万个样本。

他们采用 verl 框架和改进的 GRPO 方法，开发出 Nemotron-Research-Reasoning-Qwen-1.5B 模型。

这是全球最佳的 1.5B 参数推理模型，在多项基准测试中超越基础模型 DeepSeek-R1-1.5B，甚至优于更大的 DeepSeek-R1-7B。

测试结果显示，该模型在数学领域平均提升 15.7%，编程任务 pass@1 准确率提升 14.4%，STEM 推理和指令遵循分别提升 25.9% 和 22.0%，逻辑谜题奖励值提升 54.8%，展现出强大的泛化能力。

IT之家附上参考地址

举报收藏打赏 评论 0

版权声明 本文仅代表作者观点，不代表本站立场。
如遇本文系为网络转载到本站发表，图片或文章有版权问题的请联系客服确认后会立即删除文章。
如遇本文系作者授权本站发表，未经许可，不得转载。

--结束END--

有问题投稿请发送至: 邮箱/

本文标题: 英伟达推出 ProRL 方法：强化学习训练至 2000 步，打造全球最佳 1.5B 推理 AI 模型

本文链接: http://www.cnhhw.cn/news/show-296495.html (转载时请保留)

0 条

别让空调“偷”走你的钱！避开这4个坑电费少交一半

科技 feitengjingxi ⋅ 19阅读量 ⋅ 0评论 ⋅ 7天前

2025-08-04
中国汽研回应理想i8和乘龙卡车对撞测试争议：仅验证车辆安全性

科技 ysyqym2010 ⋅ 17阅读量 ⋅ 0评论 ⋅ 7天前

2025-08-04
女子穿洛丽塔遭豪华酒店驱赶经理直言：就是歧视

科技 cypipe ⋅ 18阅读量 ⋅ 0评论 ⋅ 7天前

2025-08-04
高铁列车员发试卷：小朋友一秒静音

科技 w583104790 ⋅ 6阅读量 ⋅ 0评论 ⋅ 7天前

2025-08-04
CENSUSWIDE：2024年全球财务健康报告

科技 haizhiyuan2008 ⋅ 14阅读量 ⋅ 0评论 ⋅ 7天前

2025-08-04
Alterata：2024年全球性别多样性报告

科技 huangxiaolongbaby ⋅ 6阅读量 ⋅ 0评论 ⋅ 7天前

2025-08-04
Adobe&Econsultancy：2025年人工智能与数字趋势报告

科技 yidieya ⋅ 5阅读量 ⋅ 0评论 ⋅ 7天前

2025-08-04
你可曾听过微软Windows 11 SE将终止支持！主要面向低成本设备

科技 fszxslwj ⋅ 18阅读量 ⋅ 0评论 ⋅ 7天前

2025-08-04
沉浸式对接平台企业海贵携手探寻农文旅融合新突破

科技 dzxqhd ⋅ 14阅读量 ⋅ 0评论 ⋅ 7天前

2025-08-04
三条城际铁路通过初步验收

科技 zjtzslg ⋅ 3阅读量 ⋅ 0评论 ⋅ 7天前

2025-08-04

彭德东

去ta空间

24小时热闻

今日推荐

浙ICP备19001410号-1

免责声明

本网站（以下简称“本站”）提供的内容来源于互联网收集或转载，仅供用户参考，不代表本站立场。本站不对内容的准确性、真实性或合法性承担责任。我们致力于保护知识产权，尊重所有合法权益，但由于互联网内容的开放性，本站无法核实所有资料，请用户自行判断其可靠性。

如您认为本站内容侵犯您的合法权益，请通过电子邮件与我们联系：675867094@qq.com。请提供相关证明材料，以便核实处理。收到投诉后，我们将尽快审查并在必要时采取适当措施（包括但不限于删除侵权内容）。本站内容均为互联网整理汇编，观点仅供参考，本站不承担任何责任。请谨慎决策，如发现涉嫌侵权或违法内容，请及时联系我们，核实后本站将立即处理。感谢您的理解与配合。

合作联系方式

如有合作或其他相关事宜，欢迎通过以下方式与我们联系：

电子邮件：675867094@qq.com
联系电话：400-962-3929