英伟达推出OpenReasoning-Nemotron推理模型
- 2025-07-21 07:22:43
- 427
IT之家7月20日消息,英伟达今日推出了全新推理模型套件OpenReasoning-Nemotron。该套件包含四个基于Qwen-2.5微调的模型,参数规模分别为1.5B、7B、14B和32B,全部源自6710亿参数的DeepSeekR10528大模型。通过“蒸馏”这一过程,英伟达成功将这一超大规模模型压缩成更轻量的推理模型,降低了部署门槛,使得即使在标准游戏电脑上也能进行高级推理实验,避免了高昂的GPU与云计算成本。
据IT之家了解,英伟达此次模型的核心优势并非在于训练手段的复杂创新,而是依托强大的数据支撑。公司利用NeMoSkills生成了500万个涵盖数学、科学与编程的解答数据集,并通过纯监督学习方式对模型进行微调。经测试,32B模型在AIME24数学竞赛中获得89.2分,在HMMT2月赛中达到73.8分,甚至最小的1.5B模型也分别拿下55.5和31.5分,展现出良好的推理与解题能力。
英伟达将OpenReasoning-Nemotron定位为科研探索的有力工具,四个模型的完整检查点将在HuggingFace开放下载,便于研究人员基于此进行强化学习等进一步实验,或针对特定任务定制优化。同时,模型支持“GenSelect模式”,即每个问题可生成多种解答版本,通过筛选最优解来提升准确率。在该模式下,32B模型在多项数学与编程基准测试中已达到甚至超越OpenAIo3-high的表现。
值得一提的是,英伟达此次模型训练全程未引入强化学习,仅采用监督微调,为社区提供了干净且处于技术前沿的起点,便于未来开展强化学习相关研究。对于拥有高性能游戏GPU的玩家及个人开发者而言,这套模型让本地运行接近业界最先进水平的推理模型成为现实。
- 上一篇:樊振东说面对没准备到的困难多想想办法
- 下一篇:大量群众举墨西哥国旗抗议