英伟达开源9B参数小模型,比Qwen3快6倍

2025-08-19 17:25:32 · chineseheadlinenews.com · 来源: 量子位

小模型也开始卷起来了!

在麻省理工学院衍生公司Liquid AI发布了一款小到可以装在智能手表上的新AI视觉模型,以及谷歌发布了一款可以在智能手机上运行的小型模型之后,英伟达也加入了这场浪潮,推出了自己的新型小型语言模型(SLM):Nemotron Nano v2。

这款9B的“小”模型在复杂推理基准测试上的准确率与Qwen3-8B相当或更高,速度快6倍。

再联系到他们前些天发布的论文观点:小模型才是智能体的未来,看来真不只是说说而已。

除了这款模型,他们首次“自豪地”开源了用于创建它的绝大部分数据,包括预训练语料库。

让我们来看一下……20万亿?Nemotron Nano v2在20万亿多个token上进行预训练?

与Qwen相比速度提升6倍

技术报告显示,Nemotron Nano v2在复杂推理基准测试上的准确率与同等规模的领先开源模型Qwen3-8B相当或更高,同时吞吐量——也就是模型速度——最高可提升6倍。

这款模型由英伟达从头训练,设计目标是成为兼顾推理与非推理任务的统一模型。

模型在响应用户查询或执行任务时,会首先生成推理过程(reasoning trace),随后输出最终答案。该模型支持“思考”预算控制,在推理过程中,用户可以指定模型被允许“思考”的token数量。

如果用户希望模型直接给出最终答案(跳过中间推理步骤),可通过配置实现,但这一做法可能导致对复杂推理类提示的准确率下降。

相反,若允许模型先展示推理过程,通常能显著提升最终答案的质量,尤其针对需逻辑分析的复杂任务。

面对网友“思考预算控制是如何实现的”的问题,英伟达的模型训练师Oleksii Kuchaiev表示:

我们最初采用了与Qwen3相同的实现方法,但发现当强制要求模型直接输出答案时,它仍会在预设的思维链之外进行“思考”。通过对截断思维链的训练,我们成功解决了这个问题。

基础模型同样开源

评估结果显示,与其他开源小辨模模型相比,Nemotron Nano v2在准确率上具有优势。在 NeMo-Skills套件的“推理开启”模式下测试,该模型在AIME25上达到72.1%,在MATH500上达到97.8%,在GPQA上达到64.0%,在LiveCodeBench上达到 71.1%。

在指令遵循和长上下文基准测试中的得分也有报告:在IFEval上达到 90.3%,在RULER 128K测试中达到 78.9%,在BFCL v3和HLE基准测试中也有较小但可测量的提升。

Nemotron Nano v2经过了以下训练过程:

预训练:模型使用FP8精度在20万亿个token上进行预训练,采用Warmup-Stable-Decay学习率调度。随后进入持续预训练长上下文扩展阶段,使其在不降低其他基准测试性能的情况下达到128k的能力。

后训练:Nemotron Nano v2通过监督微调(SFT)、组相对策略优化(GRPO)、直接偏好优化(DPO)和人类反馈强化学习(RLHF)进行后训练。约5%的数据包含故意截断的推理轨迹,从而在推理时实现细粒度思考预算控制。

压缩:最后,基础模型和对齐模型均经过压缩(剪枝和蒸馏),支持在单个NVIDIA A10G GPU(22 GiB 内存,bfloat16 精度)上进行128k token的上下文推理。这一成果是通过扩展基于Minitron的压缩策略实现的,该策略专门针对受限条件下的推理模型压缩需求而设计。

除了Nemotron Nano v2模型本身,英伟达还发布了两个基础模型NVIDIA-Nemotron-Nano-12B-v2-Base(对齐或剪枝前的基础模型)和NVIDIA-Nemotron-Nano-9B-v2-Base(剪枝的基础模型),对应模型训练的不同阶段,均支持128k上下文长度。

最后,Nemotron Nano v2当前支持在线试用。

超大预训练数据库

除了Nemotron Nano v2,英伟达首次发布了他们用于创建模型的绝大部分数据,包括预训练语料库。

至于为什么是“绝大部分”,有网友问了这个问题,官方回复简直不要太有道理(笑)。

预训练数据集Nemotron-Pre-Training-Dataset-v1包含66万亿个优质网络爬取、数学、代码、SFT 和多语言问答数据,并分为四个类别:

Nemotron-CC-v2:作为Nemotron-CC的升级版本,新增收录了2024至2025年间八个批次的Common Crawl网络快照数据。数据已进行全球去重,并使用Qwen3-30B-A3B进行成改写。它还包含翻译成15种语言的合成多样化问答对,支持强大的多语言推理和通用知识预训练。

Nemotron-CC-Math-v1: 一个基于Common Crawl、使用英伟达的Lynx + LLM流程生成的1330亿token的数学专注数据集,在保留方程和代码格式的同时,将数学内容标准化为LaTeX格式。这确保了关键的数学和代码片段保持完整,从而生成高质量的预训练数据,在基准测试中优于先前的数学数据集。

Nemotron-Pretraining-Code-v1: 一个大规模的精选代码数据集,源自GitHub,并通过多阶段去重、许可证执行和启发式质量检查进行过滤。它还包括11种编程语言的LLM生成的代码问答对。

Nemotron-Pretraining-SFT-v1:一个综合生成的数据集,涵盖STEM、学术、推理和多语言领域。该数据集整合了多元化的高质量内容,包括从数学与科学核心题库提取的复杂多选题和分析题、研究生阶段的专业学术文献,以及经过指令微调的SFT数据。

Nemotron-Pretraining-Dataset-sample:该数据集的一个小型抽样版本提供了10个具有代表性的数据子集,涵盖了高质量问答数据、数学专项内容、代码元数据以及SFT指令数据。

那些数字看起来都吓人,数零都得数半天(目移)。

One More Thing

顺带一提,最近英伟达的开源势头可以说是很猛了。

相比于其他国外科技巨头陆续走向的闭源道路,英伟达构建的Nemotron生态直接把开源二字写在了门面上。

无论是前段时间发布的Llama Nemotron Super v1.5,还是这次的Nemotron Nano v2,对标的也是国内开源模型Qwen3。

这样的策略会给他们带来什么?又会改变些什么?我们拭目以待。


    24小时新闻排行榜更多>>
  1. 男子被拘留期间死亡,督察部门介入
  2. 加州议会通过选区重划计划 为民主党在众院增5席位
  3. 【百年真相】背叛蒋宋 阎宝航死于文革尸骨无存
  4. 内蒙古主席王莉霞落马 传涉中共高官丑闻
  5. 柏林华人声援江油 少年呼喊“推翻共产党”
  6. 万斯谈与普京通话印象
  7. 习明泽爆料兰兰 习家族“资产宝库”藏澳洲
  8. 弟弟杀姐姐,母亲说“没犯罪”
  9. 美联储降息与股市的宿命交响曲
  10. 今夜子时“鬼门开” 黄历7月注意10大禁忌
  11. 当欧洲领导人也“掏出小本子记录”
  12. 毛“忏悔”铜像作者高兟被捕一周年 近期或开庭
  13. 充当中国间谍 美海军士官被定罪 面临终身监禁
  14. 分析:中国公司为何不得不依赖英伟达芯片
  15. “美国最仁慈法官”是怎样炼成的?他是谁?为何这么红?
  16. 习回光返照 去西藏首次没讲话 暗示退居二线?
  17. 美国对进口风力涡轮机及零件展开国安调查
  18. 前美议员建议:拒向中共党员子女发学生签证
  19. 凶手是同班同学!被称为“小英雄”的那个男孩
  20. 中国政府大计划,标志重大转变
  21. 王沪宁曝中央累计投藏2.6万亿
  22. DeepSeek上线后回看:一场架构“豪赌”
  23. 短剧急缺中老年演员,日薪高达5000元
  24. 古代高科技:大洪水之前的失落文明?
  25. 微软各部门员工基础年薪曝光 对你有吸引力吗?
  26. 刘少奇和彭德怀被整死?毛泽东动了一根歪脑筋
  27. 【时政春秋】天价阅兵纪念抗战?毛曾谢日侵华
  28. 鲍威尔:就业面临的下行风险上升
  29. 鲍威尔讲话后,美股急速拉升
  30. 卢比奥:暂停向商业卡车司机发工作签证
  31. 以同情心断案风靡网络的美法官卡普里奥逝世
  32. 赔钱的北京中产,和他卖不掉的燕郊房产
  33. 白敬亭和宋轶分手,知情人透露内幕
  34. 陕西发现隋兵部尚书家族墓 墓志书法疑欧阳询真迹
  35. 普京开出停火条件:乌克兰放弃顿巴斯及北约诉求
  36. 川普离开白宫前往华盛顿街头巡逻 给士兵送披萨
  37. 北约防空体系被一夜突破
  38. 南蒙古政要席海明:中共跨国镇压是末日疯狂
  39. 导演遭质问后,屈中恒被换角
  40. 中国一家三口加拿大景区划船落水 结局太悲惨!
  41. 国企承建的川青铁路在建大桥绳索断裂 致7死8失联
  42. 深圳富豪炒楼亏13亿港币 创港史最大亏损纪录
  43. 俄罗斯:乌克兰“不愿”达成长期和平协议
  44. 不管是益友还是损友 都不能开这“四种玩笑”
  45. 川普称或于2週后采取不同策略 暗示允乌克兰“反击”
  46. 【时政春秋】天价阅兵弥天谎 毛习同为大毒枭?
  47. 鲍威尔讲话全文:风险平衡变化或要求调整政策立场
  48. 消息:川普次子9月访日 关注加密货币发展
  49. ICE拦车查证频 民代提醒:随身带证、搬家及时通报
  50. 美国务院:正在审查5500多万名持签证外国人纪录…
  51. 靠近中朝边境!朝鲜秘密携核弹头导弹基地曝光
  52. 习近平亮相拉萨 一场健康与权势的双重宣示
  53. 三问尖扎黄河特大桥事故 事故原因可能是何?
  54. 无关王菲 “锋芝”婚姻破局的导火线是它
  55. 尖扎黄河特大桥主拱肋垮塌坠河 巨响惊醒民众
  56. 真实故事计划|凶手是同班同学!
  57. 美媒:波音超级大单在望,中国或采购500架客机
  58. 75岁军嫂国丽堃艰难维生 吁当局准其出境治病
  59. 川普政府全面审查签证持有人 涉及人数逾5500万
  60. 白宫顾问:莫迪是伟大领导人 但印度是“克宫洗衣店”