英伟达用重构生产力:别让主厨削土豆

2025-12-12 11:25:12 · chineseheadlinenews.com · 来源: 新智元

觉得大模型消耗的算力过大,英伟达推出的8B模型Orchestrator化身“拼好模”,通过组合工具降本增效,使用30%的预算,在HLE上拿下37.1%的成绩。

最近,NVIDIA Research发现,只要经过适当微调,小模型已足以“指挥”大模型

英伟达研究团队的新模型Orchestrator仅有 80 亿参数(8B)的模型,不仅比以往的工具使用类AI智能体准确率更高、成本更低,还能在工具选择上精准对齐用户的偏好。

在HLE基准测试中,Orchestrator斩获了37.1%的高分,一举超越了GPT-5(35.1%),同时在效率上提升了2.5倍。

在tau2-Bench和FRAMES测试中,Orchestrator同样以大幅优势领先 GPT-5,而其成本仅为后者的30%左右。

在多项指标上,Orchestrator均实现了性能与成本的最佳平衡,并能出色地泛化至未曾见过的工具中。

为什么“强模型+工具”还是不够好?

面对Humanity’s Last Exam(HLE)这类超难综合推理考试,现在的大模型虽然“什么都懂一点”,但一到深度推理+控制成本就开始吃力。

只靠一个大模型(比如GPT-5)去调用搜索、代码解释器这些基础堡具,很难同时做到:够准、够便宜、够可控。

为了省钱,业界第一反应是:别什么都让最强模型上,搞个“调度者”来分配任务。

但真把主流大模型拉来做调度者,结果却很讽刺:

当GPT-5做调度时,98%的请求还是落回GPT-5或GPT-5-mini;

换成Qwen3-8B,当它拿不准时,73%的任务直接无脑丢给GPT-5。

换句话说:我们以为造了个“调度者”,结果只是多请了一个“转接电话的前台”。

使用不同模型作为调度者后,给不同模型分配的任务

结果说明,仅仅通过提示词,无法让常见的大模型变成合格的调度者。

而ToolOrchestra,通过将“智能”从单一模型中解耦,重构为“轻量调度中枢+异构能力工具集”的复合系统,构成了一种全新的模型与工具协同范式。

接下来,看看Orchestrator是怎么训练出来的。

Orchestrator:多轮执行与自定义RL

想象一下:过去的大模型,都像高端餐厅,全靠“米其林主厨”(GPT-5)从头到尾亲自炒菜——火候、刀工、摆盘,全靠一人。

结果呢?由于单个token成本很高,导致总成本直接原地起飞。

而英伟达新推出的“拼好饭”模式如同中央厨房,一个聪明的“调度店长”(8B小模型Orchestrator)驻守中央,店长不亲自炒菜,而是:

让街角“川菜小陛”(Qwen-Math-7B)爆炒回锅肉(数学题);

招“粤式点心师傅”(Coder-32B)蒸一笼虾饺(写代码);

实在拿不准?叫米其林主厨(GPT-5)来尝一口、定个味。

Orchestrator的架构图

其中用于调度的8B小模型Orchestrator,会通过强化学习,根据用户声明的倾向,系统自动倾向本地部署模型。

而训练过程中的奖励函数,可分为3部分:

1. 结果,即是否答对,答对+1,否则0;由GPT5给出判断;

2. 效率,对应金钱成本和时间延迟;

3. 对齐用户工具偏好向量。

三部分加起来,才是强化学习的目标函数,而最终训练得到会权衡、听指挥、懂省钱的Orchestrator。

Orchestrator还包含类人分步求解机制:

可通过COT思维链,Orchestrator分析当前状态,规划下一步的结构化工具调用;

之后,通过环境执行(如数学推导、代码执行输出)并返回结果;

如此多轮循环,则是Orchestrator的另一创新点。

有了训练方法,该研究还构建ToolScale来支撑强化学习的训练。

作为首个大规模、可验证的多轮工具调用合成数据集:ToolScale通过大模型自动构建10个领域(金融、医疗、航空等)的模拟环境(含数据库+工具API),再生成43万条含人工标记的最佳工具调用轨迹的任务。

ToolScale数据合成流程概览

每条任务需满足三重验证:

执行正确性(数据库状态变更一致)

过程保真度(关键信息被提及)

操作完备性。

这些数据被用来训练Orchestrator。

AGI的“务实主义革命”

在三大高难度基准上,Orchestrator-8B全面超越现有方法且显著降低推理成本:

在HLE(人类终极考试)取得37.1%准确率(vs.GPT-5的35.1%),成本仅9.2美分(为GPT-5的30%);

在τ2-Bench(函数调用严测)上有80.2%正确率,仅有约40%的步骤调用GPT-5;

而在FRAMES(事实性推理)得分76.3%(vs.SOTA74.2%),延迟降至8.2分钟(为GPT-5的41%)。

Orchestrator调度后的模型性能和成本对比。

相较于强大的单体大语言模型系统,Orchestrator实现了最佳的成本效益:

进一步分析揭示其卓越性能源于理性分工能力:

Orchestrator会按需调用本地检索、Math-7B、Qwen-32B等低成本工具,仅在关键步调用GPT-5(1.95次/题);

若是GPT-5进行调度,那么解决一道题目需要平均调用5.23次GPT05-mini。

调用低成本的模型去解决不那么复杂的问题,正是Orchestrator能够降本增效的根源。

Orchestrator调用不同工具的比例对比

Orchestrator还展现出极强泛化性:面对训练未见模型(如Gemma-3-27B、Codestral-22B)或新定价策略(DeepInfra),其性能仅轻微波动,证明其学会的是工具能力抽象与成本-效益权衡的通用策略,而非过拟合特定配置。

同时在满足用户偏好时,Orchestrator的表现也优于其它大模型,这证明Orchestrator具有可定制、可约束、可解释的工具调度能力。

复合AI第一步

这几年,AI 世界一直在讲同一个故事:先造出一个尽可能大的通用大脑,再通过提示词和少量样本,把它临时“装扮”成翻译、写作、编程等各种专家。

但随着研究不断推进,这个故事开始松动:

越来越多由多个模型和工具协同工作的“复合AI系统”,在安全性、速度和成本上都比单一大模型更有优势,甚至在能力上也实现赶超。

总结来看,面对大模型使用后的高成本,高能耗问题,Orchestrator展现了通过将“决策权”与“执行权”分离,不再指望一个超人拯救世界,完全可开辟一条通往高效、可控、可扩展的实用化AGI系统的新路径。

ToolOrchestra标志着我们朝着构建真正智能的复合AI系统迈出了第一步,这代表着一种正在兴起、旨在取代单一化AI架构的新范式。

小语言模型终将成为实现可扩展智能体AI的关键核心。


    24小时新闻排行榜更多>>
  1. 细思极恐——中国籍博士后被FBI约谈后跳楼自杀
  2. 伊朗战争添风险,亚洲外劳纠结应否在波斯湾"拼命"
  3. 中国茶饮“霸王茶姬”2025年净利润腰斩
  4. 美国计划4月2日发射载人绕月飞船
  5. 科技业寒冬?这家大厂惊传全球裁员3万 员工崩溃
  6. 资深政治学家:习反腐与解放军高层重创的后果
  7. 怪兽级融资:OpenAI一锤砸出8520亿
  8. 50万行代码泄露:揭开Claude好用秘密
  9. 内存价格追踪:DDR3稳定上涨
  10. 突如其来!甲骨文狠裁3万人 亲历一觉醒来“被失业”…
  11. 迁怒于她!川普反手点名莱维特:要不要把她开了
  12. 3月电车销量:比亚迪稳了,蔚来爆了
  13. 伊朗:已向调解方表达立场
  14. 研究:砸钱赴美读"3科系"血本无归!薪水翻倍靠这行
  15. 韩前总理:中共是中国移民激增的幕后推手
  16. 四名宇航员正奔赴月球,一文看透美国载人绕月任务
  17. 分析:伊朗战争令中国经济雪上加霜
  18. 马克龙和高市互摆“龟派气功”
  19. 金与正“转正”了,朝鲜前总理变成了副总理
  20. 华人夫妇遭撤销美国籍:从“杰出人才”到将被驱逐出境
  21. 若川普“停战”,最慌的是他?
  22. 熟食店老板娘练武术火了
  23. 意大利男足,脸都不要了?
  24. 川普再次鼓动:去霍尔木兹海峡“抢石油”
  25. 4名以军侦察兵被打死,包括上尉队长
  26. 伊朗战事有望告终 油价下跌 美股收高
  27. 上市倒计时!SpaceX冲1.75万亿IPO 成败在此一举?
  28. 人情冷暖,世态炎凉
  29. 重庆一小区高空大量抛撒百元大钞 引关注
  30. 专家解读:美国取消出生公民权将意味着什么?
  31. 伊朗:霍尔木兹海峡将重开,但不对美国开放
  32. 这样吃饭“断癌路”,这类人尤其受益
  33. 岳山:中纪委的隐秘罪行
  34. 目击者揭:北京集市推土车撞人惨案内情
  35. 福特女儿收入曝光,网友破防
  36. 金山市议员菲尔德暂不辞职
  37. 第82空降师已抵达,三航母态势渐成
  38. 我还没练出腹肌 300元一次的宠物健身先把狗卷疯了
  39. 宋代权力巅峰下的“痔疮”政治学
  40. 马斯克竟要推燃油车 已开放预购!称“颠覆性倒退”
  41. 疑引发高层不满 中国官媒齐轰热播剧中粉底液将军
  42. 万斯告知伊朗战争斡旋国 川普耐心已尽
  43. 卢比奥:美国已看到伊朗战争的“终点”
  44. 张雪之妻讲述逐梦背后:债务刚还清
  45. 官媒曝中学党委书记性侵学生 报道刚爆就被下架
  46. CDC:新冠“蝉变种”已在全美近半数州出现
  47. 伊朗战事持续1个月,中方回应
  48. 中国教育部推20禁令,基础教育政治定调
  49. 中共出境管控延伸民间 护照申领需五级政审
  50. 探访张雪老家:堂弟曾见他“闭眼装发动机”
  51. 知名电商平台暴雷!总部人去楼空
  52. 【名家专栏】旧秩序崩溃 川普领导新范式更迭
  53. 问卷披露美国少年用AI做什么 亲子认知有异同
  54. YC掌门人惊呼:这就是AGI
  55. 德国经济下调今明两年增长预期
  56. 味好美将以448亿美元收购联合利华食品业务
  57. 香港至上海的高铁内蚊虫泛滥 有乘客提前下车
  58. 召回:2款壮阳巧克力含未申报成分
  59. 香港城市大学(东莞)项目二期正式开工
  60. 美股收盘:投资者聚焦川普重要讲话