OpenAI新模型Day0就被嫌弃

2026-03-18 21:25:15 · chineseheadlinenews.com · 来源: 量子位

OpenAI刚推出的GPT-5.4 mini,Day0就已经被嫌弃了。

根据公开的大语言模型评测基准Vals,今天新出的GPT-5.4 mini仅排行第13名,优于OpenAI半年前发布的GPT-5。

值得一提的是,排行第12的是一月底出的的Kimi 2.5,而Kimi 2.5比新出的5.4mini便宜一倍多,延迟还更低。

在同步的拓扑证明中,新出的mini和nano模型在全球范围内表现也只是中规中矩,分别排行第九第十,不如早前发布的Kimi、Qwen、DeepSeek等模型。(OpenAI后来居下这一块)

还有人指出,这次GPT?5.4 mini的baseline对比的是老GPT?5 mini(运行速度快两倍),也就是大半年前的版本,而不是其他厂家的新模型。

不少网友甚至直言,换新GPT?5.4 mini“还真没必要”。

虽然OpenAI的博客表示,在输出tokens 上,性能近似的mini版本比GPT?5.4便宜三倍,nano版本则几乎便宜十二倍。

但如果你拿GPT?5.4 mini与旧版GPT?5 mini对比,会发现同为mini档的模型,价格却上涨了大约三倍。

可以说,在龙虾热中,全球所有模型厂家都在涨价,奥特曼这么精的小子自然也没放过。

所以,这是拿着专门优化过编程和agent的小模型就来了?

新版mini和nano模型

今天,OpenAI推出主打快速和经济的GPT-5.4 mini和nano模型,专门针对编程、计算机操作、多模态理解以及子代理(subagent)做了优化。

相比前代GPT?5mini,新版mini和nano在性能上有不错的提升,同时运行速度提升超过两倍。

值得注意的是,在多个评测中,mini/nano模型与满血版GPT?5.4的差距已经不大,性能上也基本与谷歌,Anthropic的轻量模型持平。

根据OpenAI官方博客,新模型主打编程和子代理。

其中,GPT?5.4 mini在编程、推理、多模态理解和工具使用方面进行了优化,运行速度提升超过两倍,在SWE-Bench Pro和OSWorld-Verified等评测中表现接近满血版GPT?5.4。

GPT?5.4 nano则是GPT?5.4系列中最小、最经济的版本,适合速度和成本敏感的任务,例如分类、数据提取、排序,以及处理较简单的辅助编程任务。

总的来说,这俩新模型适合延迟直接影响产品体验的工作负载,比如编码助手、子代理、屏幕截图解析、多模态应用。

说白了就是龙虾这类已经抽象出skill的agent,部署在mini/nano这类反应快速,能力够用的小模型就更实惠。

在具体的使用上,GPT?5.4 mini可在API、Codex和ChatGPT中调用,而nano仅能通过API使用。

价格方面,mini版本每百万输入tokens0.75美元,每百万输出tokens4.5美元。Nano版本在API中费用更低,每百万输入0.2美元,每百万输出1.25美元。

不过,横向对比来看,有网友指出,Gemini Flash 3 lite则更智能,而且总体要便宜六倍多。

评测结果

在实际评测中,mini和nano主要是针对编程和Agent任务做了优化。

在编程任务中,它们能够低延迟完成代码修改、调试循环和库导航,快速迭代,高效处理需要速度和成本兼顾的工作流程。

Mini的通过率接近GPT?5.4,同时速度更快。

在子代理场景中,开发者可以让大模型负责决策和规划,同时将较小的任务并行委派给mini子代理,比如搜索代码库、处理文档或辅助操作。

随着小型模型越来越快,这种模式的价值愈发凸显。

在计算机操作和多模态任务中,mini表现同样出色,能够快速解析复杂用户界面截图,高效完成操作任务。

在OSWorld-Verified测试中,它的表现几乎接近满血版GPT?5.4,同时明显优于GPT?5 mini。

有些网友的实际测试也佐证了这些亮点。

reddit网友Rent_South系统地测试新版mini在分类、总结、翻译等任务上的表现,并给出了高度评价:

我在它们身上跑了些基准测试,结果发现——在一些真实场景任务中,它们更便宜、更快,也更好用。

自从大约一年前,我在构建一个RAG流水线时,gpt?4.1-mini在某些代理任务步骤上打败了GPT?4原版之后,我对mini/nano版本的热情就比对原版还高。

在分类任务中,nano准确率达70%,成本比GPT?5.4降低十二倍。

当调用超过超过一万次时,GPT-5.4大约花费20.30美元,GPT-5.4-nano则只有1.64美元,节省幅度约91.9%。

在翻译任务上,nano得分略低,为55分,但与GPT?5.4的63分差距不大,仍可作为替代选择。在超万次调用后,节省幅度仍达到了91.3%!

在写作任务中,mini版本反倒得分最高,成本比满血版低约六成。在超过1万次调用时,mini花费29.61美金,nano仅花费10.30美金。

此外,还有网友测试了模型描述图片的能力,nano在描述博物馆照片时,输出详细准确,使用token极少,总成本甚至不到一分钱。

比如,这位网友让nano模型描述自己随手拍的博物馆的照片:

nano模型输出了以下描述:

图片显示了一间博物馆展厅的内部,有一面长长的展墙。白色砖墙上整齐排列着许多装框肖像画。肖像画下方是多个玻璃展示柜,木框深色,顶部/前方为玻璃,展示柜内摆放着各种历史文物和设备。房间铺设了抛光木地板,吊顶上有悬挂灯具及电线,墙顶附近可见少量管道。前景中,沿房间长度排列的玻璃柜映出了其他展区的物品。

生成这么一段描述这次操作用了2751个输入tokens和112个输出tokens,费用为0.069美分(不到一分钱的十分之一)。

即便在创意任务上,如生成鹈鹕骑自行车的SVG图,nano和mini与满血版GPT?5.4仍有一定差距,但它们完成基础创作任务完全可行。

起码随着推理强度的提升,我们能看到画面可以保持相对的正确性。

整体看下来,这次模型跟OpenAI自家的产品来比,的确是可圈可点。

但对于这是否就是市面上最好的、最经济的小模型,还有待讨论。

one more thing

有趣的是,在OpenAI总裁Greg Brockman发布新模型的评论区,最火热的讨论居然不是新模型的能力,也不是价格,甚至几乎和新模型本身没有关系。

评论区里刷屏的,几乎全是带keep4o标签的:“让4o回来!”


    24小时新闻排行榜更多>>
  1. 黑客称攻陷中国国家超级计算中心 出售10PB海量机密
  2. 伊朗外长阿拉奇:美以还是不懂 我们少了谁都没差
  3. Politico:川普“联俄制中”战略浮出水面 面临争议
  4. 一件善举让老人延寿十二年
  5. 加油成本大涨!美国人的“加油噩梦”卷土重来
  6. 中国四款纯椰子水被欧洲机构检测出掺假
  7. 日经指数低开1.7%,韩国综指低开2.8%
  8. 流感引发器官衰竭被迫截肢
  9. 中共推贷款成本透明化 分析:为甩锅做准备
  10. 路面坑洞催生换胎生意 修车工一晚进账2200元
  11. 伊朗战事引通胀忧虑 多国央行政策趋强硬
  12. 北京老人在银行忽悠下买200万元基金 亏85万
  13. 川普盟友警告:美国经济扛不住$100油价
  14. 广东爆发大规模抗议 当局急调上千警力维稳
  15. 美高官因反对伊朗战争辞职,万斯表态耐人寻味
  16. 战争很可能发生 卢秀燕强调美国是维护台海和平重要战略伙伴
  17. 美国情报首长:伊朗政权"仍然存在"但“已大幅削弱”
  18. 广东信宜数百村民抗议建殡仪馆 警民爆冲突
  19. 川普开战遭质疑,情报首长不愿“背书”
  20. 张家港巡察组女官与丈夫被杀 消息遭封锁
  21. 消息:伊朗新领袖穆杰塔巴并未真正掌权
  22. 传江苏张家港巡视组女官员和丈夫遭灭门
  23. 拉里贾尼被斩首 曝其女儿持美国绿卡 曾是美国医生
  24. 玩极权:习近平像毛泽东还是更像他??
  25. 海格塞斯:伊朗水面舰队不再构成威胁
  26. 遭两车意外夹击,路人踩出司机的生机
  27. 约旦河西岸暴行:巴勒斯坦男子遭定居者殴打,羞辱与性侵
  28. 叙利亚启动国际计划 销毁阿萨德遗留化武
  29. 北京的黄昏:哈梅内伊之死与习近平的困局
  30. 湖北两地抓翻墙网民 十余警察入户搜查引民愤
  31. 中国农民倒了什么血霉,被这样的人研究
  32. 重大内阁变动 委内瑞拉代总统更换防长
  33. 西藏春耕仪式穿白衣挂习肖像 官媒视频急下架
  34. 拉里贾尼被“斩首”,细节披露
  35. 小粉红破防?2026华为翻车 民族脊梁碎一地
  36. 网上疯传“大蒜炝锅”致癌 是真的还是谣言?
  37. 中国首例:AI演员宣布出道
  38. 中国政府采取行动 就Meta收购Manus处罚相关人员
  39. 时速7万公里火球划过美国上空 亮度惊人 数州白日可见
  40. 东北房价回暖,可能不只是房地产的故事
  41. 分析:川普打伊朗 中共“大国”外宣坍塌
  42. 法拉盛4死火灾楼 邻居:这栋楼臭名昭著
  43. “统一后”台湾人沦少数民族、台语被禁 国民党第一个被收拾
  44. 赫力昂加速拓展中国口腔护理市场
  45. 多地宣布:生物地理不再计入中考总分
  46. 中国中产默默囤钱,或令全球经济失速
  47. 雷军官宣代言人:跟SU7同音
  48. 中国无人机大规模喷药失控:变成灭蜂行动
  49. 哥斯达黎加拒绝承认古巴共产政权合法性
  50. 美媒:川普对中策略转为务实交易 追求巨额承诺
  51. Anthropic:你的电脑已被手机接管
  52. 彭博:美国中东出手 中国在旁“做笔记”?潜在受益
  53. 求生真的很难 林彪早写好了密信致毛泽东
  54. 中外记者会一去不复返 说真话的总理也不在了
  55. 耿爽任新职后首露面 习转变战狼外交 罢免四驻外大使
  56. 加州海底捞机器人当众失控,酱汁飞满全场
  57. 美国单亲妈买精生女 一年后惊觉孩子有47个“亲戚”
  58. 湖北开展涉芬太尼前体等化学品违法犯罪专项治理
  59. OpenAI新模型Day0就被嫌弃
  60. 雷军官宣“神秘模型”