首个龙虾大模型排行榜:两国产AI杀进前三

2026-03-08 18:25:14 · chineseheadlinenews.com · 来源: APPSO

首个龙虾AI基准测试排行榜出炉,32款模型同台竞技,Gemini 3 Flash以95.1%成功率夺冠,国产MiniMax与Kimi双双杀入全球前三,完胜GPT-4o。扎心的是,Claude旗舰版成本高达竞品近200倍,准确率反不及中端模型。

你现在养了几只龙虾?

这就是现在打招呼最常见的问题,上周腾讯深圳总部排起龙等着免费装 OpenClaw,真是一代人有一代人的鸡蛋。

连黄仁勋也盛赞 OpenClaw 为“有史以来最重要的软件发布”,认为它已经证明了 AI 在高度个性化环境中,能够完美复刻人类的复杂工作流。

养龙虾太过火爆,也终于出现专门针对 OpenClaw 的基准测试 PinchBench,用于评估大语言模型在 OpenClaw 任务中的表现。

PinchBench 评分方式也很硬核,有的任务看代码能不能跑通(自动化检查),有的看写得好不好(Claude Opus 当评委),还有的是两者结合。所有题目和答案都开源在 GitHub 上,谁都可以去验货。

今天,OpenClaw 创始人 Peter Steinberger 分享这个龙虾基准测试排行榜。

PinchBench 一口气测了 32 款主流大模型,从成功率、速度、费用三个维度,看看哪个模型最适合养龙虾。

PinchBench 官网:https://pinchbench.com/

Gemini 3 Flash 成功率最高,国产模型也杀疯了

来看最重磅的成功率排名。

Google 的 Gemini 3 Flash Preview 以 95.1% 的成功率夺冠,这个成绩说实话让我有点意外。因为 Flash 系列一直是 Gemini 的“轻量版”,主打快和便宜,没想到这次在准确率上直接把自家 Pro 老大哥和 Claude、GPT 系列全超了。

这说明Google 在模型效率优化上是真的下了功夫。轻量模型不代表能力弱,关键看怎么调。

第二名是 MiniMax M2.1,成功率 93.6%。国产模型真的站起来了,MiniMax 的表现相当亮眼,成功压过了 Claude Sonnet 4.5(92.7%)和 GPT-4o(85.2%)。

Kimi K2.5 紧随其后,成功率 93.4%。Kimi 的长文本能力一直很强,这次在编程任务上也证明了自己。和 MiniMax 一起,国产双雄直接占据了 TOP3 的两个席位。

再往后看,Claude Sonnet 4.5 排第四(92.7%),Gemini 3 Pro 第五(91.7%),Claude Haiku 4.5 第六(90.8%)。

有意思的是,Claude Opus 4.6 作为 Anthropic 的旗舰大模型,成功率只有 90.6%,排在第七。

看来“大”不一定“强”,至少在编程这个场景下,中端模型反而更香。

唯快不破,MiniMax 赢麻了

在开发这些重度任务中,谁都不想对着屏幕干等。速度接影响干活的心情。

MiniMax M2.5 以 105.96 秒的成绩拿下速度冠军,完成全部测试任务。什么概念?比第二名 Gemini 2.0 Flash 只快了 0.09 秒,但第一就是第一。

第三名 Llama 3.1 70B(106.14 秒)、第四名 Gemini 1.5 Pro(106.85 秒)、第五名 Mistral Large(107.72 秒)——这几个差距都不大,基本在同一梯队。

但往下看就有意思了。

Claude Sonnet 4 用了 137.66 秒,比第一梯队慢了 30 秒。Gemini 3 Pro 更是用了 239.55 秒,是 MiniMax M2.5 的两倍多。

这说明一个规律:轻量级模型普遍更快。如果你做的是快速原型开发、需要频繁迭代,选轻量模型准没错。但如果是那种“跑一遍就行”的任务,等等大模型也无妨。

怎么养龙虾最划算

养龙虾,精打细算很重要,毕竟很多OpenClaw 任务都是 Token 无底洞,稍不留神就能让你怀疑人生。

GPT-5 Nano 以 0.03 美元的成本成为全场最便宜的选择,成功率 85.8%。虽然准确率不算顶尖,但这个价格……还要什么自行车?适合预算有限、对错误容忍度高的场景。

Gemini 2.5 Flash Lite 排第二,只要 0.05 美元,成功率 83.2%。这个性价比就很能打了——成本是 GPT-5 Nano 的不到两倍,成功率只低了 2.6 个百分点。

MiniMax M2.1 排第五,成本 0.14 美元,但别忘了它的成功率是 93.6%。算下来每百分点的成本只有 0.0015 美元,性价比极高。

再看高端模型的成本,就有点触目惊心了。

Claude Opus 4.6 完成测试要花 5.89 美元,是 GPT-5 Nano 的将近 200 倍。但它的成功率只有 90.6%,比 MiniMax M2.1 还低了 3 个百分点。

这账怎么算都不划算。除非你对 Claude 有特殊的品牌信仰,否则从纯性价比角度,中端模型显然是更理性的选择。

龙虾养殖怎么选

看完三个维度的榜单,相信你已经有了自己的判断。这里 APPSO 再给大家几个场景化的建议:

如果你追求成功率,无脑选 Gemini 3 Flash

95.1% 的成功率 + 0.72 美元的成本,目前综合表现最优。适合对代码质量要求高的生产环境,出错的代价远大于模型成本的时候,选它准没错。

? 如果你追求速度,选 MiniMax M2.5 或 Gemini 2.0 Flash

都在 106 秒左右完成全部任务,适合快速原型开发、需要频繁迭代的场景。时间就是金钱,这俩能帮你省下不少耐心。

如果你追求性价比,选 Gemini 2.5 Flash Lite

0.05 美元的成本,83.2% 的成功率,是入门“养龙虾”的最佳选择。个人项目、小团队、预算有限的场景,闭眼入。

如果想少折腾倾向国产模型,MiniMax M2.1 和 Kimi K2.5 都很能打

MiniMax M2.1 成功率 93.6% 排第二,Kimi K2.5 成功率 93.4% 排第三,两款国产模型都已经跻身第一梯队。而且 MiniMax 的速度还是冠军,性价比也极高,值得重点关注。

从这次 PinchBench 的榜单可以看出,Agent 已经进入了“百花齐放”的时代。Google 的 Gemini 系列在效率和成本上全面领先,国产模型 MiniMax 和 Kimi 紧随其后,OpenAI 和 Anthropic 则在高端市场保持竞争力。

对于开发者来说,好消息是选择越来越多了。坏消息是……选择困难症可能更严重了。

但没关系,记住一个原则:没有最好的模型,只有最适合你场景的模型。生产环境看成功率,原型开发看速度,个人项目看性价比,按需选择就好。

而且,APPSO 也想特别提醒大家,安装 OpenClaw 或许不用花费什么成本,但“养龙虾”消耗的 Token ,可比过去我们和 AI 对话要多得多。

前几天 OpenClaw 在纽约办的聚会上不少用户分享自己的龙虾养殖心得,有人每个月在 Token上的花费高达1000-2000美元,更有一位“土豪”玩家每天烧掉 10 亿 tokens,没有信仰可禁不起这么烧钱。

尝鲜 OpenClaw 可以,但它其实并不适合所有人,目前有很多任务用龙虾也并非最优解,更大的意义是可以感受 AI 带来全新的交互体验。


    24小时新闻排行榜更多>>
  1. 一天办不出三张卡的人要写“检讨”
  2. 国内顶级底刊《Rubbish》被封,他们究竟干了什么
  3. 习证实张又侠造反?恐惧至极!军方代表遭严密安检
  4. 为电子鼻咽喉镜装上“智慧的眼睛”
  5. 港媒爆前中共外长秦刚贬为副部级 提早退休
  6. 学者警告:伊朗若崩溃 中东或陷更大灾难 三种结局…
  7. 卡塔尔遭12枚伊朗导弹袭击
  8. 美军锁喉中东 大陆学者析中共为何节节败退
  9. “霸总”围猎中老年女性,人大代表急了
  10. 外长王毅评伊朗局势避点名美国,称今年是中美关系"大年"
  11. 张文宏委员谈AI问诊:仅靠AI有风险
  12. 伊朗打击科威特一处美军基地
  13. 伊朗军舰绝境求生记
  14. 迪拜机场又炸了
  15. 驻韩美军大型运输机离开引猜测
  16. 全面效忠新领袖!伊朗革命卫队:与美以斗争到底
  17. 450公斤浓缩铀可造11枚核弹 川普拟派特种部队硬夺
  18. 刘美贤谈代孕家庭成长经历:察觉“妈妈”并非亲生母…
  19. 伊朗用“穷人巡航导弹”反击
  20. 你可能不知道的7项Costco会员福利
  21. 川普:新领袖必须经美国批准 否则不维持太久
  22. 中东冲突推高油价,韩国考虑实施上限
  23. 化学家合成首个“半莫比乌斯”分子
  24. 为何福特号林肯号航母携带钻地弹数量空前
  25. 詹姆斯打破NBA尘封37年纪录
  26. 哈梅内伊之子掌权意味着什么?
  27. 网络疯传双重国籍必须登记?律师专业解读来了…
  28. 对五角大楼协议忧心 OpenAI机器人部门主管辞职
  29. 硅谷在用龙虾干什么?
  30. 男子养豪猪拔刺,每斤能卖400元
  31. 这些女性禁令近百年才解除
  32. 惊艳全球却“消失”的6位好莱坞女星
  33. 伊朗伊斯兰革命卫队:支持穆杰塔巴
  34. FT:在川普的世界里,混乱不是问题而是工具
  35. “汉奸展览馆”赫见胡锡进!被评为中国第1汉奸
  36. 伊朗外长拒停火 美军阵亡增至7人 沙乌地首宗死亡
  37. 川普:没有迹象表明俄罗斯支持伊朗
  38. 中共高层对美国人的评价为何如此轻蔑?
  39. 挪威奥斯陆美国大使馆前发生爆炸
  40. 福岛核事故已15年,仍有2.6万人在各地避难
  41. 洗衣机洗不干净?你少做了这一步!
  42. 宏福苑大火百日祭:灾难之后香港在发生什么
  43. 一场华人婚姻,引发美国绿卡制度新变化!
  44. 伊朗新领袖:已经决定,姓名保密
  45. 一天办不出三张卡的人要写"检讨",山姆其实很焦虑
  46. 打坐中灵魂离体的神奇经历
  47. 20岁大学生花10天开源一个项目:盛大3000万
  48. 哈梅内伊继任者人被确定但没公布
  49. 《游子吟》诗抄 春雪有感 天象展望
  50. 伊朗新领袖将出炉!专家会议达共识,以色列:选谁杀谁
  51. 金属羰基化合物在光谱领域研究取得新进展
  52. 首个龙虾大模型排行榜:两国产AI杀进前三
  53. 爆婚外情仍未离婚?诺姆丈夫坚守婚姻原因曝光
  54. 赌城中国非法实验室有什么?FBI曝光
  55. 口服锂盐,治疗痴呆?
  56. 安徽男子全网寻找一位河南大哥
  57. Lady Gaga透露婚礼计划
  58. 伊朗:新任最高领袖人选已敲定
  59. 高中生AI创业,现在只招龙虾:每月2800
  60. 中共两会维稳 各地访民受到控制