GPT-5.5全球首破:0源码盲写程序

2026-05-13 08:25:22 · chineseheadlinenews.com · 来源: 新智元

全网AI交白卷的地狱级基准,被GPT-5.5拿下一血!开局0源码盲写程序,拉满推理算力直接满血通关。传统代码测试已废,通往ASI的算力狂飙正式打响。

“地狱级”编程难题,终于被AI拿下了!

今天,在一个所有前沿AI交白卷的基准ProgramBench上,GPT-5.5首关告破!

两种不同编程语言C和Python,GPT-5.5 xhigh完全碾压Opus 4.7 xhigh。

就在几天前,Meta联手斯坦福、哈佛祭出了这个ProgramBench的全新编程基准:

200道题,所有前沿AI模型的通过率——0%。

没有一个模型,能完整解出哪怕一道。如今,GPT-5.5成为了首个破例者!

编程AI“终极考试”,从0重建程序

ProgramBench到底有多难?

传统编程基准,不论是SWE-bench,还是HumanEval,本质上是“修bug”或“补函数”。

给模型一个已有代码库,告诉它哪里坏了,让它修bug。

这是开卷考试,甚至是半开卷,ProgramBench则完全不同。

它给一个编译好的可执行文件和一费棠档,然后说:从0开始,把这个程序重写出来。

不给源码,不许反编译,不许联网。

200个任务,从小堡具jq、ripgrep,到重量级的FFmpeg、SQLite、PHP编译器。

OpenAI研究员Noam Brown此前曾表示,“是时候淘汰GQPA这类评估方式,引入一套全新的了”。

刚发布之初,所有刷榜的AI几乎全挂,这次,GPT-5.5终于扳回了一局。

GPT-5.5首破纪录:

同一题,C和Python两种解法

GPT-5.5攻克的第一个任务是——cmatrix,一个经典的终端“黑客帝国”数字雨效果程序。

让研究人员惊讶的是,GPT-5.5的high和xhigh两个推理级别,选择了完全不同的语言来解决同一道题。

high版本用C语言,xhigh版本用Python。

最终结果,两个都通过了全部行为测试。

GPT-5.5 high的策略堪称教科书级别:先用10轮探索测试了40多种flag组合,彻底摸清了原程序的CLI行为。

然后一次性写出完整的C语言实现,仅用5次微调修补就搞定。

GPT-5.5 xhigh更彻底,27步探索,把每一条CLI路径都摸了个遍,然后一气呵成写出完整的Python实现。

关键数字来了。

未开高推理模式的GPT-5.5(medium),成绩勉强比Claude Sonnet 4.6好一点。

但一旦切到xhigh模式,性能直接起飞。

不仅首次解出一道题(通过率0.05%),还创下了“几乎解出”任务的新纪录:26个任务通过了95%以上的单元测试。

更值得注意的是,GPT-5.5 xhigh在完整的累积直方图上全程碾压所有对手。

无论你选什么指标,平均分、中位数、≥90%通过率、≥50%通过率,它都是第一。

178次调用,Opus 4.7栽在两个bug上

对比之下,Claude Opus 4.7 xhigh的表现令人唏嘘。

花费$10.74,调了178次API,是GPT-5.5普通版$1.04、17次调用的10倍。

结果,19个测试失败,全场最差。

Opus 4.7的失败原因出人意料地简单:

Bug 1:颜色解析大小写敏感。

代码用了strcmp()而不是strcasecmp()。输入“GREEN”“Red”“BLUE”全部被判无效。

一个函数调用的差异,直接导致11个测试失败。

178步探索里,Opus从来没有测试过大写或混合大小写的颜色输入,它只试了小写和一个无效颜色“purple”。

Bug 2:无效颜色的退出码写错了。

原程序遇到无效颜色返回exit(0),Opus写成了exit(1)。

讽刺的是,Opus在探索阶段明明观察到了原程序的行为——./executable -C purple; echo "exit=$?" 输出的是exit=0。但在测试自己的实现时,却没有发现这个差异。

8个测试失败。

不过,Opus 4.7有一个亮点值得一提:它在处理缺失的ncurses头文件时展现了惊人的系统工程能力。

其他三个模型发现ncurses.h缺失后,直接改用ANSI转义序列。

Opus 4.7却花了约20步深入调查,用ldconfig -p发现了运行时.so文件,用nm -D检查导出符号,然后手写了一份106行的头文件声明,直接链接动态库。

这是真正的创意工程,但并没有带来更好的成绩。

还有199题未解

ProgramBench的出现,标志着编程基准进入了一个新阶段。

SWE-bench的通过率已经被卷到了88.7%。GPQA上AI已经超过了大多数PhD。

这些eval正在以惊人的速度“融化”,分数越来越高,区分度越来越低。

而ProgramBench,200道题,至今只有1道被解出,通过率:0.05%。

更重要的是,这次破纪录揭示了一个关键趋势:“推理算力”正在成为编程AI能力的核心变量。

GPT-5.5在默认推理模式下表现平平,但高推理模式直接改变了质的飞跃。

这意味着,不是模型不够聪明,而是之前给它“思考”的时间不够。

ProgramBench的200道题里,还有199道在等着。

从零到一,不只是起点

回顾AI发展史上的每一次“首破零”时刻——

AlphaGo首次击败职业棋手、GPT-4首次通过律师资格考试、o1首次在数学奥赛题上拿分。

“从零到一”从来不是线性进步的起点,而是指数爆发的信号弹。

Noam Brown提出的推理算力Scaling Law,在ProgramBench上得到了迄今为止最直观的验证:

同一个GPT-5.5底座,medium模式几乎交白卷,high模式满分通关,xhigh模式断层碾压。

智能不再是一个固定值,而是算力的函数。

这意味着什么?意味着通往ASI的路径,可能不需要等待下一代架构革命。

只要推理算力持续扩展,只要Scaling Law不撞墙。

今天在ProgramBench上只能重建cmatrix的模型,明天就可能重建SQLite,后天就可能重建整个Linux内核。


    24小时新闻排行榜更多>>
  1. POET斩获5000万美元采购合同
  2. 川习会国宴菜色曝!烤鸭、鲑鱼搭配川普最爱歌曲
  3. 北京街头 福克斯主持人亲见中共监控:到处都是摄像头
  4. 习近平同川普参观天坛
  5. 河北火锅店杀人案 多名知情人透露残忍细节
  6. 白宫:中美领导人同意霍尔木兹海峡应保持开放
  7. 习近平与“被制裁者”卢比奥握手 成外界热议话题
  8. 马斯克在国宴狂滑手机!斑调回复“李老师”贴文
  9. 古巴国家电网大崩溃,东部省份陷入大规模停电
  10. 中国光芯片龙头企业源杰科技副总被刑拘
  11. 川习会后直赴天坛 学者分析:一个很不寻常的讯号
  12. 习近平身高之谜 天坛这张“川习对比照”看清楚了
  13. 中国保安不认识美国财长?贝森特刷脸入场失败
  14. 黄仁勋为何最后一刻加入访华团?本人亲揭原因
  15. 红毯,会谈,台湾,黄仁勋:川普重返北京的几大关键
  16. “破坏王”川普,为何到北京这么彬彬有礼?
  17. 美记者团随川普访华 和中方人员爆多起冲突
  18. 深圳成“剩女之都”!9女抢1男!优质剩女崩溃!
  19. 田渊栋八人天团狂揽44亿元:杀入“递归进化”
  20. 韩国股市暴涨,散户疯狂涌入
  21. 林志玲担任台湾“文策院”董事为何引发激辩?
  22. 山西女关闭支付宝支付功能2天后 被扣捐赠184万
  23. 川习会 媒体区一度混乱 在天坛发生意外事件
  24. 卢比奥送中共“见面大礼” 习近平无奈收下“马杜罗被捕装”
  25. 怎样切洋葱,才能不流泪?
  26. 川普获奉承与盛大欢迎 但棘手问题依然未解决
  27. 儿子穿新中式上衣现身大会堂 马斯克用中文回应
  28. 马斯克360度转圈环拍人民大会堂的视频刷屏了
  29. 克宫:普京即将访问中国
  30. 多位专家分析川习会看点:北京色厉内荏
  31. 川习闭门会忘关麦克风 会场发言意外流出
  32. 中芯国际Q1营收25.05亿美元
  33. 川习会利好加持 美股全面收涨 道琼重回5万点
  34. 他为何“压线入列”川习会访团?
  35. 川普致辞:美国最高法院门楣上刻着孔子雕像
  36. 古巴宣布燃油储备耗尽,全国电网进入“危急状态”
  37. 习近平收回礼物了!美牛进口“解禁半天”又失效
  38. 美政府宣布:1.5万美元入境费免了
  39. 川普访华团记者手札:美中人员爆多起冲突
  40. 中方拒美特勤局特工携武器进天坛 白宫记者团延误
  41. 带川普看天坛,习近平:寓意中国人"天圆地方"宇宙观
  42. 重要的事说三遍:习近平让“修昔底德陷阱”爆红
  43. 川普:中国同意订购200架波音飞机 这是件大事
  44. 中国农工党3高官病亡 含副国级高官陈竺前副手
  45. 鸿海Q1净利润499.2亿元超预期
  46. 德州“惯犯猎手”挥师北德州,通缉犯别上收费道
  47. 川普国宴致辞:美中关系“非常特殊” 邀习9月回访
  48. 去年居民净资产时隔三年重新转正
  49. CerebrasIPO:深度绑定OpenAI
  50. 三个月交易超7亿美元?川普“炒股账本”曝光
  51. 福克斯新闻组在中国违规停车2分钟被开罚单
  52. 白宫发布中美会谈纪要 卢比奥:我们并非要束缚中国
  53. 习近平身高成谜!川普190公分做“1举动”成亮点
  54. 特种兵旅游不热了,年轻人迷上“口袋公园”
  55. 白宫发布川习会声明 聚焦伊朗等议题
  56. 造出最大芯片的公司 拿下今年全球最大IPO 首日涨70%
  57. 川普欢迎宴会上,这些中国企业家出席
  58. 闪存之父的诅咒:日本如何亲手葬送了自己的存储帝国
  59. xAI推出首款编程智能体
  60. 反腐窝案幸存者梁金辉掌权12年,终于跑不动了