GPT-5基准测试泄露,两天后发布?

2025-07-29 07:25:36 · chineseheadlinenews.com · 来源: 新智元

GPT-5要来了,来势汹汹!泄露的基准测试+Minecraft实测,直接让全网惊掉下巴:代号Zenith的GPT-5-pro在游戏中如行云流水,被称为“魔法级AI”。更有爆料称它将于7月31日发布,吊打Grok 4 Heavy!OpenAI这是又要掀桌了?

一大早,关于GPT-5的消息又来了。

这些泄露的GPT-5基准测试,很可能是真实的。

甚至还有一个炸裂消息:GPT-5将于7月31日发布。

为此,现在所有GPT-5模型,已正式退出WebDev竞技场。

不过还有另外的说法,来自Menlo Ventures投资人Deedy,以及The Verge、The Information等外媒,据说GPT-5会在8月亮相。

虽然GPT-5还没来,但有关它的实测已经全网满天飞了。

就在刚刚,又有一位放出了GPT-5复刻Minecraft游戏的实测。准确地说,是内部代号zenith的GPT-5-pro。

这位网友评价道:“令人印象深刻,简直就是魔法!OpenAI确实做出了一些令人难以置信的东西。”

在这个视频中,GPT-5行云流水地一次性完成了游戏任务,表现实在惊艳。

把网友们的期待值拉得这么高,GPT-5正式发布的时候必然得超级炸裂了,否则都不知道该怎么收场。

还有一个重磅爆料,来自知名爆料人Jimmy Apple。

根据他的说法,很多内部评估人员对GPT-5的评价是——比Grok 4 Heavy还要强。

GPT-5要来,全员屏息等待

现在,GPT-5的气息是越来越近了。

甚至有人发现,当自己在app中选择o3时,竟意外测试到了某个版本的GPT-5。

不小心测到GPT-5的人,越来越多。

关于它本周上线的消息,也得到了越来越多人的证实。

而The Verge的说法稍有不同,根据他们的情报,GPT-5将于8月初发布,包括mini和nano版本。

此前曾有开发者发现,GPT-5在内部被命名为“推理alpha版”。

同时,一个代号“o3-alpha”的模型,才上线了12小时就迅速下架,许多人公认:这就是GPT-5的早期壳。

根据OpenAI惯例,从测试到发布间隔最短仅4天,所以,GPT-5真的已经相当近了。

就在昨天,大家已经发现了GPT-5可以在LMArena上使用。同时被发现的还有Zenith模型。

下面这些实例,也已经被全网疯转。

生成来自遥远未来的星舰控制面板。

创建一个流媒体网站。

在机器人行走方面完美呈现SVG动画。

史上最好的菠萝防御游戏。

融合o系列和GPT系列

毫无疑问,现在GPT-5已经是全球最受期待的模型。

很多人相信,GPT-5将是一个意义非凡的里程碑,将吸引数百万用户加入AI生态系统。

接下来,我们会梳理一番过去这段时间,GPT-5被提及的种种蛛丝马迹。

在关于OpenAI智能体的一次直播中,GPT-5就曾被提及。

当时的关键信息是:这个令人惊叹的前沿模型,将首次统一两个系列的模型,集中了o系列在推理方面的突破,以及GPT系列在多模态方面的突破。

因为ChatGPT有各种型号的模型,每个模型都有自己独特的功能和突出的特点,如果GPT-5真的是每个单一模型最佳部分的集合,很显然用户体验将彻底改变。

比如用过o3的人就知道,从GPT-4o到o3的飞跃有多么疯狂。

这一点,早在今年2月,就得到了OpenAI CPO Kevin Weil的证实。

网友问道:你们会制作模型路由器,还是它们会以系统的方式更加统一?Weil表示,会更统一

另外还有一个疑似OpenAI内部员工的爆料。他表示,研究者们的确尝试了路由方法,不过产生了很多幻觉。

所以,他们在测试一个能规划、推理、可以像扩展一样运用智能体的模型。

然后就是外媒The Information的一些爆料了。

总结来说就是,GPT-5编码极强。

在自然科学领域,推理更深入;

在浏览器里自动完成复杂任务;

写作更流畅,逻辑更在线;

更重要的是:在编码上有炸裂提升!

根据一位体验者的说法,GPT-5不仅更善于解决学术和编程竞赛问题上,甚至在处理现实世界工程师面对的实际编程任务时,表现都更加惊艳了。

比如那种包含大量屎山遗留代码的庞杂代码库,它能都能进行修改,完全没在怕的。

正是这种处理复杂场景的细致能力,让OpenAI的模型过去始终落后于Anthropic。毕竟在开发者群体中,大家都公认,Claude才是真正的编程王者。

一位体验者亲测后表示,GPT-5在编程上,甚至直接胜过了Anthropic的Claude Sonnet 4!

另外的说法就是,GPT-5不是一个统一的模型,而是一个路由器机制。

它会根狙淌题的类型,把你的提问发送给一个擅长闲聊GPT大模型,或是一个擅长逻辑和推理的o系列模型。

最终我们所看到的GPT-5的表现,就是这俩模型组合拳的效果。

甚至还有OpenAI高管私下这样预言——

我们在不换架构的前提下,有信心做到GPT-8。

也就是说,OpenAI并没有打算卷新架构,而是靠更聪明的调度、更强的推理、更多的后训练数据,一步一步把现有技术用到极致。

GPT-5,会给世界带来什么?

同时,奥特曼在最近的采访中关于“GPT-5让自己觉得毫无用处”的说法,让更多人期待值拉满了。

也有人说,GPT-5很可能是目前AI领域正在发生的最危险的事情之一。

比如奥特曼就在这次采访中提到,很多人整天都在和AI聊天,甚至把它当作自己的男友或女友。

还有一些孩子们,在成长过程中完全靠着滚动屏幕的方式获取多巴胺。这几件事都很危险。

当主持人问出:如何防止AI产生与社交媒体相同的负面影响?奥特曼诚实地承认道:我很害怕这件事,我没有答案。

令人担忧的是,就在前几天,一位OpenAI的投资人承认,自己因为整天使用ChatGPT,已经出现了一些不正常的状况。

也就是说,即使是有钱人,也会因为跟AI聊天被诱发精神病。

奥特曼甚至表示,自己对给地球上的每个人发放免费运行的GPT-5十分感兴趣。

当这些AI产品和服务以1/100成本被提供时,很显然,某些经济体会迅速转型和瓦解。

但是,不管会给世界造成怎样的狂潮,GPT-5要上线的架势,如今已经是无法阻挡了。


    24小时新闻排行榜更多>>
  1. 美国发现糖尿病逆转开关,或根治全球8.3亿患者
  2. 新关税出炉 彭博点名最大输家是中国 最大赢家这些国
  3. 江泽民生前宠爱的“二英” 现在境况如何?
  4. 歼-20技术升级枭龙战机,俄武器被挤出中亚
  5. 从10个细微之处 看一个人的未来格局
  6. 罗杰斯清空美股:下一次美国危机将是最严重的
  7. 中共外交部记者会休会 北戴河被指暗流汹涌
  8. 川普把印度当成反面教材,威胁其他国家
  9. 普京宣布重磅武器服役
  10. 内幕:元老授权张又侠建“特别行动小组”监督习交权
  11. 第一波海啸袭击日本,第七舰队如临大敌
  12. 毛岸英之死 毛泽东发过电报指令给彭德怀吗?
  13. 娃哈哈风波进展:信托协议存在但双方没谈拢
  14. 宗馥莉,败诉
  15. 诺奖得主,受聘理工大学
  16. 关税战冲击Shein 广州快时尚产业苦苦挣扎
  17. 女子称彩超漏诊婴儿唇裂,到卫健委反映问题竟遭怒斥
  18. 娃哈哈遗产争夺首战打响:宗馥莉,败诉
  19. 乐善好施转变人生 逃脱厄运
  20. 川普开除统计局长,后果严重
  21. 解放军潜艇首次部署俄罗斯
  22. 释永信被清理是政治需要?命理师斥犯大戒将堕地狱
  23. 卢旺达刚果敲定经济框架 将在白宫正式签署
  24. 宗庆后唯一信任的还是宗馥莉
  25. 哈佛认罚5亿,但“恶战”还没结束
  26. 被吹上天的4种保健品,根本不保健
  27. 【时事金扫描】中国新疫情爆发 非洲诅咒蔓北京
  28. 美财政部长称美中有望在8月12日截至日前达成协议
  29. 印方:将继续购买俄罗斯石油
  30. AI界新瓜:GPT-5没技术突破&小扎和奥特曼人才大战
  31. 51%达到退休年龄的美国人计划无限期工作
  32. 小红书爆瘦法,4个月甩肉14公斤
  33. 劳工部长力挺川普解职统计局长
  34. “亮证姐逼让路”事件5个未竟之问
  35. 川普解雇“不诚实”统计局长
  36. 美将部署2艘核潜艇?
  37. 中兴之主的别样人生
  38. 【内幕】中远海运充当中共特洛伊木马舰队
  39. 真信仰被打压 假和尚被捧红
  40. 又来了 广东划高风险区 福州令返乡者隔离14天
  41. 江西省政府发布一批人事任免通知
  42. 【时政春秋】中共敲打英伟达 意欲何为?
  43. 泰国被禁用西方战机,中国成最后底牌
  44. 歼-10C“击落”隐形飞机引热议
  45. 水彩画家中的佐恩
  46. 沃尔玛人力高管:这一类型人没人想雇用
  47. 俄8.8级地震引发海啸,波及日台美
  48. 董璇张维伊因结账争吵
  49. 7月非农:“颠覆性”时刻?
  50. 美国会调查发现哈佛与中共机构合作新证据
  51. 【一线采访】河北村民:大批人被山洪冲走
  52. “中国造”团队破解世界难题
  53. 中国留学生用脚选出来的“留学大盘”
  54. 年轻人爆粗“X你妈”,大妈当众脱光
  55. 印度与墨西哥 都出现了“虎”头人?
  56. 又改口?川普称希望公布所有爱泼斯坦案文件
  57. 袁立账号被封,爆出了网络里也有“黑社会”
  58. “大忽悠”丁勇:砸1.8亿造标王,天海深足崩塌的催化剂
  59. 中国隐秘生物战?美专家警告“静默攻击”或已展开
  60. 川普挥关税大刀 白宫顾问喊:值得获诺贝尔经济学奖