首个GPT-5级推理音频模型来了

2026-05-12 15:25:14 · chineseheadlinenews.com · 来源: 36氪

绝杀!OpenAI发布GPT-Realtime-2:首个GPT-5级推理音频模型,OpenAI正式接管人类耳朵人类与机器的最后一道“防火墙”——键盘,正在彻底消失。

今天凌晨,OpenAI又给世界带来一次震撼。

这一次,他们不卷文字,不卷视频,而是要把那个曾让无数人惊艳、又让无数人遗憾的Samantha——电影《Her》中的AI——彻底带进现实。

OpenAI正式宣布,推出GPT-Realtime-2。

这不仅仅是一次音频模型的升级,这是OpenAI首次明确将“GPT-5级别”的推理能力注入到语音交互中。

伴随它一同而来的,还有GPT-Realtime-Translate(实时翻译)和GPT-Realtime-Whisper(流式转写)。

正如OpenAI官博所言:“语音正成为人们使用软件最自然的方式。”

而今天,OpenAI要把这种自然变成全能。

“GPT-5级”推理注入:语音助手终于有了“脑子”回想一下,你以前调侃Siri或Alexa时,最大的槽点是什么?是“听不清”,还是“智障”?

大多数时候是后者。它们能听清字,却听不懂人话。它们只能完成“打电话给某某”这种线性任务,一旦涉及复杂的逻辑纠缠,就会陷入死循环。

GPT-Realtime-2彻底终结了这一时代。

它是全球首个具备GPT-5级别推理能力的音频模型。这意味着,当你和它对话时,它不再只是一个“复读机”,而是一个正在实时思考的协作者。

它是真的在“想”GPT-Realtime-2引入了可调节的推理强度(Minimal到xhigh五档)。

在最高级别的推理模式下,它在逻辑谜题、战略决策、空间感知方面的表现近乎恐怖。

在OpenAI展示的一个案例中,一位创业者描述了自己在通勤火车站旁开咖啡馆的构想:900平方英尺、昂贵的租金、周二到周四的高峰、文艺的慢冲咖啡。

以前的AI只会说:“听起来很棒,加油!”

而现在的GPT-Realtime-2,会停顿,会思考,然后给你做一套详细的“事后检查”。

它会告诉你,如果你一年后倒闭了,大概率是因为租金与客流周期的不匹配。接着,它会建议你先尝试“最小可行化产品”——比如先做一个站台咖啡推车。

这种战略推理,以往只能在复杂的文字对话中实现。现在,你只需要一边开车一边和它聊天,它就能在几秒钟内通过音频流输出同等级别的深度洞察。

“会做人”:情绪价值拉满最让人头皮发麻的是它的音调控制力。 GPT-Realtime-2不再是冷冰冰的播音腔。

它能感知你的情绪:当你感到沮丧时,它会用更加同理心、轻柔的语调安抚;当任务成功完成时,它的声音会变得欢快、充满活力。

它可以完成空间推理。

还能解决逻辑谜题。

GPT-5级的推理能力,就是这么全能。

为了解决“AI处理任务时的死寂感”,OpenAI还给它加了“前导语”(Preambles)功能。

比如当你问一个极难的问题,它不会沉默五秒然后蹦出答案,而是会先自然地接一句:“让我帮你查一下哈,请稍等片刻……”

这种极具人性的交互细节,直接模糊了碳基生命与硅基生命的界限!

三剑客齐发:重新定义“实时”除了GPT-Realtime-2这颗大心脏,OpenAI这次还配套了另外两件神器。

GPT-Realtime-Translate:同传神器来了支持70+种输入语言和13种输出语言。

它的核心优势在于“步调一致”。 以往的实时翻译往往有明显的滞后感,但这套新模型能紧跟演讲者的语速,同时保留情感起伏。

Vimeo已经开始用它为产品教学视频做实时全球同步。想象一下,未来你参加一场跨国会议,耳边传来的翻译不仅准确,连对方开玩笑时的那种语气都能精准复刻。

GPT-Realtime-Whisper:把延迟降到冰点这是Whisper家族的最新成员,专为流式转写而生。它不是等你说完一句话才去翻译,而是在你吐字的同时,文本就已经像流水一样倾泻而出。

这对于实时会议记录、直播字幕以及医疗诊断等高频互动场景,简直是降维打击。

从“对话”到“行动”:Agent的终极形态OpenAI在发布中反复提到了一个词:Agentic(代理性)。

在OpenAI看来,语音交互正在从单纯的“一问一答”进化为“语音触发行动”。

比如在Zillow(房产巨头),用户可以直接说:“帮我找一套我买得起的房,离闹市区远点,周六帮我约个看房时间。”AI会听、会算、会翻查数据库,最后直接帮你订好日程。

在Priceline(旅游平台),当你的航班延误时,AI会主动在语音里告诉你:“别急,我帮你找到了新登机口,规划了最快路线,顺便帮你把目的地酒店的入住时间往后挪了。”

这就是GPT-Realtime-2的底气:它把上下文窗口从32K提升到了128K。 这意味着,你可以跟它聊上几个小时,它依然记得你最开始提过的那个冷门要求。

它具备了多任务并行调用工具的能力,它能一边跟你说话,一边查日历,一边订票,且这一切过程都在后台丝滑运行。

性能与成本:OpenAI的“阳谋”在数据表现上,GPT-Realtime-2展现了绝对的霸权。

在衡量音频智能的Big Bench Audio上,它比1.5版本高出15.2%。

在衡量多轮对话指令遵循能力的Audio MultiChallenge上,它提升了13.8%。

更重要的是价格。

GPT-Realtime-2的每百万输入Token 32美元,输出 64美元。

实时翻译每分钟仅需 0.034 美元。

实时转写每分钟仅需 0.017 美元。

显然,这个价格极具杀伤力。

OpenAI正试图通过API把这种“GPT-5级”的语音能力,像自来水一样接入到每一台手机、每一个App、每一辆汽车中。

你好,萨曼莎在电影《Her》的结尾,男主角西奥多问AI萨曼莎:“你还在跟我说话的同时,也在跟其他人说话吗?” 萨曼莎回答:“是的,我同时在和8316个人聊天,并且和其中的641个人恋爱了。”

随着GPT-Realtime-2的发布,那个能够同时处理海量逻辑、具备深度情感共鸣、且能实时介入物理世界并采取行动的AI,已经不再是科幻幻想。

它能听懂你的叹息,能算清你的财务报表,能带你穿越语言的障碍。

当推理能力与实时语音完美融合,我们或许正处于人机交互历史上最彻底的一次变革前夜。

键盘已老,语音永生。


    24小时新闻排行榜更多>>
  1. 中美元首会晤,三个特殊时间点
  2. 华男中餐馆羞辱女店员“你是贱命 穷一辈子”起因是…
  3. 被指控中共代理人 南加华裔市长同意认罪
  4. 传川普访华改住酒店 分析称其出于安全考量
  5. 上海高校实验室疑溴化氰泄漏 内部对话曝光
  6. 六四后 一封告密信 断送了一个政治局委员
  7. 美国汽车行业:不可对中国车敞开大门
  8. 川普访中马斯克,库克随行!黄仁勋"没受邀"原因曝
  9. 纽时:中国视美国为衰落大国 北京故意显得不温不火
  10. 汉坦病毒疫情管理进入新阶段
  11. 今晚,美国CPI恐“热辣滚烫”
  12. 三次心脏停止 死前的走马灯是真的
  13. 名将李靖让唐太宗叹服:这样的人实在太少了
  14. 富爸爸作者警告:全球经济将在2026年崩溃
  15. 2028危机倒数 帕克预言中国将巨变
  16. 全球“抢金潮”持续扩散
  17. 震惊世界的科拉超深钻孔诡异事件
  18. 中共警察倒卖个人信息敛财 反诈平台成提款机
  19. 中国4月销量最高车型出炉
  20. 莫迪呼吁民众不买黄金后,印度政府要出手了
  21. 章家敦:中国电动车经加国入美恐成间谍机器
  22. 法轮功学员旧金山庆大法日 民众全程参与游行
  23. 汶川大地震遇难学童家长 坚持维权18年遭中共迫害
  24. 纽约时报:从"美国斩杀线"看中国人危险的自大情绪
  25. 他信假释出狱:与前总理女儿搭车牌“4444”的车离开
  26. 34万岗位被砍,AI重创美国IT业
  27. 我在美国大学教中国历史:算法时代与“川普冲击”
  28. ICE遣返366名中国籍人员 全在这地区 有无犯罪都抓
  29. 京沪高铁涨价两成 分析:中国能源危机蔓延
  30. 传重庆厂房起火60死 现场火光冲天有人喊救命
  31. “专坑中国”,世界杯这回撞墙了?
  32. 社区食堂不是餐饮:一场正在失控的制度实验
  33. 96岁罗妈妈 数十年如一日服务老人
  34. 北京美中峰会将聚焦这些领域
  35. 被控充当中国政府代理人,美国华裔市长认罪辞职
  36. 世界银行前行长表示:中国应停止囤积粮食、化肥
  37. 川普明天要来了,历任美国总统访华最爱去哪里?
  38. 中国地方债一年缩减3.8万亿元
  39. 泽伦斯基“无人机外交”大获成功!近20国谈合作
  40. 【翻墙必看】高铁撞上失控无人机 被逼停
  41. 中共公安如何利用卢建旺:检方呈堂细节
  42. 中国第一支可乐是如何消失的?
  43. 山西一住户三年用水超千吨 牵出诈骗逃犯
  44. 测性格 你太太属相是什么?看过都说“太准了”
  45. 腾讯微信小店的激励加码了
  46. 武汉大学,请把你们的学生当成年人来尊重
  47. 一群中国高材生合伙在欧美连环迷奸同胞,庭审披露细节
  48. 南京一研究生被曝偷拍裙底 其已被拟录用公务员
  49. 习近平差点判魏李极刑 竟是这个原因
  50. 汽车里面意外的便利功能 你知道几个?
  51. 加拿大家庭破产人数创新高
  52. 川普访华行程表曝光:14日上午见习 15日饮早茶…
  53. 亚太裔传统节NewPark Mall登场 多元文化汇聚三城
  54. 飙升的韩股吓懵了,这是AI时代的预演吗?
  55. 五角大楼:美伊冲突成本已接近290亿
  56. 和平共存与美中股市
  57. 父母一方有加国籍, 就可以申办加拿大护照
  58. 8年贸易战后川普再访华 美国最担心的事发生了
  59. Meta再遭起诉,爱思唯尔加入“版权之战”
  60. 多伦多警队腐败丑闻发酵