OpenAI让模型“张嘴”,但辱骂AI很贵

2026-05-08 03:25:27 · chineseheadlinenews.com · 来源: 腾讯科技

5月8日,OpenAI在API中加入三款新一代语音模型:主打语音推理与对话的GPT?Realtime?2、突出实时多语言翻译的Realtime?Translate以及聚焦语音转文本的Realtime?Whisper。

GPT?Realtime?2是OpenAI首个具备GPT?5级别推理能力的语音模型。它在基准测试中展现出显著进步:在Big Bench Audio语音智能评估中的准确率达到96.6%,在Audio MultiChallenge指令遵循评估中的平均通过率为48.5%,分别较上一代GPT?Realtime?1.5提升15.2个和13.8个百分点。

基于GPT?Realtime?2,语音AI从简单的轮转式问答,向能够在对话展开过程中持续倾听、推理、调用工具并完成任务的形态进化。

OpenAI CEO 山姆·奥特曼,图片经由AI处理

会“想”的语音助手

GPT?Realtime?2的设计目标是让语音模型在保持对话流利度的同时,具备处理复杂事务所需的推理与行动能力。

在对话的自然度方面,模型引入了前导语机制。

开发者可以启用诸如“让我查一下”或“稍等,我正在查看”之类的简短提示语,在正式响应生成之前就告知用户请求已被接收并正在处理。

与此配套的是并行工具调用与工具透明性能力,模型可以同时调用多个外部工具,并通过语音向用户通报当前进度,例如说出“正在检查您的日历”或“正在查找”,使智能体在完成任务的过程中保持响应而非陷入沉默。

当遇到处理困难时,模型会主动给出诸如“我现在遇到点麻烦”的提示并尝试恢复,而非静默失败或直接中断会话。

此外,模型的上下文窗口从32K扩展至128K,这意味着它可以在更长、更复杂的多轮对话中保持连贯,支撑起更完整的智能体工作流。

在专业场景的适用性方面,模型增强了对特定领域术语的理解能力,能更准确地保留专业词汇、专有名词和医学术语,这对生产环境的部署价值突出。在表达层面,模型拥有更可控的语气和表现力,能够根据情境切换风格。

另一项关键升级是可调节的推理强度。开发者可以从minimal、low、medium、high和xhigh五个级别中进行选择(默认为low),以在延迟和推理深度之间取得平衡。

不唠闲嗑

GPT?Realtime?2在基准测试中完胜前代模型

在衡量语音模型中挑战性推理能力的Big Bench Audio评估中,GPT?Realtime?2(high推理级别)取得了96.6%的准确率,而GPT?Realtime?1.5为81.4%,提升幅度达到15.2个百分点。

在评估口语对话系统多轮交互智能的Audio MultiChallenge评测中——该评测涵盖指令遵循、上下文整合、自我一致性以及处理自然语音纠正等维度——GPT?Realtime?2(xhigh推理级别)的平均通过率从GPT?Realtime?1.5的34.7%跃升至48.5%,相对提升13.8个百分点。

事实上,衡量一个语音模型是否真正“聪明”,最有说服力的场景不是闲聊,而是处理一个需要层层推演的复杂问题。

注:OpenAI在演示文档中给出了一个具体测试:用户向模型描述了自己的创业,两代Real time模型的语音推理及对应文字稿

上述案例属于一个对推理能力要求很高的复合型任务:模型需要同时理解多个变量的相互关系,客流的时间分布不均、昂贵的固定租金成本、以及主打慢冲咖啡这种翻台率偏低的业态定位,并在这些约束条件下进行逻辑推演。

GPT?Realtime?2用1分04秒给出了有条理、分层次的回答,不仅拆解了人流潮汐与租金结构之间的矛盾,指出高峰时段过于集中可能导致整体坪效不足以覆盖租金,还提出了具体的轻量级测试路径。

同样的提问交给上代模型GPT?Realtime?1.5,回应时长51秒,但深度明显不足。这个对比演示直接展示了两代模型在战略推理维度上的代际差距。

实时翻译与转录

除GPT?Realtime?2之外,OpenAI同期发布的两款专用模型各自面向明确的场景需求。

GPT?Realtime?Translate专注于实时多语言翻译,支持超过70种输入语言,可实时输出至13种目标语言,并同步提供转录文本。其目标应用场景包括客户支持、跨境销售、教育、活动以及面向全球受众的创作者平台。

视频平台Vimeo的AI负责人阿尔贝托·帕拉维奇尼(Alberto Parravicini)分享了他们的应用场景:在视频播放时嵌入GPT?Realtime?Translate,使创作者能够在上线瞬间就与全球观众进行跨语言沟通。

Vimeo演示GPT?Realtime?Translate实时翻译能力

GPT?Realtime?Whisper则是一款流式语音转文本模型,专为低延迟转录场景构建。

它能够在说话者开口的瞬间开始生成文字记录,适用于会议实时字幕、课堂笔记、广播字幕以及需要即时生成后续工作流的语音交互场景。其核心价值在于,将语音内容在对话进行过程中,即可转化为可供下游业务系统立即使用的结构化文本。

安全与定价

在安全层面,Realtime API部署了多层护栏——系统内置的主动分类器能够对会话进行实时监控,一旦识别出违反有害内容指南的交互,即可终止会话。开发者还可借助Agents SDK方便地叠加自定义安全护栏。

OpenAI的使用政策明确禁止将输出内容用于垃圾信息、欺诈或其他有害目的。

根据官方的指引,除非交互情境已清楚表明对话对象为AI,否则开发者必须向最终用户清晰地披露其正在与人工智能互动(提示用户:现在发言的是AI)。此外,该API已全面支持面向欧盟客户的欧盟数据驻留,并受企业隐私承诺保护。

三款模型现已通过Realtime API向开发者开放。

定价方面,GPT?Realtime?2按语音token计费,每100万输入token价格为32美元(缓存输入为每100万token 0.40美元),每100万输出token价格为64美元。GPT?Realtime?Translate按使用时长计费,每分钟0.034美元。GPT?Realtime?Whisper同样按时长计费,每分钟0.017美元。

为了给新的“语音全家桶”背书,OpenAI首席执行官山姆·奥特曼在X上说:人们确实开始用语音与AI互动,尤其是在需要一次性倾注大量背景信息时。

他还提到,年轻人群体似乎更偏好通过语音与AI交流,而中老年用户则倾向于打字,并提出了这个习惯未来是否会变化的开放性问题。

问题来了:现在OpenAI的语音推理能力上新,下一个接力的会是谁?


    24小时新闻排行榜更多>>
  1. 尘埃落定 两任国防部长魏凤和、李尚福被判死缓
  2. 重庆公安局长张安疆突死亡 传言四起
  3. 中共两任防长李尚福、魏凤和双双被判死缓
  4. 两美军士兵军演时失踪 内部报告:悬崖看日落坠海
  5. 胜利日当天莫斯科将断网 民众被建议下载离线地图
  6. 美国兄弟冒充中东皇室成员 中国投资者被骗1800万
  7. 两名中国前国防部长为何遭判死缓 杀鸡给猴看?
  8. 川普习近平会面谈什么?
  9. 中国油轮首度在霍尔木兹遇袭 甲板起火…
  10. 美国特勤局车辆现身北京街头:配备装甲 夜视 催泪气…
  11. 日本再砸5万亿日元护汇率
  12. 30亿人可能看不到世界杯?FIFA转播权为何卖不动?
  13. 两任中国防长同判死缓 学者:真正原因可能是“泄密”
  14. “习下蔡上”是把蔡奇放火上烤?接班人疑云引猜测
  15. 中植系落幕 旗下316家企业合并破产清算
  16. 广州全面取消限购未挽救楼市 分析:信心崩盘
  17. 魏凤和、李尚福通敌叛国? 分析:为张又侠罗织罪名
  18. 遗体全身器官消失 黑龙江两女童失踪案疑点重重
  19. 晨起第一杯水喝错伤身?这3种水千万别空腹喝
  20. 伊朗“尚未回应美方案”,美宣布新制裁
  21. 美从德国撤军超5千人 波兰总统:我们可以全接收
  22. 美军反击伊朗导弹无人机等袭击 川普回应
  23. 解散xAI ,马斯克和Anthropic都赢麻了
  24. 怕被美制裁波及?传中共急令银行停贷涉伊炼油厂
  25. 这国“强暴节”全球傻眼!女大生当街惨遭猥亵
  26. FOX招聘世界杯“首席观察员” 5万报酬看全部赛事
  27. 巴西对中国公民免签 飞里约热内卢搜索量瞬时翻倍
  28. 数据中心用电翻倍,吃下8.5%电力
  29. 重庆七年三名高官异常离世 诸多细节惊人雷同
  30. 美中央司令部:美军对伊朗发动报复性打击
  31. 罕见!最高法院公开对拜登提名的大法官严厉批评
  32. 纽约市长向富人征税 房产大亨怒:令人作呕
  33. 华邮:伊朗打击美军基地极为精准 战力超美方想像
  34. 汉坦病毒首发病荷兰夫妇活动轨迹披露 去了这三国
  35. 硅谷科技巨头如何助力中国的大规模监控?
  36. 巴西免签,搜索量瞬时翻倍
  37. 从受援国到调停人 巴基斯坦凭借什么突然掌控大局?
  38. 黑龙江两女童失踪多日后确认遇害
  39. 白宫新闻秘书官宣产女
  40. 前NASA科学家:“死后世界”很平静
  41. 【中国观察】中共大幅修订监狱法 藏何猫腻
  42. 顶刊论文造假 同济大学生命学院院长王平被撤职
  43. 传统周医学讲座 聚焦长寿秘诀与生医新知
  44. 台退役少校吕礼诗“媚中”最高裁罚50万
  45. 白宫新闻秘书莱维特官宣产女 晒照片并公布名字
  46. 推动与北京建交 所罗门群岛总理信任投票失败下台
  47. 美国为何有共产党议员?马克思诞辰日引爆争议
  48. 少女玩悬崖秋千坠亡!专家揭疑点:恐非“没绑紧”
  49. 沈火明任成都理工大学党委书记
  50. 女子玩“悬崖秋千”坠亡,目击者发声
  51. 呼应美国要求 新西兰拟引进英日护卫舰
  52. 毒枭留下的河马,这下有救了?
  53. 内娱“再就业”杀疯!明星演员扎堆卖艺?
  54. 美货车司机遭判死 唱圣诞歌勒毙女童 1小时录音令人崩溃
  55. 关键人物接连自杀,尹锡悦夫妇案有点神秘了
  56. 两男在英国帮中共监视香港异见者 被判有罪
  57. 魏凤和、李尚福以行贿受贿罪名分别被判处死缓
  58. 美贸易法院:川普10%的全球关税政策无效
  59. 美伊再爆冲突 油市震荡 布油涨破100美元
  60. 惊悚视频:弃婴还是被活摘?中国博主:死婴满山遍野