文章

OpenAI 发布 GPT-Realtime-2:语音 AI 的『思考』时代来了

OpenAI 发布 GPT-Realtime-2:语音 AI 的『思考』时代来了

OpenAI 在 5 月 7 日一口气发布了三款实时语音模型,其中最值得关注的是 GPT-Realtime-2 —— 这是第一个具备 GPT-5 级别推理能力的语音模型。

语音 AI 不再只是「听和说」的工具,它开始具备思考、推理和自主行动的能力。

OpenAI GPT-Realtime-2 发布页面 GPT-Realtime-2 官方发布页面

三款模型,三个场景

OpenAI 这次发布的不是单一模型,而是针对三个不同场景的三款专业模型:

GPT-Realtime-2:主打「语音到行动」的智能代理。它能理解复杂请求、调用工具、保持上下文、在对话中主动推进任务。比如你说「帮我找一下预算范围内的房子,避开繁忙街道,预约周六看房」,它能听懂、能规划、能执行。

GPT-Realtime-Translate:实时同声传译,支持 70+ 输入语言转 13 种输出语言。关键点在于「保持语速」—— 它不会为了准确而拖慢对话节奏。

GPT-Realtime-Whisper:流式语音转文字,边听边写,延迟极低。适合实时字幕、会议记录、客服对话等场景。

这三款模型的组合,基本上覆盖了语音 AI 的主要应用场景:从简单的转录,到跨语言沟通,再到能独立处理任务的语音代理。

GPT-Realtime-2 的进化:从「响应」到「推理」

真正让我感兴趣的是 GPT-Realtime-2 的架构升级。

传统语音模型的工作流程是:听到语音 → 转成文字 → 调用 LLM → 生成回复 → 转成语音。这串流程没问题,但延迟累积明显。

GPT-Realtime-2 的改进在于直接在音频层面进行推理,不需要先转成文字。官方给出的数据很直接:

  • 在 Big Bench Audio 评测中,比 GPT-Realtime-1.5 提升 15.2%
  • 在 Audio MultiChallenge(多轮对话智能测试)中,指令遵循能力提升 13.8%

更重要的是上下文窗口从 32K 扩展到 128K,支持更长的连续会话。

让模型「可控」的新机制

OpenAI 这次引入了几个开发者期待已久的功能:

Preambles:模型可以在正式回复前先说「让我查一下」或「稍等」,让用户知道它正在处理请求,减少等待焦虑。

并行工具调用:模型可以同时调用多个工具,并通过语音告知用户「正在检查日历」或「正在查询」,保持对话的透明度和流畅度。

可调节推理强度:开发者可以选择 minimal、low、medium、high、xhigh 五个级别的推理强度,用延迟换准确性,或者反之。

语气控制:模型能根据场景调整语气——解决问题时冷静,用户沮丧时共情,确认成功时积极。

这些功能说明 OpenAI 开始把重点从「模型能力」转向「模型可控性」。语音代理要进入生产环境,开发者需要精细的控制权,而不是一个黑盒。

实际效果:Zillow 的测试数据

Zillow 的 AI 负责人 Josh Weisberg 分享了一个有意思的数据:经过 prompt 优化后,GPT-Realtime-2 在他们最难的对抗性测试集上,呼叫成功率从 69% 提升到 95%

这 26 个百分点的提升来自什么?

根据 OpenAI 的说明,GPT-Realtime-2 在「Fair Housing 合规性」上表现更稳健。对于房地产这种高度监管的行业,模型的「守规矩」能力比「聪明」更重要。

这也指向语音 AI 的一个关键挑战:在真实业务场景中,模型不仅要能完成任务,还要理解并遵守行业规则

定价与可用性

三款模型都已通过 Realtime API 开放:

  • GPT-Realtime-2:$32 / 1M 音频输入 token,$64 / 1M 音频输出 token
  • GPT-Realtime-Translate:$0.034 / 分钟
  • GPT-Realtime-Whisper:$0.017 / 分钟

这个价格对于生产环境来说不算便宜,但考虑到省去了「语音转文字 → LLM → 文字转语音」的完整链路成本,实际使用成本可能更低。

语音交互的拐点

如果说 GPT-5.5 Instant 是「让文字交互更精准」,那么 GPT-Realtime-2 系列就是「让语音交互更智能」。

两者的区别很关键:文字交互的瓶颈在于信息密度,而语音交互的瓶颈在于认知负荷。用户不会为了语音而语音——如果语音体验不够好,他们会切回键盘。

GPT-Realtime-2 解决的不是「听懂」的问题,而是「听懂之后怎么办」的问题。它能在对话中保持上下文、调用工具、处理打断、调整语气——这些能力让语音交互从「新奇功能」变成「实用功能」。

对于需要在多个 AI 模型之间切换的开发者来说,像 OfoxAI(ofox.ai)这样的多模型聚合平台让切换成本几乎为零, Claude、GPT、Gemini 等主流模型一个账号就能搞定,特别适合需要快速对比不同模型语音能力的场景。

写在最后

OpenAI 这一周的动作很密集:GPT-5.5 Instant、GPT-Realtime-2 系列、ChatGPT 开始测试广告,再加上之前开源的 MRC 网络协议。

这些发布指向同一个方向:AI 正在从「实验室产品」变成「基础设施」

语音是最自然的交互方式,也是最难做好的。GPT-Realtime-2 不是终点,但可能是语音 AI 从「能用」到「好用」的关键一步。


参考来源:Advancing voice intelligence with new models in the API - OpenAI

本文由作者按照 CC BY 4.0 进行授权