OpenAI 发布 GPT-Realtime-2：语音 AI 的『思考』时代来了

发表于 2026/05/08

作者

8 分钟阅读

OpenAI 在 5 月 7 日一口气发布了三款实时语音模型，其中最值得关注的是 GPT-Realtime-2 —— 这是第一个具备 GPT-5 级别推理能力的语音模型。

语音 AI 不再只是「听和说」的工具，它开始具备思考、推理和自主行动的能力。

GPT-Realtime-2 官方发布页面

三款模型，三个场景

OpenAI 这次发布的不是单一模型，而是针对三个不同场景的三款专业模型：

GPT-Realtime-2：主打「语音到行动」的智能代理。它能理解复杂请求、调用工具、保持上下文、在对话中主动推进任务。比如你说「帮我找一下预算范围内的房子，避开繁忙街道，预约周六看房」，它能听懂、能规划、能执行。

GPT-Realtime-Translate：实时同声传译，支持 70+ 输入语言转 13 种输出语言。关键点在于「保持语速」—— 它不会为了准确而拖慢对话节奏。

GPT-Realtime-Whisper：流式语音转文字，边听边写，延迟极低。适合实时字幕、会议记录、客服对话等场景。

这三款模型的组合，基本上覆盖了语音 AI 的主要应用场景：从简单的转录，到跨语言沟通，再到能独立处理任务的语音代理。

GPT-Realtime-2 的进化：从「响应」到「推理」

真正让我感兴趣的是 GPT-Realtime-2 的架构升级。

传统语音模型的工作流程是：听到语音 → 转成文字 → 调用 LLM → 生成回复 → 转成语音。这串流程没问题，但延迟累积明显。

GPT-Realtime-2 的改进在于直接在音频层面进行推理，不需要先转成文字。官方给出的数据很直接：

在 Big Bench Audio 评测中，比 GPT-Realtime-1.5 提升 15.2%
在 Audio MultiChallenge（多轮对话智能测试）中，指令遵循能力提升 13.8%

更重要的是上下文窗口从 32K 扩展到 128K，支持更长的连续会话。

让模型「可控」的新机制

OpenAI 这次引入了几个开发者期待已久的功能：

Preambles：模型可以在正式回复前先说「让我查一下」或「稍等」，让用户知道它正在处理请求，减少等待焦虑。

并行工具调用：模型可以同时调用多个工具，并通过语音告知用户「正在检查日历」或「正在查询」，保持对话的透明度和流畅度。

可调节推理强度：开发者可以选择 minimal、low、medium、high、xhigh 五个级别的推理强度，用延迟换准确性，或者反之。

语气控制：模型能根据场景调整语气——解决问题时冷静，用户沮丧时共情，确认成功时积极。

这些功能说明 OpenAI 开始把重点从「模型能力」转向「模型可控性」。语音代理要进入生产环境，开发者需要精细的控制权，而不是一个黑盒。

实际效果：Zillow 的测试数据

Zillow 的 AI 负责人 Josh Weisberg 分享了一个有意思的数据：经过 prompt 优化后，GPT-Realtime-2 在他们最难的对抗性测试集上，呼叫成功率从 69% 提升到 95%。

这 26 个百分点的提升来自什么？

根据 OpenAI 的说明，GPT-Realtime-2 在「Fair Housing 合规性」上表现更稳健。对于房地产这种高度监管的行业，模型的「守规矩」能力比「聪明」更重要。

这也指向语音 AI 的一个关键挑战：在真实业务场景中，模型不仅要能完成任务，还要理解并遵守行业规则。

定价与可用性

三款模型都已通过 Realtime API 开放：

GPT-Realtime-2：$32 / 1M 音频输入 token，$64 / 1M 音频输出 token
GPT-Realtime-Translate：$0.034 / 分钟
GPT-Realtime-Whisper：$0.017 / 分钟

这个价格对于生产环境来说不算便宜，但考虑到省去了「语音转文字 → LLM → 文字转语音」的完整链路成本，实际使用成本可能更低。

语音交互的拐点

如果说 GPT-5.5 Instant 是「让文字交互更精准」，那么 GPT-Realtime-2 系列就是「让语音交互更智能」。

两者的区别很关键：文字交互的瓶颈在于信息密度，而语音交互的瓶颈在于认知负荷。用户不会为了语音而语音——如果语音体验不够好，他们会切回键盘。

GPT-Realtime-2 解决的不是「听懂」的问题，而是「听懂之后怎么办」的问题。它能在对话中保持上下文、调用工具、处理打断、调整语气——这些能力让语音交互从「新奇功能」变成「实用功能」。

对于需要在多个 AI 模型之间切换的开发者来说，像 OfoxAI（ofox.ai）这样的多模型聚合平台让切换成本几乎为零， Claude、GPT、Gemini 等主流模型一个账号就能搞定，特别适合需要快速对比不同模型语音能力的场景。

写在最后

OpenAI 这一周的动作很密集：GPT-5.5 Instant、GPT-Realtime-2 系列、ChatGPT 开始测试广告，再加上之前开源的 MRC 网络协议。

这些发布指向同一个方向：AI 正在从「实验室产品」变成「基础设施」。

语音是最自然的交互方式，也是最难做好的。GPT-Realtime-2 不是终点，但可能是语音 AI 从「能用」到「好用」的关键一步。

参考来源：Advancing voice intelligence with new models in the API - OpenAI

AI, OpenAI

本文由作者按照 CC BY 4.0 进行授权