2026年5月8日API Agents Infrastructure

OpenAI一口气放了三个语音Agent积木

OpenAI 5月7日一次发了三个语音模型，目标只有一个——让语音Agent不要再听起来像答录机。GPT-Realtime-2继承了GPT-5级别的推理，能处理多步语音请求不掉线。GPT-Realtime-Translate做实时翻译，输入支持70种语言，输出13种，速度跟得上对话节奏。GPT-Realtime-Whisper做实时语音转文字，边说边出。

发布稿里那句话很关键："边听、边推理、边翻译、边转写、边采取行动"。这不是TTS升级，这是语音版的tool-using agent循环。三个组件叠起来，你可以做一个客服Agent：边接电话边给客户做实时翻译，全程转写存档应付合规，识别到关键意图直接调后端API，全部在一个Realtime API会话里完成。

定价分得很清楚。Translate和Whisper按分钟收费，Realtime-2按token收费。这个切法说明OpenAI把Realtime-2当agent核心，Translate和Whisper当随便谁都能取用的基础积木——就是Stripe把Payments、Checkout、Connect分开卖的逻辑。

行业看：ElevenLabs有声音，Deepgram有转写，但没人把GPT-5的推理循环跟两者亚秒级延迟融在一起。客服是OpenAI明面上的卖点，背后真正的赌注是：未来12个月语音会变成agent的主流交互界面，而这个界面的积木OpenAI刚把都搬到自己API上。

https://techcrunch.com/2026/05/07/openai-launches-new-voice-intelligence-features-in-its-api/

← 上一篇

Anthropic把Petri捐了出去

Perplexity把Computer Use Agent装进了Mac

← 返回所有文章

加载中...

OpenAI一口气放了三个语音Agent积木

更多文章

评论