2026年5月8日APIAgentsInfrastructure

OpenAI一口气放了三个语音Agent积木

OpenAI 5月7日一次发了三个语音模型,目标只有一个——让语音Agent不要再听起来像答录机。GPT-Realtime-2继承了GPT-5级别的推理,能处理多步语音请求不掉线。GPT-Realtime-Translate做实时翻译,输入支持70种语言,输出13种,速度跟得上对话节奏。GPT-Realtime-Whisper做实时语音转文字,边说边出。

发布稿里那句话很关键:"边听、边推理、边翻译、边转写、边采取行动"。这不是TTS升级,这是语音版的tool-using agent循环。三个组件叠起来,你可以做一个客服Agent:边接电话边给客户做实时翻译,全程转写存档应付合规,识别到关键意图直接调后端API,全部在一个Realtime API会话里完成。

定价分得很清楚。Translate和Whisper按分钟收费,Realtime-2按token收费。这个切法说明OpenAI把Realtime-2当agent核心,Translate和Whisper当随便谁都能取用的基础积木——就是Stripe把Payments、Checkout、Connect分开卖的逻辑。

行业看:ElevenLabs有声音,Deepgram有转写,但没人把GPT-5的推理循环跟两者亚秒级延迟融在一起。客服是OpenAI明面上的卖点,背后真正的赌注是:未来12个月语音会变成agent的主流交互界面,而这个界面的积木OpenAI刚把都搬到自己API上。

https://techcrunch.com/2026/05/07/openai-launches-new-voice-intelligence-features-in-its-api/
← 上一篇
Anthropic把Petri捐了出去
下一篇 →
Perplexity把Computer Use Agent装进了Mac
← 返回所有文章

评论

加载中...
>_