AssemblyAI 把语音 Agent 全栈打包成一个 API,4.5 美元一小时
AssemblyAI 4月29日发了 Voice Agent API,定价是头条。4.5 美元一小时跑完整套语音 agent pipeline——语音识别、LLM 推理、语音合成全包,背后一个 WebSocket。从上到下每一层都是他们自己的模型。
这是直接冲着过去一年默认的 Vapi / Pipecat / LiveKit + 多家拼接的栈打的。AssemblyAI 的论点:76% 的语音 agent 开发者说 STT 准确率是唯一不能将就的硬指标,拼三家供应商永远拼不出靠谱的地基。他们的答案是把 STT(Universal-3 Pro Streaming,99+ 语言,实时 diarization,code-switching)、LLM、TTS 折成一个 endpoint,确保听这一半是真的准。
生产环境关键的工程细节:server-side turn detection 区分自然停顿和真的说完了,瞬时打断处理,可配置对话节奏,tool calling 用 JSON Schema 注册,对话过程中可以更新配置而不需要重连,断线 30 秒内可以续接 session。标准 JSON 走 WebSocket,没有专有 SDK——直接接进 Claude Code 或其他任何东西。
瞄准的场景:电话客服、临床问诊、销售陪练、语言学习。翻译过来就是:替代电话那头的真人,这种场景每分钱毛利都重要,4.5 美元一小时全包是能拿单的价位,对面拼出来要 15-20 美元。
链接:https://www.assemblyai.com/blog/introducing-our-voice-agent-api
← 返回所有文章
这是直接冲着过去一年默认的 Vapi / Pipecat / LiveKit + 多家拼接的栈打的。AssemblyAI 的论点:76% 的语音 agent 开发者说 STT 准确率是唯一不能将就的硬指标,拼三家供应商永远拼不出靠谱的地基。他们的答案是把 STT(Universal-3 Pro Streaming,99+ 语言,实时 diarization,code-switching)、LLM、TTS 折成一个 endpoint,确保听这一半是真的准。
生产环境关键的工程细节:server-side turn detection 区分自然停顿和真的说完了,瞬时打断处理,可配置对话节奏,tool calling 用 JSON Schema 注册,对话过程中可以更新配置而不需要重连,断线 30 秒内可以续接 session。标准 JSON 走 WebSocket,没有专有 SDK——直接接进 Claude Code 或其他任何东西。
瞄准的场景:电话客服、临床问诊、销售陪练、语言学习。翻译过来就是:替代电话那头的真人,这种场景每分钱毛利都重要,4.5 美元一小时全包是能拿单的价位,对面拼出来要 15-20 美元。
链接:https://www.assemblyai.com/blog/introducing-our-voice-agent-api
评论