OpenAI推出首个端到端语音模型GPT-Realtime，剑指语音Agent

鞭牛士 2025-08-31 07:47

OpenAI宣布推出GPT-Realtime模型和Realtime API的重大升级，全面支持生产级语音Agent开发。GPT-Realtime是目前最先进的语音-to-语音（speech-to-speech）模型，直接以声音作为输入与输出，摒弃传统的“语音转文本 → 文本生成 → 文本转语音”流程，大幅降低延迟并保留语音细节。

模型能力：

更自然、更具表现力的语音生成，支持如“快速且专业”或“法式体贴口吻”等细腻语气指令。

对细节掌控力增强，包括识别笑声、语调切换、语言切换，以及多语言环境下准确复述 VIN、电话号码等字母数字。逻辑推理在 Big Bench Audio 评估中得分达 82.8%，指令执行准确率提升至 30.5%，功能调用准确率达 66.5%。

API新特性：

支持远端MCP工具服务器，可即插即用扩展工具能力；

支持图像输入，语音助手能“看见”截图并作图像理解回应；

支持 SIP 电话协议，可直接连接传统电话网络，实现语音代理呼叫；

具备可复用提示（prompts），可保存开发设置，提升构建效率。

声线更新：新增两种声音“Cedar”与“Marin”，并同时升级现有的八种语音，提升音质质感和自然度。

上线与价格：Realtime API现已全面开放（GA），GPT-Realtime定价相比先前Preview降价20%，音频输入1M tokens为$32（缓存 $0.40），音频输出为$64/1M tokens。（转载自AI普瑞斯）

扫码下载app 最新资讯实时掌握

OpenAI

上一篇终结茅台9年霸权，「寒王」如何从破发到股王？