> 自媒体 > (AI)人工智能 > OpenAI 推出三款实时语音模型 可边听边“思考”、翻译和转录
OpenAI 推出三款实时语音模型 可边听边“思考”、翻译和转录
来源:cnBeta
2026-05-16 16:50:29
189
管理

OpenAI 今日发布三款全新的实时语音模型,旨在为开发者“解锁新一代语音应用形态”。 这三款语音智能模型分别侧重推理对话、实时翻译和实时转录等不同场景需求。

根据 OpenAI 公布的信息,新系列包括 GPT‑Realtime‑2、GPT‑Realtime‑Translate 和 GPT‑Realtime‑Whisper 三个模型。 其中,GPT‑Realtime‑2 被定位为首款具备 GPT‑5 级推理能力的语音模型,能够更好地处理复杂请求,并以更自然的方式持续推进对话。 官方介绍称,该模型专为实时语音交互打造,在用户提问或发出指令时,一边进行推理、一边保持对话连贯,同时还能调用工具、处理用户打断和更正,并根据当下情境作出更贴切的回应。

第二款模型 GPT‑Realtime‑Translate 主打实时翻译能力,可支持“70 多种输入语言和 13 种输出语言”,并在翻译过程中尽量跟上说话者的语速。 这一特性意味着,跨语言通话、会议或直播等场景,有望通过该模型获得更接近“同声传译”的体验。

第三款 GPT‑Realtime‑Whisper 则是一款实时流式语音转写模型,聚焦低延迟语音转文本能力。 OpenAI 表示,该模型可以在说话者讲话的同时即时完成转录,使得各类实时产品显得更快速、更灵敏、更自然。 从直播字幕“边说边出”,到能跟上讨论节奏的会议记录,这类应用场景都被视为 GPT‑Realtime‑Whisper 的主要发力方向。

在接入方式与价格方面,OpenAI 称三款新语音模型均已纳入其 Realtime API 体系。 GPT‑Realtime‑2 的定价为每 100 万音频输入 Token 收费 32 美元(缓存输入 Token 为 0.40 美元),每 100 万音频输出 Token 收费 64 美元。 GPT‑Realtime‑Translate 的价格为每分钟 0.034 美元,而 GPT‑Realtime‑Whisper 的价格为每分钟 0.017 美元。

OpenAI 表示,开发者可以通过 Playground 直接测试这些新的实时语音模型。 若已安装 Codex,只需在指定提示上点击提交,即可将 GPT‑Realtime‑2 添加到现有应用,或基于该模型快速创建一款新应用。 官方也在其网站上进一步介绍了这三款语音模型的技术细节,以及部分合作企业已经如何在实际产品中加以利用。

在生成式 AI 持续向多模态与实时交互演进的背景下,OpenAI 此次发布的三款语音模型,被视为其在“语音智能”方向上的又一重要布局。 随着推理、翻译与转录能力的统一整合,开发者将能够更轻松地为用户提供“开口就能用”的语音 AI 体验,从助手工具到生产力应用,再到内容创作与无障碍服务,都有望迎来新一轮探索与创新。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
关于作者
烽火(普通会员)
文章
2053
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体114249

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索