> 自媒体 > (AI)人工智能 > OpenAI 升级其转录和语音生成 AI 模型
OpenAI 升级其转录和语音生成 AI 模型
来源:cnBeta
2025-03-23 13:05:08
347
管理

OpenAI 正在为其 API 引入新的转录和语音生成 AI 模型,该公司声称这些模型比以前的版本有所改进。对于 OpenAI 来说,这些模型符合其更广泛的“代理”愿景:构建能够代表用户独立完成任务的自动化系统。“代理”的定义可能存在争议,但 OpenAI 产品负责人 Olivier Godemont 描述了一种解释,即可以与企业客户交谈的聊天机器人。

OpenAI 声称,其新的文本转语音模型“gpt-4o-mini-tts”不仅可以提供更细致入微、听起来更逼真的语音,而且比上一代语音合成模型更“可控”。开发人员可以指导 gpt-4o-mini-tts 如何用自然语言说话——例如,“像疯狂的科学家一样说话”或“像正念老师一样用平静的声音说话”。

以下是“真实犯罪风格”的饱经风霜的声音:

以下是女性“专业”声音的样本:

OpenAI 产品人员杰夫·哈里斯 (Jeff Haris) 表示,他们的目标是让开发人员能够定制语音“体验”和“语境”。

“在不同的情况下,你不想要平淡、单调的声音,”哈里斯继续说道。“如果你在客户支持体验中,并且希望语音因为犯了一个错误而道歉,那么你实际上可以让语音带有这种情感……我们最大的信念是,开发人员和用户不仅希望真正控制所说的内容,还希望控制说话的方式。”

OpenAI 内部语音识别基准的结果。图片来源: OpenAI

与传统不同的是,OpenAI 并不打算公开其新的转录模型。该公司过去曾根据 MIT 许可发布过 Whisper 的新版本,供商业使用。

哈里斯表示,gpt-4o-transcribe 和 gpt-4o-mini-transcribe“比 Whisper 大得多”,因此不适合公开发布。

“它们不是那种可以在笔记本电脑上本地运行的模型,就像 Whisper 一样,”他继续说道。“我们希望确保,如果我们要以开源形式发布产品,我们会深思熟虑,并且我们有一个真正针对特定需求而精心打造的模型。我们认为,终端用户设备是开源模型最有趣的案例之一。”

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
顶级超跑魅力来袭,你感受到了吗?
感受顶级超跑的夜驾魅力。Mclaren 765LT,Lamborghini Aventador svj,Ma..
春风又搞大动作!500SR四缸跑车新造型,要是3万出头你冲不冲?..
好消息来了!工信部这波操作,属实是提前剧透了!春风500SR的证件照刚流..
法拉利首款纯电超跑「Luce」内饰公开!传统与创新的结合!..
法拉利在美国旧金山与创意工作室 LoveFrom 联合举办发布会,宣布新车定名..
一辆人人都可以买得起的超级跑车,雪佛兰科尔维特 (2)..
这是一辆人人都可以买的起的超级跑车,雪佛兰科尔维特。因车标酷似五菱,..
6款新车信息:大众ID新车3月上市,2款复古跑车官图发布..
50年前的设计,如今还有人买单吗?Donkervoort P24 RS跑车近日发布官图,..
2025国内跑车销量榜,你的爱车在榜几啊?
2025年国内跑车市场格局稳定,奔驰CLE稳居主流跑车前列,保时捷911与718..
日产将标志性的超级跑车隐藏在一款不起眼的轿跑车中..
汽车制造商通常需要数年时间才能研发出一款新车,在此期间,这些公司会竭..
预算有限买不起法拉利时,可以考虑的10款超级跑车
1. 兰博基尼 Huracán除了法拉利之外,兰博基尼Huracán通常是汽车爱好者..
特斯拉:Model X和Model S将逐步停产,预计4月推出一款跑车,马斯克:机器..
1月29日,特斯拉CEO埃隆·马斯克称,2026年资本支出将“非常大”;预计下..
关于作者
你不懂的歌..(普通会员)
文章
1942
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体104855

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索