> 自媒体 > (AI)人工智能 > 人人都能GPT!微软开源DeepSpeed Chat帮用户训练模型
人人都能GPT!微软开源DeepSpeed Chat帮用户训练模型
来源:澎湃新闻
2023-04-30 12:14:59
770
管理

微软宣布开源DeepSpeed Chat,训练速度可提升15倍以上。

当地时间4月12日,微软宣布开源系统框架DeepSpeed Chat,帮助用户训练类似于ChatGPT的模型。与现有系统相比,DeepSpeed Chat的速度快15倍以上,可提升模型的训练和推理效率。

来源:微软

ChatGPT是OpenAI于去年11月推出的聊天机器人,其训练基础是为RLHF(Reinforcement Learning from Human Feedback),即基于人工反馈进行强化学习。

对于想要开发类似于ChatGPT模型的研究人员而言,难题之一是市面上缺乏支持端到端的RLHF系统框架。为此,微软开源其系统框架DeepSpeed Chat,帮助数据科学家和研究者更易于使用ChatGPT类型的模型。

据介绍,DeepSpeed Chat能够简化ChatGPT类型模型的训练过程、强化推理体验。其中的DeepSpeed-RLHF系统能够在推理和训练两种模式之间进行切换,使复杂的RLHF训练速率更快、易于大规模推广。

根据微软,DeepSpeed-HE比现有系统快15倍以上,且成本更低。在微软云Azure上,该系统只需9小时即可训练一个OPT-13B模型,只需18小时即可训练一个OPT-30B模型,且这两种训练分别花费不到300美元和600美元(OPT为脸书母公司Meta发布的语言模型)。

此外,面对于拥有1750亿参数的模型,DeepSpeed-HE的训练时间只需不到一天的时间。

对于微软开源DeepSpeed Chat,海外知名科技社区Hacker News的用户总结道,微软不仅向OpenAI投资了100亿美元,同时还为公众提供一种免费工具,帮助他们研发OpenAI同款产品。也有用户认为,微软选择开源DeepSpeed Chat,是为了在业内获得领先优势。

还有用户认为这一系统框架前景可期,“我可以预见,未来每家公司都会拥有自己的‘AI模型助理’,其能够定期对公司内部数据进行培训或更新。公司的电子邮件、slack/team消息、文档等或许都将成为AI模型的数据来源。”

来源:Hacker News

微软和OpenAI的合作可以追溯到2019年,在这一年OpenAI获得了微软10亿美元的投资,并对微软独家授权部分AI技术,双方合作替微软云Azure开发人工智能技术。

今年2月初,微软推出搭载ChatGPT同源功能的新版必应(Bing),使得该软件的全球下载量在一夜之间猛增10倍,并蹿升至苹果App Store应用商店最受欢迎的免费应用榜中的第十位。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
Kimi团队发布K1.5:让AI像人类一样\u0026#34;边思考边学习\u0026#34;的突破..
这项由Kimi团队开展的研究发表于2025年6月3日,详细介绍了他们最新的多模..
DeepSeek对比Kimi:两个国产AI谁更适合办公?实测告诉你答案..
说实话,最近AI工具多得让人眼花缭乱。DeepSeek和Kimi,两个名字我都听过..
涉嫌违规收集个人信息 Kimi等多款AI应用被通报
5月20日,国家网络与信息安全信息通报中心发布通报,经公安部计算机信息..
阿里Qwen开源模型为什么能火?
阿里Qwen开源模型能火,是因为它用过硬的技术、开放的态度和实惠的价格,..
谁是开源大模型之王?Llama、DeepSeek还是Qwen?
“友商,你们拿什么和我比?”“友商,你们拿什么和我比?”这不是哪家公..
开源Qwen一周连刷三冠,暴击闭源模型!基础模型推理编程均SOTA..
鱼羊 发自 凹非寺量子位 | 公众号 QbitAI卷疯了,通义千问真的卷疯了。Qw..
Qwen负责人转发2025宝藏论文,年底重读「视觉领域GPT时刻」..
闻乐 发自 凹非寺量子位 | 公众号 QbitAI2025最后几天,是时候来看点年度..
成本骤降97% 实测Qwen3.5小模型 国产大模型破局?
阿里推出Qwen3.5系列三款中型开源大模型,性能媲美国际顶尖竞品,开发者..
曝京东拦截员工使用外部AI,美团内部开始限制阿里Qwen模型..
IT之家 4 月 8 日消息,据“大厂日爆”公众号消息,京东在 3 月底正式限..
关于作者
锦阳(普通会员)
文章
1963
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体106085

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索