> 自媒体 > (AI)人工智能 > Cerebras 开源七个 GPT-3 模型,参数涵盖 1.11 亿到 130 亿
Cerebras 开源七个 GPT-3 模型,参数涵盖 1.11 亿到 130 亿
来源:开源中国OSC
2023-05-01 22:04:14
723
管理

出品|开源中国

AI 芯片公司 Cerebras 宣布在 Apache-2.0 协议下开源了一个包含七个 GPT 模型的 Cerebras-GPT,参数涵盖 1.11 亿、2.56 亿、5.9 亿、13 亿、27 亿、67 亿和 130 亿。开放出来的内容包括模型架构、训练算法和权重,供研究以及商业社区免费使用。

“今天的发布旨在供任何人使用和复制...... 人工智能有可能改变世界经济,但它的访问越来越受到限制。最新的大型语言模型 —— OpenAI 的 GPT4 发布时没有关于其模型架构、训练数据、训练硬件或超参数的信息。公司越来越多地使用封闭数据集构建大型模型,并仅通过 API 访问提供模型输出。为了使 LLM 成为一种开放和可访问的技术,我们认为重要的是能够访问对研究和商业应用开放、可重现且免版税的最先进模型。”

根据介绍,这些模型使用 Chinchilla 公式进行训练,可为给定的计算预算提供最高的准确性。Cerebras-GPT 与迄今为止的任何公开可用模型相比,训练时间更快、训练成本更低,并且功耗更低。

Cerebras-GPT 在 Cerebras 所拥有的 Andromeda AI 超级计算机的 CS-2 系统上进行了几周的训练。“训练这七个模型使我们能够推导出新的 scaling law。Scaling laws 根据训练计算预算预测模型准确性,并在指导 AI 研究方面产生了巨大影响。据我们所知,Cerebras-GPT 是第一个预测公共数据集模型性能的 scaling law。”

研究人员评估了 Cerebras-GPT 在几个任务特定的语言任务上的表现,例如句子完成和问答。结果表明,Cerebras-GPT 为大多数常见的下游任务保持了最先进的训练效率。

Cerebras GPT 在 16 个 CS-2 系统上使用了标准数据并行进行训练。研究人员围绕 CS-2 设计了专门构建的 Cerebras Wafer-Scale Cluster,以实现轻松扩展。它使用称为 weight streaming 的 HW/SW 共同设计的执行,可以独立缩放模型大小和集群大小,而无需模型并行。介绍称,通过使用此架构,扩展到更大的集群就像更改配置文件中的系统数量一样简单。

研究人员还在一个名为 Andromeda 的 16x CS-2 Cerebras Wafer-Scale Cluster 上训练了所有 Cerebras-GPT 模型。使所有的实验都能快速完成,而不需要在 GPU 集群上进行传统的分布式系统工程和模型并行调整。最重要的是,它使研究人员能够专注于 ML 的设计而不是分布式系统。“我们相信,轻松训练大型模型的能力是广大社区的关键推动因素,因此我们通过 Cerebras AI Model Studio 在云端提供了 Cerebras Wafer-Scale Cluster。”

Cerebras 联合创始人兼首席软件架构师 Sean Lie 称,由于很少有公司有资源在内部训练真正的大型模型,因此此次发布意义重大。“通常需要成百上千个 GPU,将七个经过全面训练的 GPT 模型发布到开源社区中,恰恰说明了 Cerebras CS-2 系统集群的效率。”

该公司表示,Cerebras LLM 因其开源性质而适用于学术和商业应用。它们还有一些优势,例如其训练权重产生了一个极其准确的预训练模型,可以用相对较少的额外数据为不同的任务进行调整;这使得任何人都可以基于很少的编程知识,创建一个强大的、生成性的 AI 应用程序。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
谁敢把家里的奔驰宝马全卖了换它?三千公里长途实测出答案..
谁能想到,有人竟把家里的奔驰、宝马、英菲尼迪全卖了,一股脑换成零跑?..
宝马CEO最新涉华表态:对中国庞大市场与创新潜力视而不见的人,正错失巨大..
来源:环球网 【环球网报道 记者 姜蔼玲】据路透社报道,宝马集团首席执..
默茨专机抵京,第一道难关出现!宝马CEO通知政府,中方有言在先..
这两天默茨的“访问”可以看做是一次硬碰硬的试算:对内对外都必须强硬,..
默茨专机抵京,第一道难关出现!宝马公开喊话政府,中方亮明底线..
专机引擎的轰鸣声刚在北京上空消散,一场没有硝烟的博弈,已然拉开序幕。..
假期将尽,与宝马“的卢”合影,专治各种“过不去”..
假期最后一天还是来了 明天是节后第一个工作日 此刻的你是否已收拾心情做..
宝马接入中国AI技术,德企为何深耕本土化?
德企深耕本土化是为了抓住中国市场的巨大潜力和创新优势,以维持全球竞争..
2025年度投诉反馈不积极车企盘点——宝马中国
作为产品质量反馈的专业平台,汽车门网也扮演着企业与用户的沟通纽带角色..
宝马2026年推20款新车,能应对自主新能源冲击吗?
宝马2026年推出20款新车是其应对自主新能源冲击的积极回应,但能否扭转局..
新车 | 售25.8万元起/2.0T高/低功率发动机,宝马X1实车亮相..
文:懂车帝原创 李烁[懂车帝原创 产品] 日前,懂车帝在宝马经销商处拍摄..
关于作者
秋叶无痕(普通会员)
文章
2002
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105597

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索