> 自媒体 > (AI)人工智能 > GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型 (MoE)
GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型 (MoE)
来源:玩娱互动
2023-07-14 17:30:02
602
管理

业内人士近日对 OpenAI 今年 3 月发布的 GPT-4 大模型进行了大揭秘,其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、混合专家模型 (Mixture of Experts, MoE) 等非常具体的参数和信息。

文章作者之一正是此前爆料谷歌内部文件《我们没有护城河,OpenAI 也没有》的 Dylan Patel。

下面介绍一下这篇揭秘 GPT-4 技术细节文章的主要内容。

文章开头就指出,OpenAI 之所以不 Open,不是为了保护人类不被 AI 毁灭,而是因为他们构建的大模型是可复制的,未来中国和美国的互联网大厂(比如谷歌、Meta、腾讯、百度、字节跳动),以及 AI 头部初创企业,都会有能力构建出可以媲美 GPT-4 甚至超越 GPT-4 的大模型。

而 OpenAI 最持久的护城河,就在于他们拥有真实用户的使用反馈、业内最顶尖的工程人才,以及先发优势带来的领先地位。

据介绍,GPT-4 在 120 层中总共包含了 1.8 万亿参数,而 GPT-3 只有约 1750 亿个参数。而为了保持合理的成本,OpenAI 采用 MoE 模型来进行构建。

具体而言,GPT-4 使用了 16 个混合专家模型 (mixture of experts),每个有 1110 亿个参数,每次前向传递路由经过两个专家模型。

此外,它有 550 亿个共享注意力参数,使用了包含 13 万亿 tokens 的数据集训练,tokens 不是唯一的,根据迭代次数计算为更多的 tokens。

GPT-4 预训练阶段的上下文长度为 8k,32k 版本是对 8k 微调的结果。如果是在云端进行训练,以 每 A100 小时 1 美元计算,那么一次的训练成本就高达 6300 万美元。不过今天的训练成本能降至 2150 万美元。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
2026买车先别急!8款重磅SUV来袭,自主合资全都有
阅读之前,麻烦用你发财的小手点点"爱心",创作不易,(木子李随笔)感谢大..
买SUV不踩坑:国产4款+合资3款+豪华3款,照着需求选就对了..
大家好我是心心念念,每天给大家带来最新动态,不赶节奏,内容随缘更,但..
10万内闭眼入不踩坑!6台抗造省油燃油SUV,家用代步天花板..
预算10万想买一台靠谱燃油SUV,是很多普通家庭的真实需求。既要皮实耐用..
2026年买车必看!这6款SUV无短板,看完再决定买哪辆。..
手里攥着十五二十万预算想买SUV的朋友,最近算是彻底熬出头了,以前在这..
想买大SUV先别下手!2026这5款新车,看完再决定
今年打算买旗舰SUV的,千万别着急下手!这5台新车马上上市,看完再决定,..
家用车选轿车还是SUV?别被参数忽悠!只看家庭需求,一选一个准..
在买车这件事上,绝大多数普通家庭最纠结的,从来不是品牌、配置、马力,..
顶级超跑魅力来袭,你感受到了吗?
感受顶级超跑的夜驾魅力。Mclaren 765LT,Lamborghini Aventador svj,Ma..
春风又搞大动作!500SR四缸跑车新造型,要是3万出头你冲不冲?..
好消息来了!工信部这波操作,属实是提前剧透了!春风500SR的证件照刚流..
法拉利首款纯电超跑「Luce」内饰公开!传统与创新的结合!..
法拉利在美国旧金山与创意工作室 LoveFrom 联合举办发布会,宣布新车定名..
关于作者
冰冷的开水..(普通会员)
文章
1933
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体107918

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索