> 自媒体 > (AI)人工智能 > 理解并实现 GPT-1、GPT-2 和 GPT-3 架构
理解并实现 GPT-1、GPT-2 和 GPT-3 架构
来源:冰镇火锅聊AI
2025-02-06 15:32:40
510
管理

图 1. Transformer 模型。左侧的块为编码器,右侧的块为解码器 [1]。

上面提到的 Transformer 的两个主要组件还包含几个子组件,例如注意力模块、前瞻掩码和层规范化。在这里我假设你已经对它们有了基本的了解。

事实证明,Transformer 在语言建模方面具有令人印象深刻的性能。有趣的是,未来的研究人员发现它的编码器和解码器部分可以单独工作。这实际上是 BERT(Transformer 的双向编码器表示)和 GPT(生成式预训练 Transformer)被发明的时刻,其中 BERT 基本上只是一堆编码器,而 GPT 是一堆解码器。

更具体地说,GPT 的第一个版本 (GPT-1) 是由 OpenAI 于 2018 年发布的。随后,GPT-2 和 GPT-3 分别于 2019 年和 2020 年发布。然而,当时知道 GPT 的人并不多,因为它只能通过 API 使用。直到 2022 年,OpenAI 才发布了带有 GPT-3.5 后端的 ChatGPT,让公众可以轻松地与这个 LLM 进行交互。下图显示了 GPT 模型的演变。

图 3. GPT-1 架构(左)和原始 Transformer 架构的解码器部分。

GPT-1 预训练

GPT-1 模型的训练过程分为两个步骤:预训练和微调。预训练的目标是教会模型根据前面的 token 预测序列中的下一个 token——这个过程通常被称为语言建模。这个预训练步骤使用自监督机制,即标签来自数据集本身的训练过程。通过这种方法,我们不需要进行人工标记。相反,我们可以从长文本中随机位置分块 513 个 token,将前 512 个设置为特征,最后一个设置为标签。这个 token 数量是根据GPT-1 的上下文窗口参数选择的,默认情况下设置为 512。除了 token 化机制之外,GPT-1 还使用 BPE(字节对编码)。这本质上意味着每个 token 不一定对应一个单词。相反,它也可以是一个子词,甚至是一个单独的字母。

GPT-2 预训练是使用下图 4 所示的目标函数完成的,其中uᵢ是被预测的标记,uᵢ₋ₖ,...,uᵢ₋₁是k 个前标记(上下文窗口),Θ是模型参数。这个等式本质上是在给定序列中的前一个标记的情况下计算一个标记出现的可能性。概率最高的标记将作为预测输出返回。通过迭代执行此过程,模型将继续提示中提供的文本。如果我们回到图 3,我们将看到 GPT-1 模型有两个头:文本预测和任务分类器。稍后,这个文本生成过程将使用文本预测头来完成。

图 4.预训练的目标函数

GPT-1 微调

尽管默认情况下 GPT 是一个生成模型,但在微调阶段我们将其视为判别模型。这主要是因为在这个阶段,目标只是执行一个典型的分类任务。在下面的目标函数中,y表示要预测的类,而x¹, ..., xᵐ表示序列x中的m 个输入标记。我们可以简单地将这个等式想象成我们想要将文本归类到特定的类别中。这种分类机制稍后将用于执行各种下游任务,我很快就会解释。

图 7.情感分析(分类)任务的输入文本示例和相应标签

对于文本蕴涵,模型将前提和假设作为一个序列接受,并用分隔符标记分隔。在这种情况下,任务分类器头负责分类假设是否蕴涵前提。

图 7.情感分析(分类)任务的输入文本示例和相应标签

在文本相似性任务中,该模型的工作原理是接受两个文本,以两种不同的顺序进行比较:文本 1后跟文本 2,文本 2后跟文本 1。这两个序列并行输入到 GPT 模型中,然后将得到的输出相加,最终预测它们是否相似。或者,我们也可以配置输出层来执行回归任务,返回连续的相似度分数。

图 12. 如果未指定任务,ChatGPT 仅会继续输入句子

图 13. 分配特定任务如何导致模型做出不同响应的示例

以自然语言形式提供任务的想法可以通过以自监督的方式用大量文本训练模型来实现。为了进行比较,GPT-1 用于执行语言建模的数据集是 BooksCorpus 数据集,其中包含 7000 多本未出版的书籍,相当于约 5 GB 的文本。同时,用于 GPT-2 的数据集是 WebText,其大小约为 40 GB。不仅数据集,而且模型本身也更大。GPT-2 论文的作者创建了四个模型变体,每个模型都有不同的配置,如下图 14 所示。第一行中的模型与我们刚刚实现的 GPT-1 论文相同,而最后一行中被识别为 GPT-2 的模型。在这里我们可以看到,就参数数量而言,GPT-2 大约是 GPT-1 的 13 倍。基于有关数据集和模型大小的这些信息,我们绝对可以预期 GPT-2 的表现将远远优于其前身。

图 16.不同 GPT 版本的比较

结束

这就是关于不同 GPT 版本(尤其是 GPT-1、GPT-2 和 GPT-3)的理论和实现的所有内容。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
Kimi团队发布K1.5:让AI像人类一样\u0026#34;边思考边学习\u0026#34;的突破..
这项由Kimi团队开展的研究发表于2025年6月3日,详细介绍了他们最新的多模..
DeepSeek对比Kimi:两个国产AI谁更适合办公?实测告诉你答案..
说实话,最近AI工具多得让人眼花缭乱。DeepSeek和Kimi,两个名字我都听过..
涉嫌违规收集个人信息 Kimi等多款AI应用被通报
5月20日,国家网络与信息安全信息通报中心发布通报,经公安部计算机信息..
阿里Qwen开源模型为什么能火?
阿里Qwen开源模型能火,是因为它用过硬的技术、开放的态度和实惠的价格,..
谁是开源大模型之王?Llama、DeepSeek还是Qwen?
“友商,你们拿什么和我比?”“友商,你们拿什么和我比?”这不是哪家公..
开源Qwen一周连刷三冠,暴击闭源模型!基础模型推理编程均SOTA..
鱼羊 发自 凹非寺量子位 | 公众号 QbitAI卷疯了,通义千问真的卷疯了。Qw..
Qwen负责人转发2025宝藏论文,年底重读「视觉领域GPT时刻」..
闻乐 发自 凹非寺量子位 | 公众号 QbitAI2025最后几天,是时候来看点年度..
成本骤降97% 实测Qwen3.5小模型 国产大模型破局?
阿里推出Qwen3.5系列三款中型开源大模型,性能媲美国际顶尖竞品,开发者..
曝京东拦截员工使用外部AI,美团内部开始限制阿里Qwen模型..
IT之家 4 月 8 日消息,据“大厂日爆”公众号消息,京东在 3 月底正式限..
关于作者
小北(普通会员)
文章
1882
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体106085

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索