> 自媒体 > (AI)人工智能 > “中国的ChatGPT”真的要来了吗?
“中国的ChatGPT”真的要来了吗?
来源:量子位
2023-06-29 15:37:39
592
管理

图:GPT-3模型家族,图片来源:https://lifearchitect.ai/chatgpt/

在InstructGPT的训练中,OpenAI的研究员引入了RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)机制。这一训练范式增强了人类对模型输出结果的调节,并且对结果进行了更具理解性的排序。在此基础上,ChatGPT还引入了“无害化”机制,防止模型生成不符合规范或伦理的答案。

图:GPT-3、InstructGPT、ChatGPT的“进化路线”

图片来源:https://lifearchitect.ai/chatgpt/

不难看出,ChatGPT的出圈,与OpenAI多年的技术积累是分不开的。国内厂商想要开发出像ChatGPT一样优秀的模型,也绝不是简单依靠拉一波投资,雇一批算法研究员就能马上实现的。

“中国的ChatGPT”面临的挑战

首先,在资金投入方面,在当前的技术水平下,训练一个与ChatGPT这样的大型语言模型相当的模型需要数百万美元的投入。在发布ChatGPT之前,OpenAI可查的融资额已超过20亿美元,也是如此庞大的投资才使OpenAI拥有了多年技术积累。反观绝大多数近期入局的国内企业,即便拥有足够的资金与人员,也大都很难在短期追上OpenAI的步伐。

我们不禁想问,如果要在国内开发出一个类ChatGPT模型,到底会面临哪些技术挑战呢?

为了能了解到最最准确的答案,我们请教了ChatGPT“本人”

数据量:需要大量的数据集来进行训练。这些数据集需要是大规模的、多样化的、真实的,并且要涵盖各种不同的语言和语境。这需要花费大量的时间和资源来收集、整理和标注。计算能力:需要非常强大的计算资源。这些模型需要在大规模的数据集上进行训练,并且需要进行大量的参数优化和调整。这些计算需要高性能的计算机和高效的分布式计算框架。算法优化:需要对算法进行不断的优化和改进。这包括优化网络结构、调整超参数、使用更好的优化算法等。这需要对深度学习算法有深入的了解和经验。

可以发现,这是一个涉及到多个领域和技术的复杂系统工程。只有同时在底层的基础设施、针对性优化和大模型技术积淀都达到一定水平的情况下,才能够研发出高质量的模型,并应用于各种场景中。

让我们详细看看这三类技术挑战具体都意味着什么。

数据量

我们经常听到“有多少数据,就有多少智能”,数据对于模型训练的重要性不言而喻。类ChatGPT模型的训练,更需要超大规模的,经过清洗的数据。以GPT-3的训练为例,需要300B tokens的数据。大家如果对这个数字不敏感的话,可以参考整个英文的维基百科的数据量,只有“相对可怜”的3B tokens,是训练GPT-3所需的百分之一。并且,要训练出类ChatGPT模型,势必需要数倍于当年训练GPT-3的数据量的中文语料数据,这对于大部分企业或科研机构来说都是难以翻越的大山。有效的中文数据量,一定程度上决定了模型性能的上限。

计算能力

类ChatGPT模型的训练,除了需要非常多的训练数据外,也离不开庞大的算力支撑。根据北京智源人工智能研究院公布的数据,使用300B tokens的数据训练175B参数规模(与GPT-3规模相同)的模型,如果使用96台通过200Gb IB网卡互联的DGX-A100节点,需要约50天。要是使用更大规模的训练数据集,训练时长还会进一步增加。

对于计算集群来说,不仅需要能够提供海量的算力资源,还需要具备高速网络和高容量存储,以便支持大规模的数据访问和模型传输。整套基础设施,连同软件平台,还需要结合集群的拓扑结构针对分布式训练进行优化,通过调整并行策略等方式,提升硬件利用率与通讯效率,缩短整体训练时间。

算法优化

算法优化和模型的训练效率和效果息息相关。每一个算法研究员,都希望模型在训练过程中快速收敛,这恰恰也是算法研究人员经验与企业长年技术积累的体现。通常情况下,在训练的过程中需要不断调整学习率、批量大小、层数等超参数,或使用自动调参的技巧和经验,才能快速、稳定的实现模型收敛。就像中餐大厨们用“少许、适量”的调料制作美味佳肴一样,里面包含着的是大厨们几十年的手艺,不是一朝一夕就能被批量复制的。

前途是光明的,道路是曲折的

想必,这是最适合送给现在想要开发出“中国的ChatGPT”的各路大佬们的一句话了。在美国去年对中国限制了高端GPU的销售之后,为规避未来的技术风险,不少厂商、科研机构也开始探索在国产算力服务平台上训练的可行性。北京智源人工智能研究院作为国内顶尖的人工智能领域研究机构,早早就探索了使用国产算力服务平台的可能性。同样是使用300B tokens的数据训练175B参数规模的模型,通过曙光提供的算力服务,训练周期只需29.10天,在节点规模接近的情况下,训练效率是其他算力平台的300%。

基于国产算力服务平台进行训练,不可避免的会带来更多的移植与调优工作。曙光智算强大的硬件与算法优化团队,在集群、并行策略、算子、工具包等方面的优化上与智源开展了深入的合作。首先,为保证程序能够正常运行,需要完成包括DeepSpeed/Megatron/Colossal-AI/apex等必要组件的适配工作。其次,超大规模集群的顺利调度通常也需要调整调整操作系统配置及tcp协议参数等。训练的优化工作则主要包含以下三个方面:

算子层面:使用算子融合/算子优化等技术,深度挖掘硬件性能,提升硬件使用率;策略层面:采用模型并行、数据并行、流水线并行、Zero等多级并行策略,实现超大规模训练;集群层面:针对硬件集群的拓扑结构,对分布式训练通信、并行分组配比等进行定制优化,提升训练扩展比。

通过一系列的优化方法,最终也证明了我们可以在国产算力服务平台上,以能够对标国际水平的效率实现大模型的开发工作,这无疑为“中国的ChatGPT”的开发工作喂了一颗定心丸。希望在不久的将来,我们可以看到真正在国产算力平台上训练的,能与ChatGPT比肩的中文模型。

前途一定是光明的。

— 完 —

1
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
一辆载有8名中国游客的汽车在贝加尔湖落水,目前仅救上1名中国游客..
当地时间20日,我使馆发布消息称,贝加尔湖汽车落水事故中,涉事车辆上载..
巨亏超1800亿元?全球第四大汽车制造商,股价巨震!
据CNBC网站报道,全球第四大汽车制造商斯泰兰蒂斯6日美股开盘后股价大幅..
12306能给汽车买“火车票”?春运订单火爆!
‍‍‍‌‍‍‌ 豹豹的自述大家好,我叫豹豹是一辆身材魁梧的SUV上次跟着..
眼红中加协议,美国汽车制造商威胁卡尼:《美加墨协定》正重新审查哦..
【文/观察者网 王一】加拿大今年1月宣布调整政策,允许每年最多4.9万辆中..
想买旅行车的注意!2026年将有这4款高颜值旅行车上市..
很多朋友都喜欢那些进口的德系旅行车,但奈何手中的钱包实在太薄,所以就..
小米汽车2025年带来200+项功能更新,车主最喜爱TOP10公布..
IT之家 2 月 13 日消息,小米汽车昨日公布数据,2025 年小米 SU7 车型 7 ..
怎么开都开不坏的九款车,省油、皮实、耐造,看看有没有你的那款..
开到报废你都开不坏的9款车,快来看看有没有你想买的车型,特别是最后一..
美国汽车行业焦虑:如果中国车企进入美国市场,美欧日韩都将受到冲击..
【文/观察者网 陈思佳】上个月,美国总统特朗普在底特律经济俱乐部发表演..
中国汽车出口,捅破了800万的天花板!
以前中国买世界各地的汽车,现在世界各地买中国汽车。2025年,中国汽车出..
关于作者
天外天(普通会员)
文章
1936
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105114

1
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索