> 自媒体 > (AI)人工智能 > 深度揭秘爆火MoE!GPT-4关键架构,成开源模型逆袭杀手锏
深度揭秘爆火MoE!GPT-4关键架构,成开源模型逆袭杀手锏
来源:新智元
2023-12-12 13:07:22
832
管理

编辑:编辑部

【新智元导读】上周末,Mistral甩出的开源MoE大模型,震惊了整个开源社区。MoE究竟是什么?它又是如何提升了大语言模型的性能?

Mistral上周末丢出的磁力链接震惊了开源圈子,这个7B×8E的开源MoE大模型性能已经到达了LLaMA2 70B的级别!

而根据Jim Fan猜测,如果Mistral内部训练了34B×8E或者甚至100B ×8E级别的模型,那他们的能力很有可能已经无限接近GPT-4了。

而在之前对于GPT-4结构的曝料中,大部分的信息也指向GPT-4很可能是由8个或者是16个MoE构成。

项目地址:https://github.com/XueFuzhao/OpenMoE

数据来源

- 一半来自The RedPajama,另一半来自The Stack Dedup

- 为提升模型的推理能力,采用了大量的编程相关数据

模型架构

- OpenMoE模型基于「ST-MoE」,但采用了decoder-only架构。

其它设计

- 采用umT5 tokenizer

- 使用RoPE技术

- 采用SwiGLU激活函数

- 设定2000 token的上下文长度

BigBench评估

团队在BigBench-Lite上进行了少样本测试,其中包括与BIG-G、BIG-G-Sparse以及GPT-3的对比。

通过计算每个词元激活的参数数量和训练词元的数量来大致估计相对成本。图中每个点的大小代表了相应词元激活的参数数量。特别需要指出的是,浅灰色的点表示MoE模型的总参数量。

对此,Jim Fan也表示,MoE并不新鲜,它只是没有得到那么多关注而已......

比如,谷歌很早之前就开源了基于T5的MoE模型——Switch Transformer。

面临的挑战和机遇MoE基础设施建设

由于MoE拥有大量可训练参数,理想的软件环境应该支持灵活组合的专家级、张量级、流水线级和数据并行,无论是节点内还是节点间。

此外,如果能支持简单快速的激活卸载和权重量化,从而减轻MoE权重的内存占用,就更好了。

MoE指令微调

FLAN-MoE研究提出:尽管将MoE的性能通过特定任务的微调转移到下游任务上存在挑战,但指令微调却能有效地与MoE模型协调一致。这展示了基于MoE的语言模型巨大的潜力。

MoE 评估

MoE模型的归纳偏置(Inductive bias)可能在困惑度(perplexity)之外还有其他效果,就像其他自适应模型(如Universal Transformer和AdaTape)那样。

硬件挑战

值得一提的是,GPU在跨节点通信方面面临挑战,因为每个节点通常只能配备有限数量的GPU。这使得专家并行中,通信成为瓶颈。

幸运的是,NVIDIA最近推出了DGX GH200,将256个NVIDIA Grace Hopper Superchips集成到一个单一GPU中,很大程度上解决了通信带宽问题,为开源领域的MoE模型的训练和部署提供了帮助。

参考资料:

https://twitter.com/sophiamyang/status/1733505991600148892

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
微信又上线新功能,聊天突然变了!
近日,微信突然因内测“访客记录”功能,引发全网关注。被内测到的用户,..
元宝可以总结微信聊天记录了
作者 | 黄昱元宝终于拆掉了微信最高的围墙。5月13日,腾讯旗下AI原生应用..
刚刚,微信聊天记录能喂给AI了!我让它爬楼、砍价、整理信息..
智东西作者 | 陈骏达编辑 | 心缘智东西5月13日报道,今天,腾讯宣布,微..
微信聊天出新功能了,快试试!
但要求你的手机安装有元宝App,这时就会跳转到元宝中进行粘贴,你可以发..
不用登你的微信,也能看到你的聊天记录!这几个地方一定赶紧删除..
你知道吗?其实不用登你的微信,也能看到你的聊天记录,是不是太可怕了?..
刚刚,微信聊天记录能喂给AI了,我让它爬楼、砍价、整理信息..
智东西5月13日报道,今天,腾讯宣布,微信已经支持将消息一键转发至元宝..
聊天总把天聊死?这7个雷区,你可能正在踩。如何正确和女生聊天..
明明聊得火热,为什么突然被拉黑?你可能踩中了这七个聊天雷区“在吗?”..
用ChatGPT看病,80%误诊:AI医生的9秒奇迹和80%的残酷真相..
9秒出CT报告,1分钟完成心脏诊断——AI医疗看起来像魔法。但哈佛刚说完:..
突发!OpenAI高层巨震,ChatGPT与CodeX或合并,超级AI来了!..
根据《连线》5 月 15 日的独家报道,在最新一轮组织调整中,OpenAI 总裁 ..
关于作者
无根草(普通会员)
文章
1919
关注
0
粉丝
2
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体110233

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索