> 自媒体 > (AI)人工智能 > 智源FlagOS完成DeepSeekV4八款芯片Day0 适配,实现三重技术突破
智源FlagOS完成DeepSeekV4八款芯片Day0 适配,实现三重技术突破
来源:白鲸实验室
2026-05-12 13:38:40
262
管理

DeepSeek今日发布了DeepSeek-V4-Pro 1.6T 旗舰模型(1.86万亿参数)及DeepSeek-V4-Flash 284B 高效模型(2840亿)。由智源研究院牵头研发的众智FlagOS第一时间对两个“巨无霸”模型进行全量适配,已经完成 DeepSeek-V4-Flash在 8款以上 AI 芯片上的全量适配与推理部署,包括海光、沐曦、华为昇腾、摩尔线程(FP8)、昆仑芯、平头哥真武、天数、英伟达(FP8)等芯片。FlagOS 同时正在推进 DeepSeek-V4-Pro 模型在多个芯片的迁移适配,后续即将开源。

首先完成在八款芯片适配的DeepSeek-V4-Flash 是深度求索推出的 V4 系列两大模型之一,采用混合专家(MoE)架构,总参数量 284B,激活参数仅 13B,支持 100 万 token上下文长度。该模型在架构上引入了混合注意力机制(结合压缩稀疏注意力CSA与高度压缩注意力HCA,大幅提升长上下文效率)、流形约束超连接(mHC,增强跨层 信号传播稳定性)以及 Muon优化器(加速收敛、提升训练稳定性)。

预训练数据超过32Ttoken,后训练采用两阶段范式——先通过 SFT和GRPO强化学习独立培养领域专家,再通过在线策略蒸馏将多领域能力统一整合到单一模型中。在最大推理力度模式(Flash-Max)下,给予更大思考预算使其推理能力可接近Pro版本水平;受限于参数规模,在纯知识类任务和最复杂的Agent工作流上略逊于 Pro。 整体性能参考如下官方评测结果:

注:本测试结果仅用于对迁移前(Nvidia-Origin)和迁移后(-FlagOS)版本的互相对齐验证,并不代表 DeepSeek 模型的官方性能,DeepSeek 模型的官方性能以 DeepSeek 官方公布数据为准。

2. 极简部署:开箱即用,底层优化无感知

FlagOS 将核心算子库、编译器等技术组件前置内置到 DeepSeek-V4-Flash代码框架中,开发者加载模型时,底层优化代码自动生效,无需手动添加任何 FlagOS 初始化代码。同时,基于 FlagRelease 直接提供了多芯片版本的 DeepSeek-V4-Flash-FlagOS 模型版本,标准化 Docker 镜像 一键加速命令,解决了开发者最头疼的环境配置、效果对齐、性能优化等问题。

FlagOS 2.0 技术底座:从大模型到智能体时代的全栈升级

DeepSeek-V4-Flash的三重突破,依托的是 FlagOS 2.0 统一多芯片系统软件栈的全链路能力。从算子层、编译层、框架层到工具层,全链路为大模型跨芯适配提供技术支撑,将原本数周的适配周期缩短至数天,真正实现极速落地。

FlagOS:面向多种 AI 芯片的系统软件栈

1. 高性能算子库 FlagGems:核心算子深度适配,释放硬件算力

FlagGems 作为 FlagOS 核心的高性能通用大模型算子库,基于 Triton 语言实现,针对 DeepSeek-V4-Flash推理链路的核心算子进行了深度适配与优化,包括 MoE 专家调度、Attention 计算、RMSNorm 等关键计算模块,同时原生支持 NVIDIA、摩尔线程、沐曦、清微智能、天数等接近 20 家 AI 芯片。

2. 统一 AI 编译器 FlagTree:一次编写,多芯编译

FlagTree 是 FlagOS 面向多 AI 芯片后端的统一编译器,基于 Triton 深度定制,可将 DeepSeek-V4-Flash的核心算子编译为英伟达、摩尔线程等十多种不同 AI 芯片后端可识别的指令,彻底解决不同芯片编译器生态割裂的问题,大幅降低算子跨芯片适配的开发成本。

3. 模型跨芯迁移发布工具 FlagRelease:半自动实现模型跨芯迁移与版本发布

依托 FlagOS 全栈技术能力,FlagRelease 已完成 DeepSeek-V4-Flash在多种芯片上的模型迁移、精度对齐与版本发布,覆盖 HuggingFace、魔搭等开源社区平台。开发者可直接下载使用,无需自行迁移。截至本文发布,FlagRelease 已发布覆盖 10 家芯片厂商、12 款硬件、70 个开源模型实例的跨芯适配版本。

4. 统一多芯片接入插件 vLLM-plugin-FL:无缝兼容原生使用习惯

vLLM-plugin-FL是 FlagOS 为 vLLM 推理服务框架打造的专属插件,基于 FlagOS 统一多芯片后端开发,在完全不改变 vLLM 原生接口与用户使用习惯的前提下,实现多芯片推理部署。目前 vLLM-plugin-FL 已经支持了英伟达、摩尔线程、海光、沐曦、平头哥真武、天数智芯、昆仑芯、华为等多家芯片。

开源共建:FlagOS持续做开发者的“跨芯适配后盾”

当下,"异构算力协同、大模型普惠落地"已成为全球开源开发者社区的核心热点,打破硬件生态隔离、让大模型在不同算力平台高效低成本运行,是无数开发者的核心诉求。FlagOS 从诞生之初就将开源开放、众智共建刻入技术基因,始终以开发者为中心,通过全栈开源的统一系统软件栈,把复杂的"M×N"硬件适配问题降维为"M N",做每一位开发者最可靠的跨芯适配后盾。

目前,FlagOS 已形成完整的开源技术体系,所有核心组件均已开源在 GitHub,同时开放了数十款最新的主流基础大模型、十多款 AI 芯片的适配方案与最佳实践,开发者可自由获取、深度定制:

四大核心技术库: FlagGems 通用大模型算子库、FlagTree 统一 AI 编译器、FlagScale 训练推理并行框架、FlagCX 统一通信库,覆盖算子开发、编译优化、并行计算、跨芯片通信全链路;三大开源工具平台: FlagRelease 大模型自动迁移发版平台、KernelGen 算子自动生成工具、FlagPerf 多芯片评测工具,提供从模型适配、性能评测到工程落地的一站式工具链; 全场景扩展生态: vLLM-plugin-FL、Megatron-LM-FL、TransformerEngine-FL 等框架增强组件,以及 FlagOS-Robo 具身智能工具包,覆盖大模型训练、推理、应用全场景。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
比亚迪新车会对市场产生哪些影响
比亚迪2026年的新车将通过技术普惠和精准的产品矩阵,重塑市场竞争格局,..
别家都在劝你开车回家,比亚迪却说:开心最重要
回过头来看这个春节各家汽车品牌的宣发,相比于各路霸屏的产品广告,比亚..
从嘲笑到追随,比亚迪 DM-i 为何是混动赛道的版本答案..
比亚迪 DM-i 超级混动自推出以来,虽仍存在些许技术局限,却在新能源市场..
欧洲走向油电切换新拐点,比亚迪在欧增长翻两倍
(文/观察者网 张家栋 编辑/高莘) 根据欧洲汽车制造商协会(ACEA)发布..
霸榜全球!中国三强杀入世界前十,比亚迪狂飙突进改写历史..
2025年的全球汽车工业版图,迎来了史无前例的剧烈震荡。随着Stellantis集..
比亚迪2025年销量表现全面分析:全球崛起与市场领导地位..
#如何评价比亚迪2025年的销量表现#比亚迪2025年的销量表现不仅是中国汽车..
长安启源全新Q05和比亚迪元UP,谁是10万级优选?对比告诉你差距..
借着节日的喜庆,以及厂商的优惠政策,想必在春节期间购车的朋友也有不少..
2025全球汽车销量TOP10出炉!中国品牌“三强聚首” 比亚迪排名创新高..
财联社2月26日讯(记者 张屹鹏)随着2月26日Stellantis集团财报的发布,2..
新车 | 换新LOGO/增150千瓦电机/最高续航605公里 比亚迪领汇e9官图..
文:懂车帝原创 张晓丹[懂车帝原创 产品] 日前,比亚迪旗下全新品牌领汇..
关于作者
横道不笑(普通会员)
文章
2156
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体114215

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索