
2026年4月24日,DeepSeek V4-Pro和DeepSeek V4-Flash正式发布并开源,模型上下文处理长度由原有的128K显著扩展至1M,首次增加了KV Cache滑窗和压缩算法,大幅减少Attention计算和访存开销,并通过模型架构创新更好地支持了Agent和Coding场景。昇腾一直同步支持DeepSeek系列模型,本次通过双方芯模技术紧密协同,实现昇腾超节点全系列产品支持DeepSeek V4系列模型。昇腾950通过融合kernel和多流并行技术降低Attention计算和访存开销,大幅提升推理性能,结合多种量化算法,实现了高吞吐、低时延的DeepSeek V4模型推理部署。昇腾A3超节点系列产品也全面适配,同时为便于用户快速微调,提供了基于昇腾A3集群的训练参考实现。

A3超节点系列产品,实现DeepSeek V4-Flash模型单卡Decode吞吐2000 TPS
Atlas 900 A3 SuperPoD液冷超节点及Atlas 800 A3风冷超节点采用平等架构、全局内存统一编址、点对点互联带宽达784GB/s。提供32到384多种规格满足不同业务需求,昇腾超节点是国内唯一成熟规模商用的超节点产品,满足互联网、运营商、金融等行业对大模型推理超高吞吐、超大并发的极致性能需求。
基于昇腾A3 64卡超节点结合大EP模式部署,DeepSeek v4-Flash 模型,8K/1K输入输出场景,基于vLLM推理引擎可实现2000 TPS的单卡Decode吞吐,单卡吞吐持续提升。针对DeepSeek V4-Pro模型,昇腾A3同步支持推理部署,性能持续优化中。

资源链接
DeepSeek V4 模型推理优化实践:
DeepSeek-V4 Ascend C 融合算子优化:
基于CANN平台的TorchTitan-NPU AutoFuse 极简训练优化实践
大模型推理引擎 vLLM 及昇腾实现:
https://docs.vllm.ai/projects/ascend/en/v0.13.0/tutorials/DeepSeek-V4.html
大模型推理引擎 SGLang 及昇腾实现:
https://github.com/sgl-project/sglang/issues/23598
TileLang-Ascend 开源社区:
https://github.com/tile-ai/tilelang-ascend
4 月 24 日 16:00
昇腾超节点系列产品全面支持 DeepSeek V4
持续关注最新进展
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105719