DeepSeek V4震撼发布！实现全球开源领先-工信会

> 自媒体 > （AI）人工智能 > DeepSeek V4震撼发布！实现全球开源领先

DeepSeek V4震撼发布！实现全球开源领先

来源：新智元

2026-04-28 16:42:58

91

管理

百万级上下文（1M Context）的平民化时代，以及开源Agent能力、世界知识和推理性能上的新巅峰，已经到来。

DeepSeek V4，再度实现国内与开源领域的领先。

V4的技术报告，已经同步发布。

首先，V4-Pro在Agent能力上实现了跨越式突破，其Agentic Coding水平稳居开源界首位。

实测反馈显示，其编码体验已超越Sonnet 4.5，交付质量直追Opus 4.6（非思考模式），目前已成为公司内部Agent编程的首选模型。

其次，它具备深厚的世界知识储备。

在知识测评维度，V4-Pro显著领先同类开源产品，与闭源标杆Gemini-Pro-3.1的差距已缩减至极小范围。

另外，它还有顶尖的逻辑推理表现。

在数学、STEM及高难度竞赛代码等硬核领域，V4-Pro的表现不仅冠绝开源社区，更具备了挑战世界最强闭源模型的实战竞争力。

支撑这两个模型傲视群雄的，是其底层技术的「三大神技」：

混合注意力机制（CSA HCA）

DeepSeek-V4 并没有盲目增加硬件投入，而是开创性地设计了混合注意力架构。

压缩稀疏注意力（CSA）对KV缓存进行token维度的压缩并结合DSA稀疏注意力；重压缩注意力（HCA）则进行更极致的压缩以维持稠密计算。

这种「长短结合」的策略，让模型在处理百万字上下文时，计算量和显存需求大幅降低。

流形约束超连接（mHC）

为了提升信号传播的稳定性并增强模型表达力，V4引入了mHC结构，升级了传统的残差连接。这让模型在深层网络中依然能保持卓越的建模能力。

Muon 优化器

引入全新的Muon优化器，让训练过程不仅收敛更快，且更加稳定。

正是这些结构创新，让DeepSeek-V4在推理效率上实现了质的飞跃。

在100万token上下文的极端场景下，DeepSeek-V4-Pro的单token推理计算量仅为前代的 27%，KV缓存占用更是缩减到了惊人的10%。

DeepSeek-V4-Flash

极致效能与性价比的完美平衡

相比于Pro版本，Flash版则是更快捷高效的经济之选。

尽管在世界知识的深度上略逊于Pro版本，但DeepSeek-V4-Flash保留了与之接近的逻辑推理水平。

受益于更精简的参数规模与激活机制，它能为用户提供响应更快、成本更低的API接入方案。

在处理基础 Agent 任务时，V4-Flash的表现与Pro版不相上下，但在应对极端复杂任务时仍存在进阶空间。

架构革新

重塑长上下文效率

DeepSeek-V4引入了革命性的注意力机制，通过在Token维度进行高效压缩，并结合 DSA稀疏注意力（DeepSeek Sparse Attention）技术，实现了全球顶尖的长文本处理能力。

这种创新大幅削减了对计算资源与显存的依赖。

即日起，1M（100万 tokens）超长上下文将成为DeepSeek官方服务的标准配置。

DeepSeek-V4和DeepSeek-V3.2的计算量和显存容量随上下文长度的变化

V4-Pro在特定Agent框架下自动生成的PPT页面实例

（上下滑动查看）

MoE工程上，V4开源了MegaMoE，把通信和计算融合进单个pipeline kernel，通用场景加速1.5到1.73倍，延迟敏感场景最高1.96倍。

专家分训，蒸馏合一

V4用On-Policy Distillation（OPD）替代了V3.2的混合RL。先独立训练数学、代码、Agent等领域专家，再用一个学生模型对十几个专家做全词表logit蒸馏。

工程上的关键突破是，不缓存教师logits（显存放不下），只缓存最后一层隐藏状态，训练时按需重建logits，用TileLang专用kernel加速KL散度计算。

V4还引入了Generative Reward Model（GRM），让actor网络同时充当奖励模型，评判和生成能力联合优化，不再依赖传统标量奖励模型。

后训练阶段同步做了FP4量化感知训练，对MoE专家权重和CSA索引器做FP4量化，且FP4到FP8反量化无损，整个流程复用现有FP8框架。

DeepSeek

再度证实开源的力量

从V3的横空出世到V4的效率革命，DeepSeek始终坚持将最顶级的技术通过开源分享给社区。

DeepSeek-V4的上线，不仅是技术参数的跳跃，更是对「百万长上下文」和「高性能 Agent」这两大未来趋势的有力回应。

它证明了通过架构创新，我们可以在不牺牲性能的前提下，极大降低大模型的门槛。

现在，你可以在官方App或chat.deepseek.com立即开启1M上下文的全新体验。

这不仅仅是一个对话框，这是一个能装下整部百科全书、能理解万行代码逻辑的「第二大脑」。

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

Deepseek V4第一波测评来了！

DeepSeekV4预览版本正式发布

相关文章

Token 卖疯了挣的也是小钱，Snowflake 盯上了 AI 时代最贵的资产..

作者｜冬梅 1 当传统 SaaS 软件被集体唱衰，Snowflake 在做什么？ AI 爆..

投了130亿，然后自己下场干。微软这刀捅得挺狠

130亿美元。这是微软投给OpenAI的钱。全球最大的一笔AI投资。下周，同一..

Snowflake 迈向 Agentic Enterprise 的关键一跃

作者 | 王玮 2026 年的企业 AI 市场，正在经历一场悄无声息的叙事转换。..

CocoIndex：AI原生数据管道

我在编码竞争情报管道时如坐针毡，制作了这个表情包——用Claude Code帮..

歌迷用AI“复活”李玟惹争议

“你们好吗？我是CoCo李玟。”一条有关已故香港歌手李玟的最新视频近日在..

独家丨周博磊加入机器人初创，致力实现人行道自动驾驶技术突破..

当自动驾驶机器人行驶在城市的人行道场景，算法会有效还是失灵呢？这是一..

快手可灵AI启动Pre‑IPO融资，投前估值180亿美元

6月3日，据IPO早知道等多家媒体报道，快手（01024.HK）旗下视频生成业务..

一季度营收暴涨 320%！AI 视频破局，可灵 AI 凭啥打穿产业落地？..

最近 AI 行业终于传来实锤级消息：可灵 AI2026 年一季度营收突破 6.5 亿..

可灵AI估值超千亿分拆独立上市将改写AI应用估值逻辑？..

快手旗下可灵AI启动Pre-IPO轮融资的消息传开后，所有人都在讨论180亿美元..

关于作者

冰冷的开水..(普通会员)

文章

2038

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

DeepSeek 究竟是个啥？一文带你看明白

2025/02/08

02

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

03

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

04

这怕是全网最强的 DeepSeek 图片教程吧，赶紧收藏了！

2025/02/09

05

AI 界黑马DeepSeek 超详细介绍

2025/02/09

标签云

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体113750

@2022 All Rights Reserved

浙ICP备19035174号-6 技术支持：千寻网络

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索