> 自媒体 > (AI)人工智能 > DeepSeek 憋了一年半,终于交作业了
DeepSeek 憋了一年半,终于交作业了
来源:差评X.PIN
2026-04-28 15:35:42
167
管理

而且如果你想氪金,不管是便宜量大的 DeepSeek-V4-Flash,还是价格直接涨了 8 倍的 V4-Pro,都可以直接用上开发者 API。

在知识库的丰富程度,推理能力上也都能够大幅度领先其他开源模型,同时比肩世界顶级闭源模型。

同时和其他模型不太一样的是。

DeepSeek 的百万上下文还非常省钱。

大家都知道现在的大模型用的都是 transformer 架构,对话越长,KV Cache(临时缓存) 就越大,推理成本也越高,模型也就越花钱。

但这次,DeepSeek V4 直接变成了超级省钱冠军。

同样带着 100 万 token 的上下文干活,V4-Pro 每生成一个 token,背后的计算量差不多只要原来的四分之一。

模型用来记住前文的 KV Cache,也只剩原来的十分之一。

它把过去的 CSA(压缩稀疏注意力)和 HCA(重度压缩注意力)这两种技术结合了起来。

前者相当于是一本书写目录,后者相当于是给这个目录里的章节来写摘要。

有了目录和摘要辅助记忆之后,模型在干活的时候,真正需要计算的压力就降了不少。

同时,他们还用上了去年搓出来的 mHC 来保证长文本的稳定性,用了 Muon 优化器来让模型的参数更稳定。。。

在底层和显卡的适配优化上也下了一大堆功夫,在英伟达和华为的卡上都测试了自己做的 fine-grained EP,能让模型的推理速度提升 1.50 到 1.73 倍。

并且,DeeSeek 官方也很坦诚,直言目前和世界最先进的闭源旗舰模型,能力上还是有 3 到 6 个月的差距。

最后,可以说 DeepSeek 这些日子,是受到了不少的讨论和非议的。

人才流失、国产芯片适配失败、各种传闻真看得人挺揪心的。

有人说它们是江郎才尽、昙花一现。

而 " DeepSeek 新版本下周更新 " 的消息,也都快成了和贾会计下周回国一样,成了科技圈的笑话。甚至还有网友做了 AI 梗图,说梁文锋是因为要玩原神,才耽误了 DeepSeek V4。。。。

但玩归玩,笑归笑,别拿你 D 老师开玩笑,DeepSeek 用实力证明,它依旧是那个开源的源神。

和华为等国产芯片厂商的合作,也让人看到了咱们在 AI 领域打破垄断的决心和实力。

去年 DeepSeek R1 的开源,给全球的大模型带来了大推理时代。

而今年的 DeepSeek V4,则是通过和华为等国产芯片厂商的合作,让人看到了咱们在 AI 领域打破垄断的决心和实力。

“ 不诱于誉,不恐于诽,率道而行,端然正己 ” 这是 DeepSeek 官方今天提到的 16 字真言。

而他们,也确实做到了。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
关于作者
有点醉(普通会员)
文章
1915
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105719

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索