
而且如果你想氪金,不管是便宜量大的 DeepSeek-V4-Flash,还是价格直接涨了 8 倍的 V4-Pro,都可以直接用上开发者 API。

在知识库的丰富程度,推理能力上也都能够大幅度领先其他开源模型,同时比肩世界顶级闭源模型。

同时和其他模型不太一样的是。
DeepSeek 的百万上下文还非常省钱。
大家都知道现在的大模型用的都是 transformer 架构,对话越长,KV Cache(临时缓存) 就越大,推理成本也越高,模型也就越花钱。
但这次,DeepSeek V4 直接变成了超级省钱冠军。
同样带着 100 万 token 的上下文干活,V4-Pro 每生成一个 token,背后的计算量差不多只要原来的四分之一。
模型用来记住前文的 KV Cache,也只剩原来的十分之一。

它把过去的 CSA(压缩稀疏注意力)和 HCA(重度压缩注意力)这两种技术结合了起来。
前者相当于是一本书写目录,后者相当于是给这个目录里的章节来写摘要。
有了目录和摘要辅助记忆之后,模型在干活的时候,真正需要计算的压力就降了不少。
同时,他们还用上了去年搓出来的 mHC 来保证长文本的稳定性,用了 Muon 优化器来让模型的参数更稳定。。。

在底层和显卡的适配优化上也下了一大堆功夫,在英伟达和华为的卡上都测试了自己做的 fine-grained EP,能让模型的推理速度提升 1.50 到 1.73 倍。

并且,DeeSeek 官方也很坦诚,直言目前和世界最先进的闭源旗舰模型,能力上还是有 3 到 6 个月的差距。
最后,可以说 DeepSeek 这些日子,是受到了不少的讨论和非议的。
人才流失、国产芯片适配失败、各种传闻真看得人挺揪心的。

有人说它们是江郎才尽、昙花一现。
而 " DeepSeek 新版本下周更新 " 的消息,也都快成了和贾会计下周回国一样,成了科技圈的笑话。甚至还有网友做了 AI 梗图,说梁文锋是因为要玩原神,才耽误了 DeepSeek V4。。。。

但玩归玩,笑归笑,别拿你 D 老师开玩笑,DeepSeek 用实力证明,它依旧是那个开源的源神。
和华为等国产芯片厂商的合作,也让人看到了咱们在 AI 领域打破垄断的决心和实力。
去年 DeepSeek R1 的开源,给全球的大模型带来了大推理时代。
而今年的 DeepSeek V4,则是通过和华为等国产芯片厂商的合作,让人看到了咱们在 AI 领域打破垄断的决心和实力。
“ 不诱于誉,不恐于诽,率道而行,端然正己 ” 这是 DeepSeek 官方今天提到的 16 字真言。

而他们,也确实做到了。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105719