> 自媒体 > (AI)人工智能 > DeepSeek Token价低至6元/百万Tokens,凭什么做到全球最低
DeepSeek Token价低至6元/百万Tokens,凭什么做到全球最低
来源:AI智识局
2026-06-10 11:52:11
40
管理

2026年5月,当亚马逊、微软等国际巨头因GPU和HBM涨价纷纷上调API定价时,DeepSeek突然官宣:V4-Pro永久降价至原价的25%,输出成本仅6元/百万Tokens。这个价格直接击穿了行业地板——仅为智谱GLM-5.1的1/5、Claude Sonnet的1/4,甚至比GPT-5.5低了近100倍。

全球开发者都懵了:它怎么做到的?

不是靠堆料,而是靠“偷工减料”的架构革命

大模型成本的核心,在于每次生成一个Token(文本的最小单位)都要调动全部神经网络。而DeepSeek的策略很简单:只让必要的部分干活。

1.6万亿总参数的V4-Pro,每次推理只激活490亿参数。这相当于一家公司有1.6万名员工,但开项目会时只叫最相关的490人参加,剩下的人该干嘛干嘛。这就是动态MoE(混合专家)架构——把模型拆成无数个“专家”,请求来了,路由系统瞬间判断该叫谁。

在此基础上,V4还搞了一套混合注意力机制(CSA HCA),让模型在处理百万Token级别的超长文本时,推理计算量仅为上一代的27%,KV缓存占用更是降到10%。不堆算力硬扛,而是用创新把算力消耗打下来。

用国产芯,跑出国际水平的效率

除了算法,硬件成本是第二道防线。DeepSeek V4是首个同时跑在英伟达和华为昇腾平台上的开源旗舰模型。这意味着它不再被单一供应商卡脖子。

以华为昇腾910B为例,其推理性能是英伟达H20的3倍,硬件采购成本比A100低25%-40%。深圳万卡级国产集群的日均故障率仅0.3‰,稳定性优于国际主流水平。

更重要的是,当企业从“外购算力”转向“自建国产算力集群”,五年周期内综合投入可降低40%左右。加上甘肃庆阳等西部绿电直供项目带来的电价优势(每度电便宜0.2-0.3元),万P规模的数据中心一年能省下3000万到5000万元电费。

“蒸馏”魔法与政策东风

训练成本同样被极致压缩。DeepSeek V3训练仅花费557万美元,是同级Llama 3的1/18。秘密武器是数据蒸馏——用一个强大但昂贵的“教师模型”教出一个轻量“学生模型”,把大模型的核心能力浓缩到更小的模型里。

深圳的“训力券”政策也功不可没:初创企业租用国产算力可享受60%补贴,单主体年度最高1000万元。这意味着DeepSeek在参与国际价格战时,背后有国家政策提供的“弹药”。

为什么这个优势别人学不来?

三个因素缺一不可:架构创新打底、国产硬件撑腰、政策补贴托底。这不是单纯靠供应链就能复制的组合拳。DeepSeek证明了**“花更少的钱,做更好的模型”不再是悖论——它已经成了现实中正在发生的事。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
关于作者
天泰悠然(普通会员)
文章
2028
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体113750

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索