DeepSeek V4预览版一开源,直接炸翻AI圈。
官方喊出“开源最强Agent 百万上下文”,定价还低到离谱。
上手实测一周,结论很直白:强是真强,坑也很明显。



先上硬参数:双版本剑指高低两端
V4分Pro和Flash,都是MoE架构,1M上下文成标配 。
- V4-Pro:1.6T总参数,激活49B,对标顶级闭源模型。
- V4-Flash:284B总参数,激活13B,主打低价高并发。
官方数据:推理FLOP降73%,KV缓存占用降90% 。
反套路观点:参数吹得猛,实际激活才是关键,Flash性价比更狠。
代码能力:开源第一梯队,写网页稳、3D小票翻车
实测写赛博朋克风GTA6介绍网页,7秒出完整可运行代码。
模块化清晰,鼠标悬停发光、动态粒子背景,细节拉满。
但挑战3D交互式纸质小票,直接翻车:
- 首次10分钟出空白页;二次渲染倒置、无纸张质感。
- 拖拽交互像史莱姆,形变夸张还穿模。
反套路观点:简单代码封神,复杂3D交互仍是短板,工程化能力待补。
推理与Agent:数学接近满分,经典逻辑题终于答对
数学推理实测:AIME 2026达99.4%,IMO AnswerBench 88.4%。
经典“洗车问题”,V3总绕晕,V4一次算对,逻辑链清晰。
Agent任务更猛:开源榜单第一,媲美Claude Sonnet 4.6 。
但长文本有坑:标称1M上下文,80K后理解明显下滑。
Function Calling约5%概率格式错乱,需加容错处理。
反套路观点:推理强到接近闭源,长文本和稳定性是明显短板。
价格与落地:Flash每百万token仅0.28美元,性价比炸穿
定价直接颠覆行业:
- V4-Flash:输出0.28美元/百万token,比Claude低99%。
- V4-Pro:3.48美元/百万token,同级最低之一。
实测调用:Flash响应快、成本极低,适合日常高并发场景。
Pro适合复杂推理、Agent任务,性价比碾压闭源模型。
深耕泛娱乐与AI测评多年,我想说:
V4不是“PPT模型”,是国产大模型真正的里程碑。
它把百万上下文、强推理、低成本三件事捏合到一起。
但别神化它:稳定性、长文本深度、多模态仍是坎。
开源能打、价格亲民,这波确实赢麻了。
你觉得DeepSeek V4能打过GPT-5.5吗?评论区聊!
需要我把V4与GPT-5.5、Claude Opus 4.6做个关键能力对比表吗?
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105699