过去48小时,大概是大模型行业的黄道吉日:DeepSeek V4、GPT-5.5、小米MiMo V2.5、腾讯Hy3,接连四款模型发布。
是不是有些应接不暇了?
但别急,倒退几周,还有骂声一片的 Claude Opus 4.7,以及小参数大本领的Qwen3.6系列、MiniMax的M2.7、Kimi的 Kimi K2.6、智谱的GLM-5.1、xAI的 Grok 3.5、 Gemini 3.1 Pro 增强版、豆包 2.0相继登场,卷的人眼花缭乱。
一个月时间接连12款旗舰模型登场,这强度和节奏,不知道有多少朋友,还能学得过来?
不学也没关系,我们帮你测好了,本篇文章,先重点选出了我们觉得最有特色的三款:DeepSeek V4、GPT-5.5、Qwen3.6-35B-A3B测试,推荐给大家。
接下来,我们们将重点讲述这几个模型到底有什么特点,该怎么选型,以及老规矩,怎么把这几个模型与milvus做结合,给老板交付一个内部知识库?
01解读:DeepSeek V4关注最高、GPT-5.5最强、Qwen3.6-35B-A3B最实惠之所以选择DeepSeek V4、GPT-5.5、Qwen3.6-35B-A3B三个模型放在一起看,会发现一个有意思的点,过去大家会下意识去比参数规模、比榜单排名、比谁又刷新了 SOTA,但这次,模型能力的确在进步,但大家开始花更大篇幅去讲我们能完成什么任务,以及成本又下降了多少。
先说大家翘首以盼的 DeepSeek V4。
这代分两个版本,V4-Pro 总参 1.6T,激活 49B,V4-Flash 总参 284B,激活 13B,两个都原生支持 100 万 token 上下文。
说完这些唬人的之后,DeepSeek 转头自己在报告里实话实说:V4 定位是 preview version,能力水平仍然落后 GPT-5.4 和 Gemini-3.1-Pro,发展轨迹大约滞后前沿闭源模型 3 到 6 个月。
坦率的讲,这种自我定位在国产大模型里挺少见的。
那 V4 这波到底在秀什么呢,成本是一大重点。在 1M 上下文设置下,V4-Pro 的单 token 推理 FLOPs 只有 V3.2 的 27%,KV Cache 只有 10%。V4-Flash 更极端,分别压到 10% 和 7%。直观来说,就是同样让模型吞下一本一百万字的书然后思考,V4 干这件事的成本,是上一代的三分之一甚至十分之一。
和它前后脚发布的 GPT-5.5则是闭源阵营的硬茬。数据来看,GPT-5.5代码能力 Terminal-Bench 2.0 成绩 82.7%,上一代GPT-5.4 只有75.1% 。衡量长周期工程任务的 Expert-SWE 从 68.5% 升到 73.1%,SWE-Bench Pro 也到了 58.6%。
GPT-5.5 在这三项成绩全面上涨,成为暂时的最强大模型的同时,消耗的 token 数量比 GPT-5.4 还更少。不过价格上,GPT-5.5 标准版输入 5 美元每百万 token,输出 30 美元,Pro 版输入 30美元,输出 180美元,直接比上代翻倍,大概是吃准了大家对SOTA模型的付费意愿,永远是手比嘴诚实的(毕竟,虽然相比5.4涨价了,但是相比骂声一片的Claude Opus 4.7,还是很有性价比的)。
而在这两个模型发布之前,开源阵营最亮眼的其实是 Qwen3.6-35B-A3B。这是一款原生支持多模态,思考和非思考模式都能跑的模型。整体走的是以小博大,总参 350 亿,推理时只激活 30 亿,性能却超过了谷歌 4 月发的 Gemma 4-26B-A4B、Gemma 4-31B,也超过了阿里自己的前代 Qwen3.5-35B-A3B。而带动它,只需要一张消费级显卡。

DeepSeek v4 Pro:第一个问题回答错误 后面两个问题由于无法联网所以回答不了。其中第二个问题URL正确,第三个错误

GPT-5.5:表现非常优秀,找到了全部核心问题,并且主动预判了deadlock风险,修复代码也完整正确。
选型建议最强能力不计成本→ GPT-5.5工程部署 / 长上下文 / 低成本→ DeepSeek V4-Pro(注意联网能力需外接工具)本地私有化 / 多模态 / 中文场景→ Qwen3.6-35B-A3B
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体111038