时令 发自 凹非寺
量子位 | 公众号 QbitAI
Qwen下一代模型架构,抢先来袭!
Qwen3-Next发布,Qwen团队负责人林俊旸说,这就是Qwen3.5的抢先预览版。

基于这一模型,团队接连出手,同步开发并发布了两大新模型:
Qwen3-Next-80B-A3B-Instruct:在256K超长上下文处理任务中展现出显著优势。Qwen3-Next-80B-A3B-Thinking:在多项基准测试中超越闭源模型Gemini-2.5-Flash-Thinking。网友表示,这更新频率令人震惊。

在解码(decode)阶段,该模型同样高效。4k上下文吞吐量提升约4倍,长上下文(32k )场景中仍可保持超过10倍的吞吐优势。

基于Qwen3-Next,Qwen团队首先训练了Qwen3-Next-80B-A3B-Base模型。
该模型仅使用十分之一的Non-Embedding激活参数,就已在大多数基准测试中超越Qwen3-32B-Base,并显著优于Qwen3-30B-A3B,展现出出色的效率与性能优势。

除此之外,在RULER测试中,无论上下文长度如何,Qwen3-Next-80B-A3B-Instruct 的表现均超过了层数相同但注意力层更多的Qwen3-30B-A3B-Instruct-2507。

甚至在256 k范围内也优于层数更多的Qwen3-235B-A22B-Instruct-2507,充分体现了Gated DeltaNet与Gated Attention混合模型在长文本处理场景下的优势。
Qwen3-Next-80B-A3B-Thinking再来看Qwen3-Next-80B-A3B-Thinking,其表现也相当不错。
在多项基准测试中都超过了闭源模型Gemini-2.5-Flash-Thinking,并在部分指标上接近Qwen最新的旗舰模型 Qwen3-235B-A22B-Thinking-2507。
推理能力相当可以接下来让我们实测一下Qwen3-Next-80B-A3B的推理能力。
使用Qwen Chat网页,一上来就给它扔一道AIME数学竞赛题试试:

还有网友奇思妙想,用它生成了天气卡片。

不过,看到这个更新时,网友开心之余还是忍不住吐槽:
名字实在太复杂了。

目前,新模型已在魔搭社区和抱抱脸开源,大家可通过Qwen Chat免费体验,也可直接调用阿里云百炼平台提供的API服务。
魔搭社区直通车:https://t.co/mld9lp8QjK抱抱脸直通车:https://t.co/zHHNBB2l5XQwen Chat直通车:https://t.co/V7RmqMaVNZ阿里云API直通车:https://t.co/RdmUF5m6JA
参考链接:[1]https://x.com/Alibaba_Qwen/status/1966197643904000262[2]https://x.com/JustinLin610/status/1966199996728156167[3]https://mp.weixin.qq.com/s/STsWFuEkaoUa8J8v_uDhag?scene=1
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
相关文章






猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体113378