> 自媒体 > (AI)人工智能 > AI大模型测评,深度解析最强开源模型Qwen3
AI大模型测评,深度解析最强开源模型Qwen3
来源:人人都是产品经理
2026-04-30 16:57:56
98
管理

前几天,阿里发布了Qwen3的新模型。从数值表现来看已经超越了DeepSeek和一众大模型,但实际表现如何?这篇文章,我们来看看作者的分析。

一、基础介绍

4月29日,在经历了claude 3.7 ,Gemini 2.5 和 GPT 4.1 模型发布之后,通义千问终于正式发布了Qwen3系列模型,凭借仅需 DeepSeek R1 模型三分之一的硬件成本,实现了性能的全面超越,同时追平了全球顶尖的 Gemini 2.5 Pro,同时还搭载了mcp能力。此外,小型 MoE(混合专家模型) 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%,表现更胜一筹,甚至像 Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能。

二、核心亮点多种思考模式

值得一提的是,Qwen3 具备两种思考模式:

推理形态下,模型会展现思考过程,虽然耗时稍长,但在处理复杂任务时能力显著增强;普通形态则省略思考步骤,响应迅速,更适合日常对话和长文本创作。

这种灵活性使用户能够根据具体任务控制模型进行“思考”的程度。例如,复杂的问题可以通过扩展推理步骤来解决,而简单的问题则可以直接快速作答,无需延迟。

至关重要的是,这两种模式的结合大大增强了模型实现稳定且高效的“思考预算”控制能力。

增强的 Agent 能力

同时,该系列模型大幅升级 MCP 能力,能精准识别外部函数,并支持多工具的灵活串联与并联调用,为 Agent 开发提供了强大助力。

三、部署方面

在部署成本方面,Qwen3-235B-A22B 展现出显著优势。作为稀疏 Mixture-of-Experts(MoE)架构的大模型,其硬件资源消耗远低于同规模的 dense 模型。得益于高效的模型设计与 FP8 精度权重支持,Qwen3-235B-A22B 最低可在4 张 H20 或 H800 显卡上完成高效推理部署,大幅降低了推理门槛与能耗成本。

相比之下,DeepSeek R1 采用 dense 架构,在部署时需占用高达 1300GB 显存资源,通常依赖双节点、8 张 A100 显卡协同运行,整体硬件开销约为 Qwen3 的三倍。

此外,Qwen3-235B-A22B 还支持通过 Quick Transformers 框架实现 CPU 与 GPU 的混合推理,进一步压缩硬件支出,提升灵活性与适配性。这些优势使其成为当前大模型企业级落地应用的理想选择,兼具性能与性价比。

四、技术层面

在技术训练层面,Qwen3 借鉴了 DeepSeek R1 基于强化学习的后训练流程,对 235B-A22B 和 32B 两款大尺寸模型进行四阶段复杂训练,其中包括

长思维链冷启动长思维链强化学习思维模式融合通用强化学习

这不仅显著提升推理能力,还实现了普通问答与推理模式的智能切换,强化了文本编写能力。

此后,团队运用模型蒸馏方法,以大尺寸模型生成的数据集对小尺寸预训练模型进行优化。不同于 DeepSeek R1 采用 Llama 等外部模型作为基础,Qwen3 的小尺寸蒸馏模型均基于原生训练的 Qwen3 大模型,训练流程进一步优化,为开源模型的发展提供了极具价值的参考。

五、案例展示1、代码生成与理解

我使用了leetcode的中的一道难度为【hard】的代码题

结论:结果是正确的,这样也展现出了他极强的代码能力

2、生成网页能力

根据以下内容生成一个html动态广告网页,要求:

1.使用扁平风格的视觉设计,浅色背景配合与#0FB990和#101010 相近的颜色作为高亮

2.淡淡的网格线在背景中制造科技感

3.强调超大字体或字突出核心要点,画面中有超大视觉元素强调重点,与小元素的比例形成反差

4.中英文混用,中文大字体相体,英文小字作为点组

5.简洁的线条图形化作为数据可视化或者配图元素

6.运用高亮,自身透明度渐变制造科技感,但是不同高亮色不要互相渐变

7.模仿apple官网的动效,向下浪动鼠标配合动效

结论:虽然看起来有点简单,但整体效果还是可以的,后期在经过修改,还是可以用的。

3、指令遵循

请按照下面的步骤进行操作:首先,想出一句恰好 10个字的中文句子。然后,将这句中的每个汉字转换成对应的拼音(不带声调)。最后,将转换后的整句拼音结果倒序输出。请严格按照要求给出答案。

评分标准:

句子符合要求: 提供的句子恰好为 10 个汉字,语句通顺且符合常理。拼音转换:正确将句子中每个汉字转换为对应的拼音,拼写无误且不含声调。倒序输出:正确的将整句拼音倒序排列输出,顺序完全反转,无遗漏或多余字符。格式正确: 输出中各拼音之间的分隔清晰如使用空格分隔每个拼音),没有附加多余说明。指令完整遵循:严格按照三个步骤执行,无省略或额外步骤,最终答案满足所有要求。

结论:这个回答就比较差了,跟我们预想的相差很多

4、逻辑推理能力

某钻石失窃案中,警方怀疑甲、乙、丙三人中的一人是小偷。三人分别做了如下陈述: 甲说:”小偷是乙。”乙说:”小偷是丙。”丙说:”小偷是乙。”已知这三人中只有一人说了真话。请推理判断谁偷了钻石。

评分标准:

结论正确:正确推断出真正的小偷身份(丙)。推理过程: 合理运用”只有一人真话”的条件进行分析,对每种可能情况展开严谨推理。逻辑性:论证过程符合逻辑,各陈述真假的推断衔接合理,没有自相矛盾。表述清晰:推理步骤表达清楚且有条理

结论:答案正确,且逻辑清晰

通过这几个案例,可以看出,Qwen3的整体性能还是不错的,大家也都可以自己去上手尝试一下。

六、总结

回顾 2024 年,大模型领域虽百花齐放,但开源技术圈却陷入瓶颈。Llama 4 被曝作弊,Meta 发展受挫;谷歌 Gemini 3和智谱 GLM 4 等开源模型多为小尺寸,难以满足工业级应用需求。

在此背景下,千问 3 系列模型的发布意义非凡。尽管标号为 “3”,但按照千问模型每隔 0.5 版本算一代的惯例,这已是该系列的第五代产品。

历经两年打磨、五个版本迭代与上百款模型优化,千问模型从开源领域的 “新秀” 成长为当之无愧的行业标杆,扛起全球开源大模型的发展大旗,成为推动技术进步的中坚力量。

本文由 @贝琳_belin 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
Claude身份验证引争议,老外默默掏出了阿里的Qwen
(文/万肇生 编辑/张广凯) 当闭源云端大模型可以随时切断你的账号时,本..
Qwen要入局机器人了:林俊旸官宣成立具身智能团队
机器之心报道机器之心编辑部已经成为开源模型领头羊的 Qwen,终于要开始..
Qwen拿半成品刷下AIME\u0026#39;25满分,给别人留点面子吧……..
鱼羊 发自 凹非寺量子位 | 公众号 QbitAI半成品模型,已经刷下高难度数学..
阿里发布新一代大语言模型Qwen3.6-Plus 编程能力大幅提升..
来源:环球网 【环球网科技综合报道】4月2日,阿里千问发布新一代大语言..
阿里要发飙?Qwen已经干掉Llama,夸克又要干掉Meta眼镜?..
夸克,这个阿里家的小儿子,正在以肉眼可见的速度扩张自己的边界:从“AI..
那个用半成品刷爆SOTA的Qwen3超大杯推理版,现在正式上线..
新一年的基础模型竞逐,没想到是阿里千问率先出手了!就在刚刚,Qwen3-Ma..
亚马逊云科技为何上架Qwen和DeepSeek的最新模型
为何上架Qwen和DeepSeek?开放生态是对抗封闭的最佳武器。国际市场调研机..
qwen3-0.6B这种小模型有什么实际意义和用途吗?
在大模型喧嚣的背后,小模型正在工业场景中悄然崛起。从端侧部署的隐私计..
晚点独家丨林俊旸提出离职,Qwen 多位负责人离开,团队或将调整..
前一天还在奋战模型发布,第二天提离职。文丨陈佳惠 程曼祺编辑丨程曼祺3..
关于作者
唐师(普通会员)
文章
1845
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体106069

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索