AI大模型测评，深度解析最强开源模型Qwen3-工信会

> 自媒体 > （AI）人工智能 > AI大模型测评，深度解析最强开源模型Qwen3

AI大模型测评，深度解析最强开源模型Qwen3

来源：人人都是产品经理

2026-04-30 16:57:56

管理

前几天，阿里发布了Qwen3的新模型。从数值表现来看已经超越了DeepSeek和一众大模型，但实际表现如何？这篇文章，我们来看看作者的分析。

一、基础介绍

4月29日，在经历了claude 3.7 ，Gemini 2.5 和 GPT 4.1 模型发布之后，通义千问终于正式发布了Qwen3系列模型，凭借仅需 DeepSeek R1 模型三分之一的硬件成本，实现了性能的全面超越，同时追平了全球顶尖的 Gemini 2.5 Pro，同时还搭载了mcp能力。此外，小型 MoE（混合专家模型）模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%，表现更胜一筹，甚至像 Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能。

二、核心亮点多种思考模式

值得一提的是，Qwen3 具备两种思考模式：

推理形态下，模型会展现思考过程，虽然耗时稍长，但在处理复杂任务时能力显著增强；普通形态则省略思考步骤，响应迅速，更适合日常对话和长文本创作。

这种灵活性使用户能够根据具体任务控制模型进行“思考”的程度。例如，复杂的问题可以通过扩展推理步骤来解决，而简单的问题则可以直接快速作答，无需延迟。

至关重要的是，这两种模式的结合大大增强了模型实现稳定且高效的“思考预算”控制能力。

增强的 Agent 能力

同时，该系列模型大幅升级 MCP 能力，能精准识别外部函数，并支持多工具的灵活串联与并联调用，为 Agent 开发提供了强大助力。

三、部署方面

在部署成本方面，Qwen3-235B-A22B 展现出显著优势。作为稀疏 Mixture-of-Experts（MoE）架构的大模型，其硬件资源消耗远低于同规模的 dense 模型。得益于高效的模型设计与 FP8 精度权重支持，Qwen3-235B-A22B 最低可在4 张 H20 或 H800 显卡上完成高效推理部署，大幅降低了推理门槛与能耗成本。

相比之下，DeepSeek R1 采用 dense 架构，在部署时需占用高达 1300GB 显存资源，通常依赖双节点、8 张 A100 显卡协同运行，整体硬件开销约为 Qwen3 的三倍。

此外，Qwen3-235B-A22B 还支持通过 Quick Transformers 框架实现 CPU 与 GPU 的混合推理，进一步压缩硬件支出，提升灵活性与适配性。这些优势使其成为当前大模型企业级落地应用的理想选择，兼具性能与性价比。

四、技术层面

在技术训练层面，Qwen3 借鉴了 DeepSeek R1 基于强化学习的后训练流程，对 235B-A22B 和 32B 两款大尺寸模型进行四阶段复杂训练，其中包括

长思维链冷启动长思维链强化学习思维模式融合通用强化学习

这不仅显著提升推理能力，还实现了普通问答与推理模式的智能切换，强化了文本编写能力。

此后，团队运用模型蒸馏方法，以大尺寸模型生成的数据集对小尺寸预训练模型进行优化。不同于 DeepSeek R1 采用 Llama 等外部模型作为基础，Qwen3 的小尺寸蒸馏模型均基于原生训练的 Qwen3 大模型，训练流程进一步优化，为开源模型的发展提供了极具价值的参考。

五、案例展示1、代码生成与理解

我使用了leetcode的中的一道难度为【hard】的代码题

结论：结果是正确的，这样也展现出了他极强的代码能力

2、生成网页能力

根据以下内容生成一个html动态广告网页，要求：

1.使用扁平风格的视觉设计，浅色背景配合与#0FB990和#101010 相近的颜色作为高亮

2.淡淡的网格线在背景中制造科技感

3.强调超大字体或字突出核心要点，画面中有超大视觉元素强调重点，与小元素的比例形成反差

4.中英文混用，中文大字体相体，英文小字作为点组

5.简洁的线条图形化作为数据可视化或者配图元素

6.运用高亮，自身透明度渐变制造科技感，但是不同高亮色不要互相渐变

7.模仿apple官网的动效，向下浪动鼠标配合动效

结论：虽然看起来有点简单，但整体效果还是可以的，后期在经过修改，还是可以用的。

3、指令遵循

请按照下面的步骤进行操作:首先，想出一句恰好 10个字的中文句子。然后，将这句中的每个汉字转换成对应的拼音(不带声调)。最后，将转换后的整句拼音结果倒序输出。请严格按照要求给出答案。

评分标准：

句子符合要求: 提供的句子恰好为 10 个汉字，语句通顺且符合常理。拼音转换:正确将句子中每个汉字转换为对应的拼音，拼写无误且不含声调。倒序输出:正确的将整句拼音倒序排列输出，顺序完全反转，无遗漏或多余字符。格式正确: 输出中各拼音之间的分隔清晰如使用空格分隔每个拼音)，没有附加多余说明。指令完整遵循:严格按照三个步骤执行，无省略或额外步骤，最终答案满足所有要求。

结论：这个回答就比较差了，跟我们预想的相差很多

4、逻辑推理能力

某钻石失窃案中，警方怀疑甲、乙、丙三人中的一人是小偷。三人分别做了如下陈述: 甲说:”小偷是乙。”乙说:”小偷是丙。”丙说:”小偷是乙。”已知这三人中只有一人说了真话。请推理判断谁偷了钻石。

评分标准：

结论正确:正确推断出真正的小偷身份(丙)。推理过程: 合理运用”只有一人真话”的条件进行分析，对每种可能情况展开严谨推理。逻辑性:论证过程符合逻辑，各陈述真假的推断衔接合理，没有自相矛盾。表述清晰：推理步骤表达清楚且有条理

结论：答案正确，且逻辑清晰

通过这几个案例，可以看出，Qwen3的整体性能还是不错的，大家也都可以自己去上手尝试一下。

六、总结

回顾 2024 年，大模型领域虽百花齐放，但开源技术圈却陷入瓶颈。Llama 4 被曝作弊，Meta 发展受挫；谷歌 Gemini 3和智谱 GLM 4 等开源模型多为小尺寸，难以满足工业级应用需求。

在此背景下，千问 3 系列模型的发布意义非凡。尽管标号为 “3”，但按照千问模型每隔 0.5 版本算一代的惯例，这已是该系列的第五代产品。

历经两年打磨、五个版本迭代与上百款模型优化，千问模型从开源领域的 “新秀” 成长为当之无愧的行业标杆，扛起全球开源大模型的发展大旗，成为推动技术进步的中坚力量。

本文由 @贝琳_belin 原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

阿里发布新一代大语言模型Qwen3.6-Plus 编程能力大幅提升

1小时前

阿里要发飙？Qwen已经干掉Llama，夸克又要干掉Meta眼镜？

1小时前