前几天,阿里发布了Qwen3的新模型。从数值表现来看已经超越了DeepSeek和一众大模型,但实际表现如何?这篇文章,我们来看看作者的分析。
一、基础介绍
4月29日,在经历了claude 3.7 ,Gemini 2.5 和 GPT 4.1 模型发布之后,通义千问终于正式发布了Qwen3系列模型,凭借仅需 DeepSeek R1 模型三分之一的硬件成本,实现了性能的全面超越,同时追平了全球顶尖的 Gemini 2.5 Pro,同时还搭载了mcp能力。此外,小型 MoE(混合专家模型) 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%,表现更胜一筹,甚至像 Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能。
千问 3 系列模型共包含 6 个不同型号,参数量从最小的 0.6B 到最大的 235B-A22B,覆盖移动端部署到企业级应用的多元场景需求。旗舰型模型 Qwen3-235B-A22B 中的 “235B-A22B”,是混合专家模型的独特标识,代表模型总参数量达 2350 亿,每次推理仅激活 220 亿参数,在推理数学、编程和对话性能上远超 DeepSeek R1,逼近 Gemini 2.5 Pro 的水准。
千问 3 系列共 8 款模型全面开源!6 款稠密(Dense)模型,2 款 MoE 模型。
二、核心亮点
多种思考模式
值得一提的是,Qwen3 具备两种思考模式:
- 推理形态下,模型会展现思考过程,虽然耗时稍长,但在处理复杂任务时能力显著增强;
- 普通形态则省略思考步骤,响应迅速,更适合日常对话和长文本创作。
这种灵活性使用户能够根据具体任务控制模型进行“思考”的程度。例如,复杂的问题可以通过扩展推理步骤来解决,而简单的问题则可以直接快速作答,无需延迟。
至关重要的是,这两种模式的结合大大增强了模型实现稳定且高效的“思考预算”控制能力。
多语言
同时,Qwen3 模型支持 119 种语言和方言。这一广泛的多语言能力为国际应用开辟了新的可能性,让全球用户都能受益于这些模型的强大功能。
增强的 Agent 能力
同时,该系列模型大幅升级 MCP 能力,能精准识别外部函数,并支持多工具的灵活串联与并联调用,为 Agent 开发提供了强大助力。
三、部署方面
在部署成本方面,Qwen3-235B-A22B 展现出显著优势。作为稀疏 Mixture-of-Experts(MoE)架构的大模型,其硬件资源消耗远低于同规模的 dense 模型。得益于高效的模型设计与 FP8 精度权重支持,Qwen3-235B-A22B 最低可在4 张 H20 或 H800 显卡上完成高效推理部署,大幅降低了推理门槛与能耗成本。
相比之下,DeepSeek R1 采用 dense 架构,在部署时需占用高达 1300GB 显存资源,通常依赖双节点、8 张 A100 显卡协同运行,整体硬件开销约为 Qwen3 的三倍。
此外,Qwen3-235B-A22B 还支持通过 Quick Transformers 框架实现 CPU 与 GPU 的混合推理,进一步压缩硬件支出,提升灵活性与适配性。这些优势使其成为当前大模型企业级落地应用的理想选择,兼具性能与性价比。
四、技术层面
在技术训练层面,Qwen3 借鉴了 DeepSeek R1 基于强化学习的后训练流程,对 235B-A22B 和 32B 两款大尺寸模型进行四阶段复杂训练,其中包括
- 长思维链冷启动
- 长思维链强化学习
- 思维模式融合
- 通用强化学习
这不仅显著提升推理能力,还实现了普通问答与推理模式的智能切换,强化了文本编写能力。
此后,团队运用模型蒸馏方法,以大尺寸模型生成的数据集对小尺寸预训练模型进行优化。不同于 DeepSeek R1 采用 Llama 等外部模型作为基础,Qwen3 的小尺寸蒸馏模型均基于原生训练的 Qwen3 大模型,训练流程进一步优化,为开源模型的发展提供了极具价值的参考。
五、案例展示
1、代码生成与理解
我使用了leetcode的中的一道难度为【hard】的代码题
结论:结果是正确的,这样也展现出了他极强的代码能力
2、生成网页能力
根据以下内容生成一个html动态广告网页,要求:
1.使用扁平风格的视觉设计,浅色背景配合与#0FB990和#101010 相近的颜色作为高亮
2.淡淡的网格线在背景中制造科技感
3.强调超大字体或字突出核心要点,画面中有超大视觉元素强调重点,与小元素的比例形成反差
4.中英文混用,中文大字体相体,英文小字作为点组
5.简洁的线条图形化作为数据可视化或者配图元素
6.运用高亮,自身透明度渐变制造科技感,但是不同高亮色不要互相渐变
7.模仿apple官网的动效,向下浪动鼠标配合动效
结论:虽然看起来有点简单,但整体效果还是可以的,后期在经过修改,还是可以用的。
3、指令遵循
请按照下面的步骤进行操作:首先,想出一句恰好 10个字的中文句子。然后,将这句中的每个汉字转换成对应的拼音(不带声调)。最后,将转换后的整句拼音结果倒序输出。请严格按照要求给出答案。
评分标准:
- 句子符合要求: 提供的句子恰好为 10 个汉字,语句通顺且符合常理。
- 拼音转换:正确将句子中每个汉字转换为对应的拼音,拼写无误且不含声调。
- 倒序输出:正确的将整句拼音倒序排列输出,顺序完全反转,无遗漏或多余字符。
- 格式正确: 输出中各拼音之间的分隔清晰如使用空格分隔每个拼音),没有附加多余说明。
- 指令完整遵循:严格按照三个步骤执行,无省略或额外步骤,最终答案满足所有要求。
结论:这个回答就比较差了,跟我们预想的相差很多
4、逻辑推理能力
某钻石失窃案中,警方怀疑甲、乙、丙三人中的一人是小偷。三人分别做了如下陈述: 甲说:”小偷是乙。”乙说:”小偷是丙。”丙说:”小偷是乙。”已知这三人中只有一人说了真话。请推理判断谁偷了钻石。
评分标准:
- 结论正确:正确推断出真正的小偷身份(丙)。
- 推理过程: 合理运用”只有一人真话”的条件进行分析,对每种可能情况展开严谨推理。
- 逻辑性:论证过程符合逻辑,各陈述真假的推断衔接合理,没有自相矛盾。
- 表述清晰:推理步骤表达清楚且有条理
结论:答案正确,且逻辑清晰
通过这几个案例,可以看出,Qwen3的整体性能还是不错的,大家也都可以自己去上手尝试一下。
六、总结
回顾 2024 年,大模型领域虽百花齐放,但开源技术圈却陷入瓶颈。Llama 4 被曝作弊,Meta 发展受挫;谷歌 Gemini 3和智谱 GLM 4 等开源模型多为小尺寸,难以满足工业级应用需求。
在此背景下,千问 3 系列模型的发布意义非凡。尽管标号为 “3”,但按照千问模型每隔 0.5 版本算一代的惯例,这已是该系列的第五代产品。
历经两年打磨、五个版本迭代与上百款模型优化,千问模型从开源领域的 “新秀” 成长为当之无愧的行业标杆,扛起全球开源大模型的发展大旗,成为推动技术进步的中坚力量。
本文由 @贝琳_belin 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务