阿里通义千问系列再添新成员，Qwen3 模型即将发布

早报11个月前发布小马良

377 0

阿里云通义千问开源负责人林俊旸在社交平台 X 上发文暗示，备受期待的Qwen3 系列模型有望于今日正式发布。尽管具体发布时间尚未完全确认，但种种迹象表明，这一全新系列模型将在本周内与公众见面。

值得一提的是，Qwen3 系列模型已在阿里巴巴旗下的 AI 模型开源社区ModelScope（魔搭）上短暂亮相，随后被下线。尽管官方尚未发布正式公告，但短暂曝光的信息已引发广泛关注。根据现有信息，Qwen3 系列包括以下四款模型：

Qwen3-4B-Base
Qwen3-1.7B
Qwen3-0.6B
Qwen3-30B-A3B-Base

所有模型均采用Apache License 2.0 开源协议，延续了阿里云一贯的开放态度，为开发者和研究者提供了极大的自由度。

Qwen3 系列的技术路径与定位

结合命名规则和前代技术逻辑，可以推测 Qwen3 系列的技术路径与应用场景方向如下：

1. 参数规模与架构设计

Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B
这三款模型以参数规模直接命名，分别对应40 亿、17 亿和 6 亿参数。无后缀的命名方式可能表明它们采用单架构稠密模型设计，未使用混合专家（MoE）架构。这类模型主打轻量化应用场景，适合对计算资源要求较低的设备或场景，如移动端应用、嵌入式系统等。
Qwen3-30B-A3B-Base
这是一款基于混合专家（MoE）架构的基础模型。其总参数量为300 亿（30B），但在实际任务中动态调用30 亿（3B）参数进行处理。这种设计兼顾了高效性和灵活性，能够在保持高性能的同时降低推理成本，适合复杂任务场景。

2. 上下文长度支持

Qwen3 系列支持高达256K 的上下文长度，覆盖推理与非推理任务。这一特性使其在处理长文本生成、复杂对话以及多步骤推理任务时表现出色。

3. 应用场景

Qwen3 系列的多样化参数规模和架构设计，使其能够满足从轻量化到高性能需求的不同场景：

轻量化模型（如 Qwen3-0.6B 和 Qwen3-1.7B）：适合资源受限的设备或低延迟需求的应用。
高性能模型（如 Qwen3-30B-A3B-Base）：适合需要高精度和复杂推理的企业级应用。

Qwen 系列的开源历程

自2023 年 8 月起，阿里云相继开源了Qwen、Qwen1.5、Qwen2 和 Qwen2.5四代模型，涵盖了从0.5B 到 110B的全尺寸参数范围，以及大语言模型、多模态模型、数学模型和代码模型等多种模态。这些开源模型不仅推动了学术界的研究进展，也为工业界的实际应用提供了强大支持。