阿里通义千问系列再添新成员,Qwen3 模型即将发布

早报2个月前发布 小马良
94 0

阿里云通义千问开源负责人林俊旸在社交平台 X 上发文暗示,备受期待的Qwen3 系列模型有望于今日正式发布。尽管具体发布时间尚未完全确认,但种种迹象表明,这一全新系列模型将在本周内与公众见面。

阿里通义千问系列再添新成员,Qwen3 模型即将发布

值得一提的是,Qwen3 系列模型已在阿里巴巴旗下的 AI 模型开源社区ModelScope(魔搭)上短暂亮相,随后被下线。尽管官方尚未发布正式公告,但短暂曝光的信息已引发广泛关注。根据现有信息,Qwen3 系列包括以下四款模型:

  • Qwen3-4B-Base
  • Qwen3-1.7B
  • Qwen3-0.6B
  • Qwen3-30B-A3B-Base

所有模型均采用Apache License 2.0 开源协议,延续了阿里云一贯的开放态度,为开发者和研究者提供了极大的自由度。

阿里通义千问系列再添新成员,Qwen3 模型即将发布

Qwen3 系列的技术路径与定位

结合命名规则和前代技术逻辑,可以推测 Qwen3 系列的技术路径与应用场景方向如下:

1. 参数规模与架构设计

  • Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B
    这三款模型以参数规模直接命名,分别对应40 亿、17 亿和 6 亿参数。无后缀的命名方式可能表明它们采用单架构稠密模型设计,未使用混合专家(MoE)架构。这类模型主打轻量化应用场景,适合对计算资源要求较低的设备或场景,如移动端应用、嵌入式系统等。
  • Qwen3-30B-A3B-Base
    这是一款基于混合专家(MoE)架构的基础模型。其总参数量为300 亿(30B),但在实际任务中动态调用30 亿(3B)参数进行处理。这种设计兼顾了高效性和灵活性,能够在保持高性能的同时降低推理成本,适合复杂任务场景。

2. 上下文长度支持

Qwen3 系列支持高达256K 的上下文长度,覆盖推理与非推理任务。这一特性使其在处理长文本生成、复杂对话以及多步骤推理任务时表现出色。

3. 应用场景

Qwen3 系列的多样化参数规模和架构设计,使其能够满足从轻量化到高性能需求的不同场景:

  • 轻量化模型(如 Qwen3-0.6B 和 Qwen3-1.7B):适合资源受限的设备或低延迟需求的应用。
  • 高性能模型(如 Qwen3-30B-A3B-Base):适合需要高精度和复杂推理的企业级应用。
阿里通义千问系列再添新成员,Qwen3 模型即将发布

Qwen 系列的开源历程

2023 年 8 月起,阿里云相继开源了Qwen、Qwen1.5、Qwen2 和 Qwen2.5四代模型,涵盖了从0.5B 到 110B的全尺寸参数范围,以及大语言模型、多模态模型、数学模型和代码模型等多种模态。这些开源模型不仅推动了学术界的研究进展,也为工业界的实际应用提供了强大支持。

© 版权声明

相关文章

暂无评论

none
暂无评论...