阿里通义实验室推出Qwen3-Omni:支持文本、语音、图像、视频的全模态大模型

多模态模型3个月前发布 小马良
147 0

通义实验室正式推出 Qwen3-Omni——一款统一处理多模态输入并支持流式文本与语音输出的大语言模型。该模型已在 Qwen API 平台上线,开发者可通过接口体验其在音频对话、跨模态理解与指令执行方面的综合能力。

Qwen3-Omni 的设计目标是构建一个真正端到端的多模态交互系统,不仅支持多种输入形式(文本、图像、音频、视频),还能以极低延迟生成自然语音和结构化文本响应,适用于智能助手、实时客服、教育辅助等复杂场景。

阿里通义实验室推出Qwen3-Omni:支持文本、语音、图像、视频的全模态大模型

核心能力概览

能力说明
✅ 多模态输入支持文本、图像、音频、视频任意组合输入
✅ 双通道输出实时生成文本 + 自然语音(流式)
✅ 多语言支持文本交互支持 119 种语言;语音理解支持 19 种语言;语音生成支持 10 种语言
✅ 高效响应纯模型端到端延迟:
• 音频对话:211ms
• 视频对话:507ms
✅ 长上下文音频理解支持最长 30 分钟连续音频输入解析
✅ 工具调用支持 function call,可集成外部服务或数据库查询
✅ 可定制化支持通过 system prompt 调整回复风格、角色设定等行为特征

这一组合使其成为目前少数能实现“听-看-想-说”闭环的开源级多模态模型之一。

模型架构:Thinker-Talker 设计

Qwen3-Omni 采用创新的 Thinker-Talker 架构,将认知与表达解耦,提升效率与可控性:

阿里通义实验室推出Qwen3-Omni:支持文本、语音、图像、视频的全模态大模型

1. Thinker(思考模块)

  • 基于 MoE 架构,负责多模态信息融合与文本推理;
  • 接收来自视觉编码器、音频编码器和文本嵌入的信息;
  • 输出高层语义表征,作为 Talker 的输入。

2. Talker(表达模块)

  • 同样基于 MoE 架构,专注于流式语音生成;
  • 使用自回归方式预测多码本序列(multi-codebook autoregressive generation);
  • 每步解码中,MTP 模块输出当前帧的残差码本,交由 Code2Wav 合成波形;
  • 实现逐帧流式输出,首帧延迟极低。

该架构实现了从语义理解到语音合成的无缝衔接,无需后处理或额外TTS模型介入。

关键技术组件

AuT 音频编码器

  • 基于 2000万小时 多样化音频数据训练;
  • 具备强大的通用音频表征能力,涵盖语音、环境音、音乐等多种类型;
  • 在 ASR、音频分类、说话人识别等任务中表现优异。

MoE 架构支撑高并发

  • Thinker 与 Talker 均采用混合专家(MoE)结构;
  • 动态激活部分参数,兼顾推理速度与模型容量;
  • 适合大规模部署和服务扩展。

多码本流式生成

  • Talker 每步生成一个编解码帧,同步输出剩余残差码本;
  • 结合 Code2Wav 技术,直接合成高质量语音波形;
  • 支持真正的端到端流式生成,而非“先出文本再转语音”。

训练策略:全模态协同优化

传统多模态模型常采用“单模态预训练 + 跨模态微调”的分阶段方式,易导致模态间能力失衡。Qwen3-Omni 则在早期预训练阶段即引入:

  • 单模态任务(如纯文本生成、纯音频识别)
  • 跨模态任务(如图文匹配、音文翻译)

通过合理配比,使各模态能力在训练过程中协同发展,避免因跨模态融合而导致某一模态性能下降。

性能表现:多项指标达到领先水平

在全面评估中,Qwen3-Omni 展现出强劲的综合能力:

类别表现
音视频基准测试在 36 项测试中,32 项取得开源模型最优成绩,其中 22 项达到整体 SOTA
语音识别与理解性能与 Gemini 2.5 Pro 相当,在噪声环境下仍保持高准确率
指令跟随能力在复杂多轮对话中能准确理解意图并执行动作
图像与文本任务与同尺寸 Qwen 单模态模型持平,未因多模态集成而牺牲基础能力

尤其在需要实时响应的语音交互任务中,其低延迟与高稳定性优于多数闭源方案。

阿里通义实验室推出Qwen3-Omni:支持文本、语音、图像、视频的全模态大模型阿里通义实验室推出Qwen3-Omni:支持文本、语音、图像、视频的全模态大模型

开源发布:Qwen3-Omni-30B-A3B-Captioner

为推动社区发展,团队同步开源了 Qwen3-Omni-30B-A3B-Captioner——一个专注于音频描述生成的子模型。

特点包括:

  • 低幻觉:生成内容忠实于原始音频;
  • 细节丰富:可捕捉语气、背景音、情绪变化;
  • 通用性强:适用于会议记录、播客摘要、无障碍字幕等场景。

未来方向

团队表示将持续优化以下方向:

  • 多说话人语音识别(Diarization)
  • 视频中的 OCR 与动态文字理解
  • 音视频主动学习机制
  • 更强的 Agent 工作流支持与函数调用能力

这些升级将进一步提升模型在真实复杂环境下的实用性。

© 版权声明

相关文章

暂无评论

none
暂无评论...