“能听、能看、能思考、能执行,还能像真人一样打断和克隆声音。”
阿里巴巴正式发布了其最新一代全模态原生大模型——Qwen3.5-Omni。这款模型不仅在文本、图像、音频、视频的理解上实现了全面融合,更在215 项基准测试中斩获 SOTA(State-of-the-Art),在音视频分析、推理、对话及翻译等核心任务上全面超越 Gemini 3.1-Pro。
- 官方说明:https://qwen.ai/blog?id=qwen3.5-omni
- Offline API:https://help.aliyun.com/zh/model-studio/qwen-omni
- Realtime API:https://help.aliyun.com/zh/model-studio/realtime
- Qwen3.5-Omni-Offline-Demo:https://modelscope.cn/studios/Qwen/Qwen3.5-Omni-Offline-Demo
- Qwen3.5-Omni-Online-Demo:https://modelscope.cn/studios/Qwen/Qwen3.5-Omni-Online-Demo
Qwen3.5-Omni 不再仅仅是一个聊天机器人,而是一个具备Audio-Visual Vibe Coding(音视频直觉编程)能力、支持语义打断与音色克隆的超级智能体。

核心亮点:重新定义“全模态”交互
1. 极致音视频理解:从“看视频”到“读剧本”
Qwen3.5-Omni 支持长达 10 小时 的音频或 1 小时(720P, 1FPS)的视频输入,上下文窗口高达 256K。
- 细粒度 Caption 生成:上传一段视频,它能生成带时间戳的结构化描述——谁在说话、背景音乐何时切换、镜头切了几次、每一帧的细节变化。
- 结构化笔记:自动将长视频转化为可搜索的剧本级笔记,适用于内容审核、分镜分析及会议记录。
- 敏感内容识别:自主判断视频中是否包含违规或敏感内容。
2. 自然涌现的 Vibe Coding:看图写代码
最令人惊喜的是,模型未经专门训练却自然涌现出了 Audio-Visual Vibe Coding 能力。
- 所见即所得:根据视频画面的逻辑或音频指令,直接生成可运行的 Python 代码 或 前端原型。
- 创意验证加速:让创意从“观看”到“实现”只需一步,极大降低了开发门槛。
3. 真人级实时对话:懂分寸、有情绪
得益于 ARIA(自适应速率交错对齐) 技术,Qwen3.5-Omni 的语音交互达到了前所未有的自然度:
- 语义打断:能精准区分用户的“咳嗽/附和”与“真正插话”。只有当你真正想说话时,它才会停下;背景噪音不会误触发中断。
- 语音控制:支持指令控制音量(“小声点”)、语速及情绪(“用开心的语气”),让 AI 的声音表现力如同真人演员。
- 音色克隆:仅需一段录音,即可定制专属 AI 助手音色,支持多语言生成,打造你的“数字分身”。
4. 全能执行助手:不仅能聊,更能做事
- 原生工具调用:内置 WebSearch 和复杂 Function Call 能力。询问“明天北京天气并推荐酒店”,它能自主联网查询、对比信息并给出完整建议。
- 多语言覆盖:支持 113 种 语言/方言的识别与 36 种 语言的语音生成,覆盖全球绝大多数语种。
性能霸榜:215 项 SOTA,全面超越 Gemini 3.1-Pro
Qwen3.5-Omni-Plus 在海量多模态数据上预训练,展现出卓越的通用能力:
| 领域 | 关键成就 | 对比 Gemini 3.1-Pro |
|---|---|---|
| 音视频理解 | 215 项 子任务 SOTA | 全面超越 (音频/视频/翻译/对话) |
| 音频分析 | MMAU, MMAR, MMSU 等基准领先 | 显著优于竞品 |
| 语音识别 (ASR) | Fleurs, Librispeech 等误差率极低 | 多语言识别精度更高 |
| 视觉/文本 | 达到同尺寸 Qwen3.5 水平 | 视觉推理能力持平或更强 |
| 语音合成 | 音色克隆相似度 0.80 (业界领先) | 稳定性与自然度更优 |
数据说话:在 VoiceBench 对话测试中得分 93.1,远超 Gemini 的 88.9;在 Librispeech 清洁语音识别中,词错率低至 1.11%,刷新行业纪录。

技术架构:Thinker-Talker 双核驱动
Qwen3.5-Omni 延续了高效的 Thinker-Talker 架构,并进行了重大升级:
- Hybrid-Attention MoE:Thinker 与 Talker 均采用混合注意力机制的稀疏专家模型,兼顾效率与性能。
- ARIA 技术:创新性提出 自适应速率交错对齐 (Adaptive Rate Interleave Alignment),动态对齐文本与语音 Token,解决了流式交互中常见的漏读、误读及数字发音模糊问题。
- RVQ 编码:Talker 使用残差矢量量化 (RVQ) 替代繁重的 DiT 运算,大幅降低延迟,实现真正的 Realtime Interaction。
模型版本:
- Plus:旗舰版,最强推理与理解能力。
- Flash:速度优化版,适合高并发实时场景。
- Light:轻量版,适合端侧部署。
应用场景:从娱乐到生产力
- 视频创作与剪辑:自动生成带时间轴的字幕、分镜脚本,辅助后期制作。
- 教育与会务:将长达数小时的讲座/会议录音转为结构化笔记,自动提炼重点。
- 个性化陪伴:克隆亲人或自己的声音,打造具有情感温度的 AI 伴侣。
- 快速原型开发:拍摄一段产品草图视频,直接生成可交互的前端代码。
- 全球无障碍沟通:实时翻译 113 种语言,打破语言障碍。
如何体验?
目前,Qwen3.5-Omni 已通过以下方式开放:
- Qwen Chat:直接在网页端体验对话、上传音视频。
- 阿里云百炼:开发者可通过 Offline API (离线处理) 和 Realtime API (实时交互) 调用模型。
- 提示:传入
enable_search: true即可开启联网搜索能力。
- 提示:传入
Qwen3.5-Omni 的发布,标志着多模态大模型从“感知”迈向了“认知”与“行动”的新阶段。它不仅能看懂世界,更能理解其中的细微情感,并动手帮你解决问题。在 215 项 SOTA 的加持下,阿里通义千问正以全模态之力,重塑人机交互的未来。














