阿里通义千问发布 Qwen3.5-Omni：全模态原生大模型，215 项 SOTA 碾压 Gemini 3.1 Pro

“能听、能看、能思考、能执行，还能像真人一样打断和克隆声音。”

阿里巴巴正式发布了其最新一代全模态原生大模型——Qwen3.5-Omni。这款模型不仅在文本、图像、音频、视频的理解上实现了全面融合，更在215 项基准测试中斩获 SOTA（State-of-the-Art），在音视频分析、推理、对话及翻译等核心任务上全面超越 Gemini 3.1-Pro。

官方说明：https://qwen.ai/blog?id=qwen3.5-omni
Offline API：https://help.aliyun.com/zh/model-studio/qwen-omni
Realtime API：https://help.aliyun.com/zh/model-studio/realtime
Qwen3.5-Omni-Offline-Demo：https://modelscope.cn/studios/Qwen/Qwen3.5-Omni-Offline-Demo
Qwen3.5-Omni-Online-Demo：https://modelscope.cn/studios/Qwen/Qwen3.5-Omni-Online-Demo

Qwen3.5-Omni 不再仅仅是一个聊天机器人，而是一个具备Audio-Visual Vibe Coding（音视频直觉编程）能力、支持语义打断与音色克隆的超级智能体。

阿里通义千问发布 Qwen3.5-Omni：全模态原生大模型，215 项 SOTA 碾压 Gemini 3.1 Pro

核心亮点：重新定义“全模态”交互

1. 极致音视频理解：从“看视频”到“读剧本”

Qwen3.5-Omni 支持长达 10 小时 的音频或 1 小时（720P, 1FPS）的视频输入，上下文窗口高达 256K。

细粒度 Caption 生成：上传一段视频，它能生成带时间戳的结构化描述——谁在说话、背景音乐何时切换、镜头切了几次、每一帧的细节变化。
结构化笔记：自动将长视频转化为可搜索的剧本级笔记，适用于内容审核、分镜分析及会议记录。
敏感内容识别：自主判断视频中是否包含违规或敏感内容。

2. 自然涌现的 Vibe Coding：看图写代码

最令人惊喜的是，模型未经专门训练却自然涌现出了 Audio-Visual Vibe Coding 能力。

所见即所得：根据视频画面的逻辑或音频指令，直接生成可运行的 Python 代码 或 前端原型。
创意验证加速：让创意从“观看”到“实现”只需一步，极大降低了开发门槛。

3. 真人级实时对话：懂分寸、有情绪

得益于 ARIA（自适应速率交错对齐） 技术，Qwen3.5-Omni 的语音交互达到了前所未有的自然度：

语义打断：能精准区分用户的“咳嗽/附和”与“真正插话”。只有当你真正想说话时，它才会停下；背景噪音不会误触发中断。
语音控制：支持指令控制音量（“小声点”）、语速及情绪（“用开心的语气”），让 AI 的声音表现力如同真人演员。
音色克隆：仅需一段录音，即可定制专属 AI 助手音色，支持多语言生成，打造你的“数字分身”。

4. 全能执行助手：不仅能聊，更能做事

原生工具调用：内置 WebSearch 和复杂 Function Call 能力。询问“明天北京天气并推荐酒店”，它能自主联网查询、对比信息并给出完整建议。
多语言覆盖：支持 113 种 语言/方言的识别与 36 种 语言的语音生成，覆盖全球绝大多数语种。

性能霸榜：215 项 SOTA，全面超越 Gemini 3.1-Pro

Qwen3.5-Omni-Plus 在海量多模态数据上预训练，展现出卓越的通用能力：

领域	关键成就	对比 Gemini 3.1-Pro
音视频理解	215 项子任务 SOTA	全面超越 (音频/视频/翻译/对话)
音频分析	MMAU, MMAR, MMSU 等基准领先	显著优于竞品
语音识别 (ASR)	Fleurs, Librispeech 等误差率极低	多语言识别精度更高
视觉/文本	达到同尺寸 Qwen3.5 水平	视觉推理能力持平或更强
语音合成	音色克隆相似度 0.80 (业界领先)	稳定性与自然度更优

数据说话：在 VoiceBench 对话测试中得分 93.1，远超 Gemini 的 88.9；在 Librispeech 清洁语音识别中，词错率低至 1.11%，刷新行业纪录。

技术架构：Thinker-Talker 双核驱动

Qwen3.5-Omni 延续了高效的 Thinker-Talker 架构，并进行了重大升级：

Hybrid-Attention MoE：Thinker 与 Talker 均采用混合注意力机制的稀疏专家模型，兼顾效率与性能。
ARIA 技术：创新性提出 自适应速率交错对齐 (Adaptive Rate Interleave Alignment)，动态对齐文本与语音 Token，解决了流式交互中常见的漏读、误读及数字发音模糊问题。
RVQ 编码：Talker 使用残差矢量量化 (RVQ) 替代繁重的 DiT 运算，大幅降低延迟，实现真正的 Realtime Interaction。

模型版本：