阿里Qwen团队发布端到端多模态模型Qwen2.5-Omni-3B

多模态模型8个月前发布小马良

387 0

阿里Qwen团队在发布Qwen3系列模型后，又推出Qwen2.5-Omni系列的一个新模型Qwen2.5-Omni-3B，这是一个端到端多模态模型，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音合成输出。

GitHub：https://github.com/QwenLM/Qwen2.5-Omni
Hugging Face：https://huggingface.co/Qwen/Qwen2.5-Omni-3B
魔塔：https://modelscope.cn/models/Qwen/Qwen2.5-Omni-3B

与之前发布的 Qwen2.5-Omni-7B 模型相比，3B 版本在长上下文序列处理（约 25k 个 token）中实现了令人瞩目的 50%+的 VRAM 消耗降低，同时在典型的 24GB 消费级 GPU 上支持扩展的 30 秒音视频交互。
保留了 7B 模型的 90%+的多模态理解能力，自然语音输出的准确性和稳定性与 7B 版本相当。

相关：阿里通义实验室发布新一代端到端多模态旗舰模型Qwen2.5-Omni

多模态模型 # Qwen # Qwen2.5-Omni-3B # 阿里巴巴

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Watermark-Detection-SigLIP2：高效检测图像水印的视觉语言模型

Watermark-Detection-SigLIP2：高效检测图像水印的视觉语言模型

多模态模型 # Watermark-Detection-SigLIP2 # 水印检测

8个月前

04910

通义千问视觉理解模型 Qwen-VL升级版：Qwen-VL-Plus、Qwen-VL-Max

通义千问视觉理解模型 Qwen-VL升级版：Qwen-VL-Plus、Qwen-VL-Max

新技术 # Qwen-VL-Max # Qwen-VL-Plus # 视觉理解模型

2年前

08370

机器人行动推理模型MolmoAct：通过结构化的三阶段推理流程（感知、规划和控制）将视觉、语言和行动相结合，使机器人能够更智能地执行任务

机器人行动推理模型MolmoAct：通过结构化的三阶段推理流程（感知、规划和控制）将视觉、语言和行动相结合，使机器人能够更智能地执行任务

多模态模型 # MolmoAct # 机器人行动推理模型

5个月前

01720

EmoNet：迈向真正“有情感”的AI，LAION开源新一代情感智能模型

EmoNet：迈向真正“有情感”的AI，LAION开源新一代情感智能模型

多模态模型 # EmoNet # LAION AI # 情感智能模型

7个月前

02650

暂无评论

none

暂无评论...