通义千问视觉理解模型 Qwen-VL升级版：Qwen-VL-Plus、Qwen-VL-Max

468 0

阿里云宣布通义千问视觉理解模型 Qwen-VL 再次升级，继 Plus 版本之后推出 Max 版本，升级版模型拥有更强的视觉推理能力和中文理解能力，能够根据图片识人、答题、创作、写代码，并在多个权威测评中获得佳绩，比肩 OpenAI 的 GPT-4V 和谷歌的 Gemini Ultra。

项目主页

GitHub

Qwen-VL-Plus：通义千问大规模视觉语言模型增强版。大幅提升细节识别能力和文字识别能力，支持超百万像素分辨率和任意长宽比规格的图像。在广泛的视觉任务上提供卓越的性能。

Qwen-VL-Max：通义千问超大规模视觉语言模型。相比增强版，再次提升视觉推理能力和指令遵循能力，提供更高的视觉感知和认知水平。在更多复杂任务上提供最佳的性能。

通义千问视觉理解模型 Qwen-VL升级版：Qwen-VL-Plus、Qwen-VL-Max

这两个版本的主要技术升级在于：

大幅提升图像相关的推理能力；

大幅提升对图中细节和文字的识别、提取和分析能力；

支持百万像素以上的高清分辨率图，支持各种长宽比的图像；

如何使用？

目前 Qwen-VL-Plus 和 Qwen-VL-Max 限时免费，用户可以在通义千问官网、通义千问 APP 直接体验 Max 版本模型的能力，也可以通过阿里云灵积平台（DashScope）调用模型 API。

当前，用户可以通过Huggingface Spaces、通义千问官方网站以及Dashscope APIs来使用Qwen-VL-Plus和Qwen-VL-Max模型。

Qwen-VL-Plus

Qwen-VL-Max

千问官网

QWen-VL in ComfyUI

目前已经有开发者将Qwen-VL引入ComfyUI，可用于后续图生图。

GitHub

文章版权归作者所有，未经允许请勿转载。

阿里巴巴语音实验室发布开源语音处理框架 ClearerVoice-Studio：支持语音增强、分离和目标说话人提取

语音模型 # ClearerVoice-Studio # 阿里巴巴

2个月前

01590

文生视频新技术FIFO-Diffusion：无需训练即可从文本生成无限长度的视频

新技术 # FIFO-Diffusion # 文生视频

11个月前

03970

快速视频生成方法AnimateLCM：只需四步推理就可以生成视频

新技术 # AI视频生成 # AnimateLCM

1年前

05370

视频编辑方法STABLEV2V：解决视频编辑中形状一致性问题

新技术 # STABLEV2V # 视频编辑

4个月前

02510

暂无评论

暂无评论...

通义千问视觉理解模型 Qwen-VL升级版：Qwen-VL-Plus、Qwen-VL-Max

如何使用？

AI视频生成新框架Motion-I2V：让用户通过简单的轨迹绘制或区域选择来控制生成的视频内容

新型图像生成技术StrokeNUWA：利用大语言模型生成矢量图形

相关文章

阿里巴巴语音实验室发布开源语音处理框架 ClearerVoice-Studio：支持语音增强、分离和目标说话人提取

文生视频新技术FIFO-Diffusion：无需训练即可从文本生成无限长度的视频

快速视频生成方法AnimateLCM：只需四步推理就可以生成视频

视频编辑方法STABLEV2V：解决视频编辑中形状一致性问题

暂无评论

文章

新自回归模型Lumina-mGPT 2.0：支持文生图、多轮图像编辑、可控生成等

新香港大学与华为合作发布扩散大语言模型 Dream 7B

新Anthropic 推出 Claude 教育版，进军高等教育领域

新AI爬虫冲击维基共享资源，带宽需求激增50%

新高通收购越南 VinAI 生成式 AI 部门，加码边缘 AI 布局

新字节跳动推出基于DiT模型的人类图像动画框架DreamActor-M1：实现整体性、表现力和鲁棒性的人类图像动画生成

Open ASR 排行榜

野卡

朱雀大模型检测

Yourware.so

Google AI Studio

Midjourney

通义千问视觉理解模型 Qwen-VL升级版：Qwen-VL-Plus、Qwen-VL-Max

如何使用？

AI视频生成新框架Motion-I2V：让用户通过简单的轨迹绘制或区域选择来控制生成的视频内容

新型图像生成技术StrokeNUWA：利用大语言模型生成矢量图形

相关文章

文章

标签云

网址

Open ASR 排行榜

野卡

朱雀大模型检测

Yourware.so

Google AI Studio

Midjourney