智谱AI联合清华推出新一代视觉语言推理模型开源 GLM-4.1V-9B-Thinking

多模态模型8个月前发布小马良

306 0

随着智能任务日益复杂，视觉语言大模型（VLM）正从基础的多模态感知迈向更高层次的推理能力提升。为了应对这一趋势，智谱AI 与清华大学联合推出了新一代 VLM 开源模型 —— GLM-4.1V-9B-Thinking。

GitHub：https://github.com/THUDM/GLM-4.1V-Thinking

该模型基于 GLM-4-9B-0414 基座架构，并引入全新的「思考范式」机制，采用课程采样强化学习（Reinforcement Learning with Curriculum Sampling, RLCS），全面增强其推理能力，在多个任务中表现卓越。

在仅拥有 90 亿参数的情况下，GLM-4.1V-9B-Thinking 在 18 项榜单任务中持平甚至超越 Qwen-2.5-VL-72B（参数量为其 8 倍），成为当前 10B 级别视觉语言模型中的佼佼者。

与此同时，研究团队还同步开源了基座模型 GLM-4.1V-9B-Base，为更多研究人员探索视觉语言模型的能力边界提供支持。

模型信息

模型下载地址

模型	下载地址	模型类型
GLM-4.1V-9B-Thinking	🤗Hugging Face 🤖 ModelScope	推理模型
GLM-4.1V-9B-Base	🤗Hugging Face 🤖 ModelScope	基座模型

模型算法代码可以查看 transformers 的完整实现。

运行要求

推理

设备（单卡）	框架	最低显存占用	速度	精度
NVIDIA A100	transformers	22GB	14 - 22 Tokens / s	BF16
NVIDIA A100	vLLM	22GB	60 - 70 Tokens / s	BF16

微调

该部分数据使用 LLaMA-Factory 提供的图片微调方案进行测试。

设备(集群)	策略	最低显存占用 / 需要卡数	批大小 (per GPUs)	冻结情况
NVIDIA A100	LORA	21GB / 1卡	1	冻结 VIT
NVIDIA A100	FULL ZERO2	280GB / 4卡	1	冻结 VIT
NVIDIA A100	FULL ZERO3	192GB / 4卡	1	冻结 VIT
NVIDIA A100	FULL ZERO2	304GB / 4卡	1	不冻结
NVIDIA A100	FULL ZERO3	210GB / 4卡	1	不冻结

使用 Zero2 微调可能出现 Loss 为 0 的情况，建议使用 Zero3 进行微调。

✅ 相较于上一代 CogVLM2 和 GLM-4V 的主要改进

改进方向	内容说明
首个推理型 VLM 模型	不局限于数学领域，在多个子领域均达到国际领先水平。
长上下文支持	支持长达 64K token 的上下文长度。
图像分辨率与比例支持	支持任意长宽比、最高 4K 分辨率图像输入。
双语支持	提供中英文双语开源版本，满足全球开发者需求。

主要功能

GLM-4.1V-9B-Thinking 是一个面向通用多模态理解和推理的新一代视觉语言模型，具备以下核心能力：

多模态理解与推理：可处理图像、视频、文本等多种模态信息，完成复杂推理任务。
科学问题解决：在数学、物理、化学等领域表现出色，能解析图表与公式并生成详细解题步骤。
视频理解：准确描述视频内容，回答相关问题，实现动态场景理解。
内容识别：对图像和视频进行精准标注与描述，适用于内容审核、自动摘要等任务。
代码生成能力：如根据 UI 设计图生成 React 组件代码，提升开发效率。
GUI 代理交互：能够模拟用户行为，与图形界面进行交互并执行指定操作。
长文档理解：处理多页 PDF 或扫描文档，提取关键信息并进行逻辑推理。

主要特点

大规模预训练：通过海量多模态数据集（图像-文本对、学术论文、图表、视频等）进行基础训练，构建强大语义理解能力。
强化学习驱动：采用课程采样（Curriculum Sampling, CS）与动态采样扩展（Dynamic Sampling Expansion, DSE），逐步提升模型推理能力。
多模态数据兼容性：支持图像、视频、长文本等多样化输入形式。
跨领域泛化能力：在科学、图表分析、文档理解、GUI 操作等多个领域均表现出良好的迁移能力。
高效推理机制：通过模型压缩与推理优化，在保持高性能的同时降低资源消耗。

工作原理详解

阶段一：大规模预训练

使用包含图像-文本对、学术文献、图表和视频在内的多模态数据集进行预训练；
通过混合训练策略提升模型对不同模态的理解能力。

阶段二：监督微调（SFT）

引入长链推理数据，训练模型生成多步推理过程；
对输出格式进行规范化设计，为后续强化学习打下基础。

阶段三：强化学习（RL）

课程采样（Curriculum Sampling）：根据模型当前能力动态调整训练样本难度，提升训练效率；
动态采样扩展（DSE）：通过调节样本分布多样性，增强模型鲁棒性；
多领域强化训练：在多个垂直领域（如数学、编程、文档分析）进行强化学习，全面提升泛化能力。

性能评估结果

GLM-4.1V-9B-Thinking 引入了「思维链（Chain-of-Thought）」机制，显著提升了回答的准确性、内容丰富度和可解释性。在总计 28 项评测任务中：

23 项任务达到 10B 级别模型最佳性能；
18 项任务超越 Qwen-2.5-VL-72B（参数量是其 8 倍）；
多项任务表现接近甚至超过部分闭源模型（如 GPT-4o）。

🎯 应用示例

科学问题求解：面对复杂的数学或物理题目，模型能够理解图表与公式，生成分步推理过程并给出最终答案。
视频理解：模型可以逐帧解析视频内容，生成连贯描述，并回答诸如“视频中发生了什么”、“人物做了哪些动作”等问题。
长文档理解：针对多页 PDF、扫描件或表格文档，模型能提取关键信息并进行逻辑推理，例如从财报中总结财务状况、从法律文件中提取条款等。

多模态模型 # GLM-4.1V-9B-Thinking # 智谱AI

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

基于多模态大语言模型的高性能UI智能体UI-Venus

基于多模态大语言模型的高性能UI智能体UI-Venus

多模态模型 # UI-Venus # UI智能体

7个月前

02930

阿里巴巴推出 SmartResume：一个能“读懂”复杂简历版式的智能解析系统

阿里巴巴推出 SmartResume：一个能“读懂”复杂简历版式的智能解析系统

多模态模型 # SmartResume # 智能简历解析 # 阿里巴巴

4个月前

01870

苹果推出视觉语言模型FastVLM：用更少的视觉 Token，更快理解高分辨率图像

苹果推出视觉语言模型FastVLM：用更少的视觉 Token，更快理解高分辨率图像

多模态模型 # FastVLM # 苹果 # 视觉语言模型

6个月前

0890

腾讯发布混元Large-Vision：支持原生分辨率输入的旗舰级多模态理解模型

腾讯发布混元Large-Vision：支持原生分辨率输入的旗舰级多模态理解模型

多模态模型 # Hunyuan-Large-Vision # 混元Large-Vision # 腾讯

7个月前

05680

暂无评论

none

暂无评论...