智谱AI发布GLM-4.5V：106B参数的开源视觉推理模型，支持“思考模式”切换

173 0

今日，智谱 AI 正式推出其新一代开源视觉语言模型 GLM-4.5V，并在魔搭社区与 Hugging Face 同步开源。该模型总参数达 106B，采用 MOE（Mixture of Experts）架构，激活参数仅 12B，在保持高效推理的同时，实现了当前全球同级别开源多模态模型中的领先性能。

GitHub：https://github.com/zai-org/GLM-V
API：https://bigmodel.cn

智谱AI发布GLM-4.5V：106B参数的开源视觉推理模型，支持“思考模式”切换

更关键的是，GLM-4.5V 不只是一个“看得懂图”的模型，它被设计用于解决真实场景中的复杂视觉推理任务——从还原网页代码，到理解长文档、操作GUI界面、分析视频逻辑，均展现出强大的综合能力。

模型下载地址

模型	下载地址	模型类型
GLM-4.5V	Hugging Face ModelScope	混合推理模型
GLM-4.5V-FP8	Hugging Face ModelScope	混合推理模型

与此同时，API 调用价格进一步降低至：

输入：2 元 / 百万 tokens
输出：6 元 / 百万 tokens

为开发者提供了高性能与低成本兼备的选择。

为什么需要更强的视觉推理能力？

当前，视觉语言模型（VLM）已广泛应用于内容理解、智能助手、自动化办公等领域。但面对真实世界的复杂任务，仅“识别图像内容”远远不够。

真正的挑战在于：

如何从一张截图中还原出可运行的 HTML 代码？
如何理解一份30页PDF中的图表趋势并提出分析建议？
如何让AI“看着屏幕”完成PPT修改或表格填写？

这些任务不仅需要多模态感知，更依赖深度推理、上下文建模和结构化输出能力。

GLM-4.5V 的目标，正是填补这一能力鸿沟。

技术基础：基于 GLM-4.5-Air，延续 Thinking 路线

GLM-4.5V 基于智谱新一代旗舰文本基座模型 GLM-4.5-Air（106B参数，12B激活），延续了此前 GLM-4.1V-Thinking 的技术路线，在架构与训练策略上持续优化。

在 42 个公开视觉多模态榜单中，GLM-4.5V 综合表现达到同级别开源模型 SOTA（State-of-the-Art），覆盖：

图像理解
视频分析
文档解析
GUI Agent 任务

尤其在长上下文、多步骤推理、跨模态对齐等维度表现突出。

核心特性：不止于“看”，更在于“想”

1. 支持“思考模式”开关：灵活平衡效率与质量

GLM-4.5V 新增 Thinking / Non-Thinking 模式切换功能：

模式	特点	适用场景
Thinking 模式	模型内部展开多步推理链，输出更严谨、完整	复杂问题求解、逻辑推导、长文档分析
Non-Thinking 模式	直接生成答案，响应更快	快速问答、简单识别、低延迟交互

开发者可根据任务需求自由选择，实现效果与效率的动态平衡。

类似于“思维链”是否显式展开，但由用户控制。

推荐应用场景：面向真实世界任务

✅ 前端复刻：截图生成 HTML 代码

输入网页截图或录屏，模型可：

自动解析布局结构
识别按钮、导航栏、表单等元素
还原二级页面跳转逻辑
输出可运行的 HTML + CSS 代码

适用于快速原型开发、老旧页面数字化迁移等场景。

✅ Grounding：精准定位图像中的目标

支持根据自然语言描述精确定位图像中的人物或物体，例如：

“穿红色外套、戴帽子、背着双肩包的男性”

可用于：

安防监控中的目标检索
工业质检中的缺陷定位
遥感图像中特定设施识别

定位精度高，支持多条件组合筛选。

✅ GUI Agent：让AI“看着屏幕”操作电脑

模型能理解屏幕画面语义，并执行操作指令，如：

“打开Word文档，将第三段移到第二段前面”
“在PPT中为这张图添加动画效果”

结合自动化工具链，可实现办公流程的端到端自动化，为构建桌面级智能体提供可靠感知基础。

✅ 复杂长文档解读

支持对 PDF、扫描件等长文档进行深度解析，处理：

文本段落
表格数据
曲线图、柱状图
公式与注释

不仅能总结内容、翻译文本、提取关键信息，还能在原有分析基础上提出新见解，适用于：

金融研报解读
学术论文辅助阅读
法律合同审查

✅ 图像识别与结构化推理

结合丰富的世界知识与强推理能力，GLM-4.5V 可在无外部搜索的情况下推断图像背景信息，例如：

从一张餐厅照片判断城市风格（基于装修、菜单语言等）
将手绘表格或图表转换为结构化 CSV 或 Excel 数据

适用于无电子版资料的快速数字化，减少人工录入错误。

✅ 视频理解：时间线与因果推理

支持对长时视频内容进行解析，识别：

事件发展顺序
人物关系变化
动作因果逻辑

可用于：

安防事件回溯分析
影视内容自动打标
教学视频知识点切片

✅ 学科解题：图文结合题目求解

具备图文感知与知识储备能力，可解答 K12 或竞赛级别的综合题，例如：

数学应用题配图分析
地理地图题推理
物理实验图示理解

适合教育类智能辅导系统。

开源与生态：不只是模型，更是工具链

为帮助开发者快速体验 GLM-4.5V 的能力，智谱 AI 还同步开源了一款桌面助手应用。

该应用支持：

实时截屏 / 录屏输入
调用 GLM-4.5V 处理各类视觉任务
交互式对话反馈

你可以用它来：

让AI帮你解读视频内容
辅助编写代码
解答游戏难题
分析会议文档

它就像一个“能看着屏幕和你一起工作”的伙伴。

多模态模型 # GLM-4.5V # 智谱AI

文章版权归作者所有，未经允许请勿转载。

百度飞桨发布PaddleOCR-VL-1.5：0.9B轻量多模态模型，真实场景文档解析全面SOTA

多模态模型 # PaddleOCR-VL-1.5 # 百度飞桨

2个月前

01080

浪潮开源源 3.0 Ultra：1515B 参数巨无霸瘦身至 68B 激活，企业级 RAG 与表格理解全面超越 GPT-4o

多模态模型 # Yuan3.0 Ultra # 浪潮 # 源 3.0 Ultra

1个月前

01000

Nanonets开源OCR2系列模型：图像转结构化Markdown+视觉问答双核心

多模态模型 # Nanonets-OCR2 # Qwen2-VL

6个月前

02470

字节跳动推出多模态模型Vidi：专门用于视频理解和编辑

多模态模型 # Vidi # 多模态模型 # 字节跳动

12个月前

02330

暂无评论

暂无评论...

智谱AI发布GLM-4.5V：106B参数的开源视觉推理模型，支持“思考模式”切换

模型下载地址

为什么需要更强的视觉推理能力？

技术基础：基于 GLM-4.5-Air，延续 Thinking 路线

核心特性：不止于“看”，更在于“想”

1. 支持“思考模式”开关：灵活平衡效率与质量

推荐应用场景：面向真实世界任务

✅ 前端复刻：截图生成 HTML 代码

✅ Grounding：精准定位图像中的目标

✅ GUI Agent：让AI“看着屏幕”操作电脑

✅ 复杂长文档解读

✅ 图像识别与结构化推理

✅ 视频理解：时间线与因果推理

✅ 学科解题：图文结合题目求解

开源与生态：不只是模型，更是工具链

端到端的 VLA 模型InstructVLA：让机器人真正“听懂”指令并准确执行

阿里达摩院开源 Rynn 系列：从协议到模型，打通具身智能“最后一公里”

相关文章

百度飞桨发布PaddleOCR-VL-1.5：0.9B轻量多模态模型，真实场景文档解析全面SOTA

浪潮开源源 3.0 Ultra：1515B 参数巨无霸瘦身至 68B 激活，企业级 RAG 与表格理解全面超越 GPT-4o

Nanonets开源OCR2系列模型：图像转结构化Markdown+视觉问答双核心

字节跳动推出多模态模型Vidi：专门用于视频理解和编辑

暂无评论

文章

Illustrious XL v2.0正式发布，支持1024x1536原生分辨率生成

新Physion Labs推出Galileo-0：迈向可扩展的世界模型评判器

新面壁智能发布 VoxCPM2：20亿参数、无离散 Tokenizer 的开源语音合成新标杆

ComfyUI 原生支持 Wan2.2 Fun：首尾帧控制与多模态视频生成全面集成

LMArena 最新排名出炉！阿里千问杀入全球前五，Qwen3.5-Max-Preview 力压豆包、Kimi 成国产最强

新Meta 推出首款原生多模态推理模型 Muse Spark：迈向“个人超级智能”的第一步

S.H.I.T

Tripo

ITELLOU

waoo

新Flova

通义万象

智谱AI发布GLM-4.5V：106B参数的开源视觉推理模型，支持“思考模式”切换

模型下载地址

为什么需要更强的视觉推理能力？

技术基础：基于 GLM-4.5-Air，延续 Thinking 路线

核心特性：不止于“看”，更在于“想”

1. 支持“思考模式”开关：灵活平衡效率与质量

推荐应用场景：面向真实世界任务

✅ 前端复刻：截图生成 HTML 代码

✅ Grounding：精准定位图像中的目标

✅ GUI Agent：让AI“看着屏幕”操作电脑

✅ 复杂长文档解读

✅ 图像识别与结构化推理

✅ 视频理解：时间线与因果推理

✅ 学科解题：图文结合题目求解

开源与生态：不只是模型，更是工具链

端到端的 VLA 模型InstructVLA：让机器人真正“听懂”指令并准确执行

阿里达摩院开源 Rynn 系列：从协议到模型，打通具身智能“最后一公里”

相关文章

文章

标签云

网址

S.H.I.T

Tripo

ITELLOU

waoo

新Flova

通义万象