今日,智谱 AI 正式推出其新一代开源视觉语言模型 GLM-4.5V,并在魔搭社区与 Hugging Face 同步开源。该模型总参数达 106B,采用 MOE(Mixture of Experts)架构,激活参数仅 12B,在保持高效推理的同时,实现了当前全球同级别开源多模态模型中的领先性能。

更关键的是,GLM-4.5V 不只是一个“看得懂图”的模型,它被设计用于解决真实场景中的复杂视觉推理任务——从还原网页代码,到理解长文档、操作GUI界面、分析视频逻辑,均展现出强大的综合能力。

| 模型 | 下载地址 | 模型类型 |
|---|---|---|
| GLM-4.5V | Hugging Face ModelScope | 混合推理模型 |
| GLM-4.5V-FP8 | Hugging Face ModelScope | 混合推理模型 |
与此同时,API 调用价格进一步降低至:
- 输入:2 元 / 百万 tokens
- 输出:6 元 / 百万 tokens
为开发者提供了高性能与低成本兼备的选择。
为什么需要更强的视觉推理能力?
当前,视觉语言模型(VLM)已广泛应用于内容理解、智能助手、自动化办公等领域。但面对真实世界的复杂任务,仅“识别图像内容”远远不够。
真正的挑战在于:
- 如何从一张截图中还原出可运行的 HTML 代码?
- 如何理解一份30页PDF中的图表趋势并提出分析建议?
- 如何让AI“看着屏幕”完成PPT修改或表格填写?
这些任务不仅需要多模态感知,更依赖深度推理、上下文建模和结构化输出能力。
GLM-4.5V 的目标,正是填补这一能力鸿沟。
技术基础:基于 GLM-4.5-Air,延续 Thinking 路线
GLM-4.5V 基于智谱新一代旗舰文本基座模型 GLM-4.5-Air(106B参数,12B激活),延续了此前 GLM-4.1V-Thinking 的技术路线,在架构与训练策略上持续优化。
在 42 个公开视觉多模态榜单中,GLM-4.5V 综合表现达到同级别开源模型 SOTA(State-of-the-Art),覆盖:
- 图像理解
- 视频分析
- 文档解析
- GUI Agent 任务
尤其在长上下文、多步骤推理、跨模态对齐等维度表现突出。

核心特性:不止于“看”,更在于“想”
1. 支持“思考模式”开关:灵活平衡效率与质量
GLM-4.5V 新增 Thinking / Non-Thinking 模式切换功能:
| 模式 | 特点 | 适用场景 |
|---|---|---|
| Thinking 模式 | 模型内部展开多步推理链,输出更严谨、完整 | 复杂问题求解、逻辑推导、长文档分析 |
| Non-Thinking 模式 | 直接生成答案,响应更快 | 快速问答、简单识别、低延迟交互 |
开发者可根据任务需求自由选择,实现效果与效率的动态平衡。
类似于“思维链”是否显式展开,但由用户控制。
推荐应用场景:面向真实世界任务
✅ 前端复刻:截图生成 HTML 代码
输入网页截图或录屏,模型可:
- 自动解析布局结构
- 识别按钮、导航栏、表单等元素
- 还原二级页面跳转逻辑
- 输出可运行的 HTML + CSS 代码
适用于快速原型开发、老旧页面数字化迁移等场景。
✅ Grounding:精准定位图像中的目标
支持根据自然语言描述精确定位图像中的人物或物体,例如:
“穿红色外套、戴帽子、背着双肩包的男性”
可用于:
- 安防监控中的目标检索
- 工业质检中的缺陷定位
- 遥感图像中特定设施识别
定位精度高,支持多条件组合筛选。
✅ GUI Agent:让AI“看着屏幕”操作电脑
模型能理解屏幕画面语义,并执行操作指令,如:
- “打开Word文档,将第三段移到第二段前面”
- “在PPT中为这张图添加动画效果”
结合自动化工具链,可实现办公流程的端到端自动化,为构建桌面级智能体提供可靠感知基础。
✅ 复杂长文档解读
支持对 PDF、扫描件等长文档进行深度解析,处理:
- 文本段落
- 表格数据
- 曲线图、柱状图
- 公式与注释
不仅能总结内容、翻译文本、提取关键信息,还能在原有分析基础上提出新见解,适用于:
- 金融研报解读
- 学术论文辅助阅读
- 法律合同审查
✅ 图像识别与结构化推理
结合丰富的世界知识与强推理能力,GLM-4.5V 可在无外部搜索的情况下推断图像背景信息,例如:
- 从一张餐厅照片判断城市风格(基于装修、菜单语言等)
- 将手绘表格或图表转换为结构化 CSV 或 Excel 数据
适用于无电子版资料的快速数字化,减少人工录入错误。
✅ 视频理解:时间线与因果推理
支持对长时视频内容进行解析,识别:
- 事件发展顺序
- 人物关系变化
- 动作因果逻辑
可用于:
- 安防事件回溯分析
- 影视内容自动打标
- 教学视频知识点切片
✅ 学科解题:图文结合题目求解
具备图文感知与知识储备能力,可解答 K12 或竞赛级别的综合题,例如:
- 数学应用题配图分析
- 地理地图题推理
- 物理实验图示理解
适合教育类智能辅导系统。
开源与生态:不只是模型,更是工具链
为帮助开发者快速体验 GLM-4.5V 的能力,智谱 AI 还同步开源了一款桌面助手应用。
该应用支持:
- 实时截屏 / 录屏输入
- 调用 GLM-4.5V 处理各类视觉任务
- 交互式对话反馈
你可以用它来:
- 让AI帮你解读视频内容
- 辅助编写代码
- 解答游戏难题
- 分析会议文档
它就像一个“能看着屏幕和你一起工作”的伙伴。















