智谱AI发布GLM-4.5V:106B参数的开源视觉推理模型,支持“思考模式”切换

多模态模型4个月前发布 小马良
149 0

今日,智谱 AI 正式推出其新一代开源视觉语言模型 GLM-4.5V,并在魔搭社区与 Hugging Face 同步开源。该模型总参数达 106B,采用 MOE(Mixture of Experts)架构,激活参数仅 12B,在保持高效推理的同时,实现了当前全球同级别开源多模态模型中的领先性能。

智谱AI发布GLM-4.5V:106B参数的开源视觉推理模型,支持“思考模式”切换

更关键的是,GLM-4.5V 不只是一个“看得懂图”的模型,它被设计用于解决真实场景中的复杂视觉推理任务——从还原网页代码,到理解长文档、操作GUI界面、分析视频逻辑,均展现出强大的综合能力。

智谱AI发布GLM-4.5V:106B参数的开源视觉推理模型,支持“思考模式”切换

模型下载地址

模型下载地址模型类型
GLM-4.5V Hugging Face
ModelScope
混合推理模型
GLM-4.5V-FP8Hugging Face
ModelScope
混合推理模型

与此同时,API 调用价格进一步降低至:

  • 输入:2 元 / 百万 tokens
  • 输出:6 元 / 百万 tokens

为开发者提供了高性能与低成本兼备的选择。

为什么需要更强的视觉推理能力?

当前,视觉语言模型(VLM)已广泛应用于内容理解、智能助手、自动化办公等领域。但面对真实世界的复杂任务,仅“识别图像内容”远远不够。

真正的挑战在于:

  • 如何从一张截图中还原出可运行的 HTML 代码?
  • 如何理解一份30页PDF中的图表趋势并提出分析建议?
  • 如何让AI“看着屏幕”完成PPT修改或表格填写?

这些任务不仅需要多模态感知,更依赖深度推理、上下文建模和结构化输出能力

GLM-4.5V 的目标,正是填补这一能力鸿沟。

技术基础:基于 GLM-4.5-Air,延续 Thinking 路线

GLM-4.5V 基于智谱新一代旗舰文本基座模型 GLM-4.5-Air(106B参数,12B激活),延续了此前 GLM-4.1V-Thinking 的技术路线,在架构与训练策略上持续优化。

在 42 个公开视觉多模态榜单中,GLM-4.5V 综合表现达到同级别开源模型 SOTA(State-of-the-Art),覆盖:

  • 图像理解
  • 视频分析
  • 文档解析
  • GUI Agent 任务

尤其在长上下文、多步骤推理、跨模态对齐等维度表现突出。

智谱AI发布GLM-4.5V:106B参数的开源视觉推理模型,支持“思考模式”切换

核心特性:不止于“看”,更在于“想”

1. 支持“思考模式”开关:灵活平衡效率与质量

GLM-4.5V 新增 Thinking / Non-Thinking 模式切换功能

模式特点适用场景
Thinking 模式模型内部展开多步推理链,输出更严谨、完整复杂问题求解、逻辑推导、长文档分析
Non-Thinking 模式直接生成答案,响应更快快速问答、简单识别、低延迟交互

开发者可根据任务需求自由选择,实现效果与效率的动态平衡

类似于“思维链”是否显式展开,但由用户控制。

推荐应用场景:面向真实世界任务

✅ 前端复刻:截图生成 HTML 代码

输入网页截图或录屏,模型可:

  • 自动解析布局结构
  • 识别按钮、导航栏、表单等元素
  • 还原二级页面跳转逻辑
  • 输出可运行的 HTML + CSS 代码

适用于快速原型开发、老旧页面数字化迁移等场景。

✅ Grounding:精准定位图像中的目标

支持根据自然语言描述精确定位图像中的人物或物体,例如:

“穿红色外套、戴帽子、背着双肩包的男性”

可用于:

  • 安防监控中的目标检索
  • 工业质检中的缺陷定位
  • 遥感图像中特定设施识别

定位精度高,支持多条件组合筛选。

✅ GUI Agent:让AI“看着屏幕”操作电脑

模型能理解屏幕画面语义,并执行操作指令,如:

  • “打开Word文档,将第三段移到第二段前面”
  • “在PPT中为这张图添加动画效果”

结合自动化工具链,可实现办公流程的端到端自动化,为构建桌面级智能体提供可靠感知基础。

✅ 复杂长文档解读

支持对 PDF、扫描件等长文档进行深度解析,处理:

  • 文本段落
  • 表格数据
  • 曲线图、柱状图
  • 公式与注释

不仅能总结内容、翻译文本、提取关键信息,还能在原有分析基础上提出新见解,适用于:

  • 金融研报解读
  • 学术论文辅助阅读
  • 法律合同审查

✅ 图像识别与结构化推理

结合丰富的世界知识与强推理能力,GLM-4.5V 可在无外部搜索的情况下推断图像背景信息,例如:

  • 从一张餐厅照片判断城市风格(基于装修、菜单语言等)
  • 将手绘表格或图表转换为结构化 CSV 或 Excel 数据

适用于无电子版资料的快速数字化,减少人工录入错误。

✅ 视频理解:时间线与因果推理

支持对长时视频内容进行解析,识别:

  • 事件发展顺序
  • 人物关系变化
  • 动作因果逻辑

可用于:

  • 安防事件回溯分析
  • 影视内容自动打标
  • 教学视频知识点切片

✅ 学科解题:图文结合题目求解

具备图文感知与知识储备能力,可解答 K12 或竞赛级别的综合题,例如:

  • 数学应用题配图分析
  • 地理地图题推理
  • 物理实验图示理解

适合教育类智能辅导系统。

开源与生态:不只是模型,更是工具链

为帮助开发者快速体验 GLM-4.5V 的能力,智谱 AI 还同步开源了一款桌面助手应用

该应用支持:

  • 实时截屏 / 录屏输入
  • 调用 GLM-4.5V 处理各类视觉任务
  • 交互式对话反馈

你可以用它来:

  • 让AI帮你解读视频内容
  • 辅助编写代码
  • 解答游戏难题
  • 分析会议文档

它就像一个“能看着屏幕和你一起工作”的伙伴。

© 版权声明

相关文章

暂无评论

none
暂无评论...