小红书 hi lab 开源首个视觉-语言模型：dots.vlm1

多模态模型7个月前发布小马良

352 0

小红书 hi lab 团队正式发布 dots.vlm1 ——这是“dots”模型家族中的首款视觉-语言模型（VLM），标志着其在多模态理解方向上的重要突破。

GitHub：https://github.com/rednote-hilab/dots.vlm1
模型：https://huggingface.co/rednote-hilab/dots.vlm1.inst
Demo：https://dotsvlm.xiaohongshu.com

该模型基于 12亿参数的自研视觉编码器 NaViT 与 DeepSeek-V3 大语言模型 构建，在视觉感知、图文推理和跨模态理解任务中展现出接近当前最优（SOTA）的性能，同时在纯文本任务上也保持了良好的通用能力。

小红书 hi lab 开源首个视觉-语言模型：dots.vlm1

不同于简单拼接现有组件的做法，dots.vlm1 从训练策略、数据构建到架构设计，均体现了系统性的技术创新。

核心架构：从零构建的视觉编码器 + 高性能语言模型

✅ NaViT：原生支持动态分辨率的视觉编码器

NaViT 是一个完全从零训练（而非微调已有模型）的视觉主干网络，具备以下关键特性：

42层 Transformer 架构，采用 SwiGLU 激活函数与 2D 旋转位置编码（RoPE），增强空间建模能力
原生支持动态分辨率输入，无需固定尺寸裁剪或缩放，适应不同尺度图像
两阶段训练策略，参考 AimV2 设计：
- 阶段一：基础预训练
  - 输入统一为 224×224 图像
  - 使用 NTP（Next Token Prediction in Images）与 NPG（Next Patch Generation）双重监督信号，提升图像内部结构理解能力
- 阶段二：分辨率扩展训练
  - 逐步提升输入分辨率至千万级像素（如 1440×1440）
  - 引入 OCR、目标定位（grounding）、视频帧等多样化高分辨率数据，增强模型泛化性

这种训练方式显著提升了模型对文档、图表等复杂视觉内容的感知上限。

模型能力表现

经过大规模预训练与精细化后训练，dots.vlm1 在多个维度展现出强大能力：

类别	表现
视觉-语言任务	在 MMMU、MathVista 等高难度多模态基准上，性能接近 Gemini 2.5 Pro 与 Seed-VL1.5 thinking，处于开源模型领先水平
OCR 与版面理解	在文档图像理解、图文对齐、表格识别等任务中表现突出，得益于高质量合成数据与自研 OCR 数据参与训练
数学与代码推理	在 AIME、LiveCodeBench 等任务中，表现与 DeepSeek-R1-0528 相当，具备较强的通用推理能力
复杂文本推理	在 GPQA 等需要深度知识推理的任务上仍有提升空间，是后续优化重点

注：当前性能评估基于公开基准与团队内部测试集。

小红书 hi lab 开源首个视觉-语言模型：dots.vlm1

数据策略：高质量、多样化、强对齐

数据是多模态模型性能的基石。dots.vlm1 的训练数据构建策略具有鲜明特色：

1. 跨模态互译数据

覆盖多种图像类型与对应文本描述，包括：

图像 + 替代文本（Alt Text）
图表 + 结构化标注（如 JSON 形式的数据说明）
多语言文档图像 + OCR 标注结果
视频帧 + 时间对齐字幕

这类数据强化了模型对“图像说了什么”的基本理解能力。

2. 跨模态融合数据

通过自研多模态系统生成更高阶的训练样本：

利用强大 VLM 重写网页内容，将图文混排页面转化为结构化描述，提升图文语义对齐质量
自研 OCR 工具解析 PDF 文档，生成带版面信息的图文对，用于训练模型理解文档布局
引入遮挡训练（Masked Image Modeling 类似策略），让模型学会从局部推测整体

这些策略有效提升了模型在真实场景下的图文理解鲁棒性。

应用潜力与技术意义

dots.vlm1 不只是一个性能出色的模型，更代表了一种端到端、可扩展的多模态建模范式：

统一处理多种视觉输入：无论是自然图像、图表、文档截图还是界面截图，均可在同一框架下解析
支持细粒度图文交互：可完成 grounding（指代表达）、密集描述、跨模态检索等任务
轻量高效架构设计：视觉编码器仅12亿参数，配合高效训练策略，具备良好部署潜力

对于需要处理复杂图文内容的应用场景——如知识库构建、智能客服、自动化办公、教育辅助等——dots.vlm1 提供了一个兼具性能与灵活性的新选择。

未来方向

团队明确表示，dots.vlm1 是 dots 系列多模态演进的第一步。后续工作将聚焦于：

进一步提升复杂推理能力，特别是在 GPQA、AIME-hard 等挑战性任务上
增强视频理解能力，扩展至时序建模与动态内容解析
推进模型轻量化与推理优化，支持边缘设备部署
探索以 VLM 为核心的统一感知框架，整合检测、OCR、描述生成与语义理解

此外，解析文档中的图片内容（如图表语义提取）也将成为重点攻关方向。

多模态模型 # dots.vlm1 # 小红书

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

腾讯发布混元Large-Vision：支持原生分辨率输入的旗舰级多模态理解模型

腾讯发布混元Large-Vision：支持原生分辨率输入的旗舰级多模态理解模型

多模态模型 # Hunyuan-Large-Vision # 混元Large-Vision # 腾讯

7个月前

05680

视觉语言模型SmolDocling：以高效的方式实现端到端的多模态文档转换

视觉语言模型SmolDocling：以高效的方式实现端到端的多模态文档转换

多模态模型 # SmolDocling # 文档转换 # 视觉语言模型

12个月前

05730

OpenVision 2：更高效、更对齐的生成式视觉编码器

OpenVision 2：更高效、更对齐的生成式视觉编码器

多模态模型 # OpenVision 2 # 视觉编码器

6个月前

01720

Convergence 发布基于视觉语言模型（VLM）的迷你开源模型 Proxy Lite

Convergence 发布基于视觉语言模型（VLM）的迷你开源模型 Proxy Lite

多模态模型 # Convergence # Proxy Lite # 视觉语言模型

1年前

03010

暂无评论

none

暂无评论...