小红书 hi lab 开源首个视觉-语言模型:dots.vlm1

多模态模型4个月前发布 小马良
245 0

小红书 hi lab 团队正式发布 dots.vlm1 ——这是“dots”模型家族中的首款视觉-语言模型(VLM),标志着其在多模态理解方向上的重要突破。

该模型基于 12亿参数的自研视觉编码器 NaViT 与 DeepSeek-V3 大语言模型 构建,在视觉感知、图文推理和跨模态理解任务中展现出接近当前最优(SOTA)的性能,同时在纯文本任务上也保持了良好的通用能力。

小红书 hi lab 开源首个视觉-语言模型:dots.vlm1

不同于简单拼接现有组件的做法,dots.vlm1 从训练策略、数据构建到架构设计,均体现了系统性的技术创新。

核心架构:从零构建的视觉编码器 + 高性能语言模型

✅ NaViT:原生支持动态分辨率的视觉编码器

NaViT 是一个完全从零训练(而非微调已有模型)的视觉主干网络,具备以下关键特性:

  • 42层 Transformer 架构,采用 SwiGLU 激活函数与 2D 旋转位置编码(RoPE),增强空间建模能力
  • 原生支持动态分辨率输入,无需固定尺寸裁剪或缩放,适应不同尺度图像
  • 两阶段训练策略,参考 AimV2 设计:
    • 阶段一:基础预训练
      • 输入统一为 224×224 图像
      • 使用 NTP(Next Token Prediction in Images)与 NPG(Next Patch Generation)双重监督信号,提升图像内部结构理解能力
    • 阶段二:分辨率扩展训练
      • 逐步提升输入分辨率至千万级像素(如 1440×1440)
      • 引入 OCR、目标定位(grounding)、视频帧等多样化高分辨率数据,增强模型泛化性

这种训练方式显著提升了模型对文档、图表等复杂视觉内容的感知上限。

模型能力表现

经过大规模预训练与精细化后训练,dots.vlm1 在多个维度展现出强大能力:

类别表现
视觉-语言任务在 MMMU、MathVista 等高难度多模态基准上,性能接近 Gemini 2.5 Pro 与 Seed-VL1.5 thinking,处于开源模型领先水平
OCR 与版面理解在文档图像理解、图文对齐、表格识别等任务中表现突出,得益于高质量合成数据与自研 OCR 数据参与训练
数学与代码推理在 AIME、LiveCodeBench 等任务中,表现与 DeepSeek-R1-0528 相当,具备较强的通用推理能力
复杂文本推理在 GPQA 等需要深度知识推理的任务上仍有提升空间,是后续优化重点

注:当前性能评估基于公开基准与团队内部测试集。

小红书 hi lab 开源首个视觉-语言模型:dots.vlm1

数据策略:高质量、多样化、强对齐

数据是多模态模型性能的基石。dots.vlm1 的训练数据构建策略具有鲜明特色:

1. 跨模态互译数据

覆盖多种图像类型与对应文本描述,包括:

  • 图像 + 替代文本(Alt Text)
  • 图表 + 结构化标注(如 JSON 形式的数据说明)
  • 多语言文档图像 + OCR 标注结果
  • 视频帧 + 时间对齐字幕

这类数据强化了模型对“图像说了什么”的基本理解能力。

2. 跨模态融合数据

通过自研多模态系统生成更高阶的训练样本:

  • 利用强大 VLM 重写网页内容,将图文混排页面转化为结构化描述,提升图文语义对齐质量
  • 自研 OCR 工具解析 PDF 文档,生成带版面信息的图文对,用于训练模型理解文档布局
  • 引入遮挡训练(Masked Image Modeling 类似策略),让模型学会从局部推测整体

这些策略有效提升了模型在真实场景下的图文理解鲁棒性。

应用潜力与技术意义

dots.vlm1 不只是一个性能出色的模型,更代表了一种端到端、可扩展的多模态建模范式

  • 统一处理多种视觉输入:无论是自然图像、图表、文档截图还是界面截图,均可在同一框架下解析
  • 支持细粒度图文交互:可完成 grounding(指代表达)、密集描述、跨模态检索等任务
  • 轻量高效架构设计:视觉编码器仅12亿参数,配合高效训练策略,具备良好部署潜力

对于需要处理复杂图文内容的应用场景——如知识库构建、智能客服、自动化办公、教育辅助等——dots.vlm1 提供了一个兼具性能与灵活性的新选择。

未来方向

团队明确表示,dots.vlm1 是 dots 系列多模态演进的第一步。后续工作将聚焦于:

  • 进一步提升复杂推理能力,特别是在 GPQA、AIME-hard 等挑战性任务上
  • 增强视频理解能力,扩展至时序建模与动态内容解析
  • 推进模型轻量化与推理优化,支持边缘设备部署
  • 探索以 VLM 为核心的统一感知框架,整合检测、OCR、描述生成与语义理解

此外,解析文档中的图片内容(如图表语义提取)也将成为重点攻关方向。

© 版权声明

相关文章

暂无评论

none
暂无评论...