北邮、浙大等团队联合提出视觉-语言-动作模型 VLA-Adapter：用轻量桥接实现高效机器人控制

373 0

在当前机器人智能领域，视觉-语言-动作（Vision-Language-Action, VLA）模型正成为连接感知与行为的核心技术。这类模型能让机器人“听懂指令”、“看懂场景”，并自主执行任务，例如：“把桌上的黑色碗放到盘子里”。

然而，现有方法普遍依赖大规模视觉语言模型（如 7B 参数的 OpenVLA），且需在大量机器人数据上预训练，导致部署成本高、训练周期长、难以普及。

为此，北京邮电大学、浙江大学、西湖大学、OpenHelix 团队、网络与交换技术国家重点实验室以及香港科技大学（广州）的研究人员联合提出 VLA-Adapter ——一种新型轻量级 VLA 架构，旨在以更低的成本实现高性能动作生成。

项目主页：https://vla-adapter.github.io
模型：https://huggingface.co/collections/VLA-Adapter/vla-adapter-models-68b3fcb2e6c790f9821aff7d

其核心思想是：不重训大模型，而是通过一个小型适配模块，将已有视觉语言能力高效转化为机器人动作。

当前主流 VLA 模型通常采用“全参数微调”方式，在数百万机器人交互数据上对大型 VLM 进行端到端训练。虽然性能不错，但存在三大瓶颈：

更关键的是：是否必须用 7B 的模型才能完成一个“拿碗放盘”的任务？

研究人员发现：真正影响动作生成的，并非整个大模型，而是其中特定层次的多模态特征。

于是，他们提出了一个反向思路：冻结主干模型，只训练一个小而高效的“桥接模块”。

这就是 VLA-Adapter 的出发点。

VLA-Adapter 不修改或重训底层视觉语言模型（VLM），而是引入两个新组件：

两者通过 桥接注意力机制（Bridge Attention） 实现跨层交互。

输入处理：
- 视觉输入：第三视角图像 + 夹爪图像
- 语言输入：自然语言指令（如“拿起红色积木”）
特征提取：
- 使用 DINOv2 / SigLIP 提取图像嵌入
- 使用 Qwen2.5-0.5B 等小型 VLM 编码图文信息
桥接注意力机制：
- 将 VLM 各层的原始特征与动作查询同时注入 Policy 网络
- 动作查询通过自注意力聚合全局语义
- 原始特征通过可控注入方式参与决策（防止干扰）
动作输出：
- Policy 网络解码出连续动作向量（如机械臂位姿、夹爪开合）
- 控制机器人完成任务

✅ 整个过程中，主干 VLM 完全冻结，仅训练 Adapter 模块。

研究团队通过系统实验回答了多个关键问题，得出以下重要发现：

问题	关键发现
哪一层特征最有用？	中层视觉特征保留更多细节，更适合动作生成；深层偏向语义抽象，作用有限
动作查询 vs 原始特征？	动作查询表现更好，尤其在使用多层时提升显著（+2.0% 成功率）
需要多少动作查询？	64 个为最优平衡点：太少则信息不足，太多则冗余干扰
如何融合多层特征？	使用所有层优于单一选择，既提升性能又省去调参成本
是否需要调节注入强度？	是。原始特征需控制注入程度，动作查询可直接完全注入