Google DeepMind 发布设备端 Gemini 机器人模型:离线运行也能拥有旗舰级能力

早报6个月前发布 小马良
183 0

Google DeepMind 宣布推出其旗舰 AI 模型 Gemini Robotics 的设备端版本,这一视觉-语言-动作(VLA)模型可以在没有互联网连接的情况下直接在机器人上运行,并展现出接近云端旗舰版的性能表现。

这项更新标志着 AI 驱动的机器人系统正在向边缘计算迈进,未来将更适用于对网络依赖度低、安全性要求高的实际场景。(来源

设备端 Gemini 模型有何不同?

此前发布的 Gemini Robotics 混合模型 是一个结合云端与本地推理的解决方案,具备广泛的物理任务处理能力,包括:

  • 理解并响应人类指令
  • 执行精细操作任务(如抓取、旋转物体)
  • 在未经过专门训练的情况下适应新情境

而这次推出的 设备端版本,则是一个轻量级但功能完整的替代方案:

  • 可完全离线运行,无需依赖云端
  • 拥有与旗舰模型相似的任务理解和执行能力
  • 更适合部署于资源受限或网络不稳定的环境

“我们原本以为设备端模型会牺牲很多性能,但它的表现让我们非常惊讶。”Google DeepMind 机器人部门负责人 Carolina Parada 表示。

小模型也有大能量:仅需几十次演示即可适应新任务

尽管是设备端版本,该模型依然具备强大的泛化能力。Parada 表示,它可以在仅需 50 到 100 次演示的情况下,快速适应新的任务场景。

虽然该模型最初只在 Google 自研的 ALOHA 机器人 上进行训练,但谷歌已经成功将其适配到多种机器人平台,包括:

  • Apptronik 公司的人形机器人 Apollo
  • 双臂协作机器人 Franka FR3

这意味着 Gemini 的应用边界正在快速扩展,未来有望支持更多类型的机器人平台。

SDK 首次开放:开发者也能微调 VLA 模型

为了加速模型的落地应用,Google 同步发布了针对设备端 Gemini 的 软件开发工具包(SDK),允许开发者:

  • 对模型进行评估
  • 进行任务定制与微调
  • 构建特定场景下的机器人应用

这是 Google DeepMind 首次为 VLA 类模型提供如此开放的开发接口,也意味着其正逐步推动 AI + 机器人走向开源社区与开发者生态。

适用场景展望:从工厂到敏感区域都值得期待

由于设备端模型具备本地化部署、低延迟响应和数据隐私保护等优势,它非常适合以下场景:

  • 制造业自动化:用于装配、检测等需要实时反馈的任务;
  • 医疗机器人:在高安全要求环境下减少对外网依赖;
  • 远程作业:如矿山、极地科考站等网络不稳定地区;
  • 服务机器人:家庭、酒店、零售场景中的自主交互与操作。

Parada 也表示:“虽然混合模型仍然更强,但我们相信这个设备端版本可以作为入门模型,甚至成为某些领域的主力。”

下一步:持续优化安全性与可用性

目前,设备端 Gemini 模型及其 SDK 已向一组受信任的测试者开放。Google 正在积极评估其在真实世界中的表现,并努力降低潜在的安全风险。

未来,随着更多合作伙伴和开发者的加入,这款轻量级 AI 模型或将推动机器人行业迈向一个新的发展阶段。

© 版权声明

相关文章

暂无评论

none
暂无评论...