视频多模态大语言模型RynnEC:专为具身认知任务设计阿里达摩院、湖畔实验室和浙江大学的研究人员推出视频多模态大语言模型RynnEC,专为具身认知任务设计。它通过结合区域编码器和掩码解码器,能够灵活地处理视频中的区域级交互,从而为具身代理提供对物理世界的...多模态模型# RynnEC# 视频多模态大语言模型4个月前0870