视频多模态大语言模型

阿里达摩院、湖畔实验室和浙江大学的研究人员推出视频多模态大语言模型RynnEC，专为具身认知任务设计。它通过结合区域编码器和掩码解码器，能够灵活地处理视频中的区域级交互，从而为具身代理提供对物理世界的...

8个月前

01100