基于多模态token的新型基础模型MIO:能够以端到端、自回归的方式理解和生成语音、文本、图像和视频 北京航空航天大学、01.AI、香港理工大学、AIWaves、阿尔伯塔大学、滑铁卢大学、曼彻斯特大学、中国科学院自动化研究所、北京大学和香港科技大学的研究人员推出一个基于多模态token的新型基础模型M... 新技术# MIO# 多模态 5个月前03620
FSC-CLIP:提升预训练视觉和语言模型(VLMs)在理解图像和文字组合任务上的能力,同时保持在多模态任务上的性能 韩国科学技术院、世宗大学和汉阳大学的研究人员推出FSC-CLIP,提升预训练视觉和语言模型(VLMs)在理解图像和文字组合任务上的能力,同时保持在多模态任务上的性能。简单来说,就是让计算机能够更好地理... 新技术# FSC-CLIP# 多模态 4个月前02770
统一多模态框架UniPose:用于理解、生成和编辑人体姿态 中国科学院计算技术研究所和中国科学院大学的研究人员推出统一多模态框架UniPose,它用于理解、生成和编辑人体姿态。UniPose利用大语言模型(LLMs)来处理包括图像、文本和3D SMPL姿态在内... 新技术# UniPose# 人体姿态# 多模态 3个月前01000