图像超分辨率技术InvSR:基于扩散反转(Diffusion Inversion)来提高图像的分辨率
南洋理工大学(NTU)S-Lab提出了一种新的图像超分辨率(Super-Resolution, SR)技...
人体图像动画生成DisPose:从参考图像和驱动视频中生成视频,同时保持人物外观的一致性,并允许对动画进行精确控制
可控的人体图像动画旨在使用驱动视频从参考图像生成视频。为了确保运动对齐,最近...
多模态大语言模型Lyra:专注于增强多模态能力,特别是高级长语音理解、声音理解、跨模态效率和无缝语音交互
随着多模态大语言模型(MLLMs)的发展,扩展到单一领域之外的能力对于满足更通用和...
Neural LightRig:从单张图片中准确估计物体的表面法线(normals)和物理基础渲染(PBR)材料
香港中文大学、上海AI实验室和南洋理工大学的研究人员推出新型框架Neural LightRig...
综合多模态系统InternLM-XComposer2.5-OmniLive (浦语·灵笔 2.5 OmniLive):实现实时视频和音频交互
创建能够像人类认知一样长时间与环境互动的AI系统一直是人工智能领域的长期研究目...