近年来,多模态生成模型在图像、视频和文本等领域取得了显著进展,但将视觉和文本...
2周前 52
文本到视频(T2V)生成模型近年来取得了显著进展,能够生成高质量的合成视频。然而...
2周前 54
InternVL 2.5 是由上海人工智能实验室、商汤科技研究院、清华大学、南京大学、复旦...
2周前 48
在当今的音频环境中,清晰沟通面临诸多挑战。背景噪音、重叠对话以及音频和视频信...
2周前 56
shou_xin是ComfyUI工作流大神Datou根据小红书上的画家手訫(shou xin)的铅笔速写作...
2周前 60
Moondream 是一款高效的开源视觉语言模型(VLM),它将强大的图像理解能力与极小的...
2周前 58
萨里大学和NetMind.AI的研究人员提出了NitroFusion,这是一种根本不同的单步扩散方...
2周前 52
字节跳动的研究团队提出了TokenFlow,这是一种新颖的统一图像标记器,旨在弥合多模...
2周前 50
加州大学洛杉矶分校、松下AI研究院和Salesforce AI研究院的研究人员共同提出了Omni...
2周前 44
马里兰大学和微软研究院的研究团队共同提出了Florence-VL,这是一个全新的多模态大...
2周前 42
清华大学、中国科学技术大学和微软研究院的研究团队联合提出了一种名为TRELLIS的新...
2周前 48
今年5月,谷歌推出了 PaliGemma,这是 Gemma 家族中的第一个视觉语言模型,旨在使...
2周前 48