黑森林实验室(Black Forest Labs)在上个月发布了 FLUX.1 Tools 系列开源模型,旨...
9小时前 2

可控人物图像生成的目标是根据参考图像生成高质量的人物图像,同时允许对人物的外...
10小时前 4

微信 AI 模式识别中心推出视觉语言模型POINTS1.5系列,旨在提升对真实世界应用的处...
11小时前 6

故事可视化,即将文本描述转化为视觉叙事的任务,近年来随着文本到图像生成模型的...
13小时前 4

文本到视频(T2V)生成模型近年来取得了显著进展,能够生成高质量的合成视频。然而...
4天前 30

InternVL 2.5 是由上海人工智能实验室、商汤科技研究院、清华大学、南京大学、复旦...
4天前 26

在当今的音频环境中,清晰沟通面临诸多挑战。背景噪音、重叠对话以及音频和视频信...
4天前 36

shou_xin是ComfyUI工作流大神Datou根据小红书上的画家手訫(shou xin)的铅笔速写作...
5天前 46

Moondream 是一款高效的开源视觉语言模型(VLM),它将强大的图像理解能力与极小的...
6天前 40

萨里大学和NetMind.AI的研究人员提出了NitroFusion,这是一种根本不同的单步扩散方...
7天前 40

字节跳动的研究团队提出了TokenFlow,这是一种新颖的统一图像标记器,旨在弥合多模...
7天前 36

加州大学洛杉矶分校、松下AI研究院和Salesforce AI研究院的研究人员共同提出了Omni...
7天前 34
没有账号?注册  忘记密码?