小马良 - SD百科 - 第17页

可控人类图像生成的新框架BootComp：特别适用于包含多个参考服装的情况

可控人类图像生成的新框架BootComp：特别适用于包含多个参考服装的情况

韩国科学技术研究院和OMNIOUS.AI的研究人员提出了BootComp——一种用于可控人类图像...

4周前 76

基于扩散模型的人类视频生成框架AnchorCrafter：用于创建高保真度的主播风格产品推广视频。

基于扩散模型的人类视频生成框架AnchorCrafter：用于创建高保真度的主播风格产品推广视频。

自动生成锚点风格的产品推广视频在在线商务、广告和消费者互动中展现出巨大的潜力...

4周前 50

视觉-语言模型FINECAPTION：专注于在任意位置和任意粒度级别上进行组合式图像描述

视觉-语言模型FINECAPTION：专注于在任意位置和任意粒度级别上进行组合式图像描述

随着大型视觉语言模型（VLMs）的出现，多模态任务的发展取得了显著进展。这些模型...

4周前 54

语言驱动的顺序草图生成方法SketchAgent：让用户通过动态、对话式的交互来创建、修改和细化草图

语言驱动的顺序草图生成方法SketchAgent：让用户通过动态、对话式的交互来创建、修改和细化草图

MIT和斯坦福大学的研究人员推出一种语言驱动的顺序草图生成方法SketchAgent，能够...

4周前 54

ConsisID：无调优可控的身份保持文本到视频生成

ConsisID：无调优可控的身份保持文本到视频生成

身份保持的文本到视频（IPT2V）生成旨在创建具有一致人类身份的高保真视频，这是视...

4周前 48

用于保护个人肖像图像免受恶意生成编辑的新技术FaceLock

用于保护个人肖像图像免受恶意生成编辑的新技术FaceLock

随着扩散模型的迅速发展，生成图像编辑变得更加普及，这不仅促进了创意表达，也引...

4周前 54

图像修复模型ABAIR：在从受到未知退化影响的输入图像中恢复出高质量的图像

图像修复模型ABAIR：在从受到未知退化影响的输入图像中恢复出高质量的图像

在图像处理领域，盲目的全功能图像恢复（Blind All-in-One Image Restoration, BAI...

4周前 50

Omegance：用于控制基于扩散模型合成中细节粒度（granularity）的单一参数方法

Omegance：用于控制基于扩散模型合成中细节粒度（granularity）的单一参数方法

南洋理工大学额研究人员推出Omegance，它是一种用于控制基于扩散模型合成中细节粒...

4周前 46

视频引导音效生成模型MultiFoley：根据多种模态的控制信号（包括文本、音频和视频）来生成与视频同步的声音效果

视频引导音效生成模型MultiFoley：根据多种模态的控制信号（包括文本、音频和视频）来生成与视频同步的声音效果

在影视制作、游戏开发和多媒体内容创作中，为视频添加恰当的音效是提升观众体验的...

4周前 52

多模态大语言模型ChatRex：提升对人类姿态的感知和理解能力

多模态大语言模型ChatRex：提升对人类姿态的感知和理解能力

IDEA的研究人员推出多模态大语言模型ChatRex，它旨在提升对人类姿态的感知和理解能...

4周前 54

统一多模态框架UniPose：用于理解、生成和编辑人体姿态

统一多模态框架UniPose：用于理解、生成和编辑人体姿态

中国科学院计算技术研究所和中国科学院大学的研究人员推出统一多模态框架UniPose，...

4周前 50

个性化图像生成的高效、轻量级框架DreamCache：在不需要额外微调的情况下，通过特征缓存实现快速的个性化图像生成

个性化图像生成的高效、轻量级框架DreamCache：在不需要额外微调的情况下，通过特征缓存实现快速的个性化图像生成

在数字内容创作日益丰富的今天，个性化图像生成技术正逐渐成为各行业创新的关键。...

4周前 48

升级VIP
全屏浏览
夜间模式
返回顶部