小马良 - SD百科 - 第14页

FireFlow：用于快速反转和编辑图像语义内容，提高图像生成和编辑的效率和准确性

FireFlow：用于快速反转和编辑图像语义内容，提高图像生成和编辑的效率和准确性

尽管带有蒸馏的校正流（ReFlows）为快速采样提供了一种有前景的方法，但其...

2024-12-14 84

图像超分辨率技术InvSR：基于扩散反转（Diffusion Inversion）来提高图像的分辨率

图像超分辨率技术InvSR：基于扩散反转（Diffusion Inversion）来提高图像的分辨率

南洋理工大学（NTU）S-Lab提出了一种新的图像超分辨率（Super-Resolution, SR）技...

2024-12-14 82

多概念图像生成方法LoRACLR：在单一模型中合并多个特定概念（如人物、物体或艺术风格）并生成多概念图像

多概念图像生成方法LoRACLR：在单一模型中合并多个特定概念（如人物、物体或艺术风格）并生成多概念图像

近年来，文本到图像定制技术的进步使得个性化图像的高保真、内容丰富的生成成为可...

2024-12-14 64

人体图像动画生成DisPose：从参考图像和驱动视频中生成视频，同时保持人物外观的一致性，并允许对动画进行精确控制

人体图像动画生成DisPose：从参考图像和驱动视频中生成视频，同时保持人物外观的一致性，并允许对动画进行精确控制

可控的人体图像动画旨在使用驱动视频从参考图像生成视频。为了确保运动对齐，最近...

2024-12-14 76

OLA-VLM：提升多模态大语言模型中的视觉感知能力

OLA-VLM：提升多模态大语言模型中的视觉感知能力

开发当代多模态大语言模型（MLLMs）的标准做法是将视觉编码器的特征输入到大型语言...

2024-12-14 80

多模态大语言模型Lyra：专注于增强多模态能力，特别是高级长语音理解、声音理解、跨模态效率和无缝语音交互

多模态大语言模型Lyra：专注于增强多模态能力，特别是高级长语音理解、声音理解、跨模态效率和无缝语音交互

随着多模态大语言模型（MLLMs）的发展，扩展到单一领域之外的能力对于满足更通用和...

2024-12-14 74

文生图模型SnapGen：能够在移动平台上生成高分辨率和高品质的图像

文生图模型SnapGen：能够在移动平台上生成高分辨率和高品质的图像

现有的文本到图像（T2I）扩散模型虽然在生成高质量图像方面表现出色，但面临着几个...

2024-12-14 82

Neural LightRig：从单张图片中准确估计物体的表面法线（normals）和物理基础渲染（PBR）材料

Neural LightRig：从单张图片中准确估计物体的表面法线（normals）和物理基础渲染（PBR）材料

香港中文大学、上海AI实验室和南洋理工大学的研究人员推出新型框架Neural LightRig...

2024-12-14 76

新型插件式适应方法EasyRef：允许扩散模型根据多个参考图像和文本提示进行条件生成

新型插件式适应方法EasyRef：允许扩散模型根据多个参考图像和文本提示进行条件生成

在个性化生成任务中，扩散模型（Diffusion Models）已经取得了显著的成就。传统的...

2024-12-14 68

综合多模态系统InternLM-XComposer2.5-OmniLive (浦语·灵笔 2.5 OmniLive)：实现实时视频和音频交互

综合多模态系统InternLM-XComposer2.5-OmniLive (浦语·灵笔 2.5 OmniLive)：实现实时视频和音频交互

创建能够像人类认知一样长时间与环境互动的AI系统一直是人工智能领域的长期研究目...

2024-12-14 68

FLUX.1 Tools 系列模型FP8量化版本，适合小显存用户使用

FLUX.1 Tools 系列模型FP8量化版本，适合小显存用户使用

黑森林实验室（Black Forest Labs）在上个月发布了 FLUX.1 Tools 系列开源模型，旨...

2024-12-13 72

Track4Gen：用于视频生成的空间感知视频生成器

Track4Gen：用于视频生成的空间感知视频生成器

Adobe 研究中心、韩国科学技术院和伦敦大学学院的研究人员推出Track4Gen，这是一...

2024-12-13 78

升级VIP
全屏浏览
夜间模式
返回顶部