小马良 - SD百科 - 第7页

Meta开源的人体动作生成模型Meta Motivo：生成符合物理规律的复杂的全身动作

Meta开源的人体动作生成模型Meta Motivo：生成符合物理规律的复杂的全身动作

Meta Motivo 是一个创新的行为基础模型，旨在通过一种新的无监督强化学习（RL）算...

2周前 56

深度求索推出开源视觉模型DeepSeek-VL2 ：支持动态分辨率、处理科研图表、解析各种梗图等

深度求索推出开源视觉模型DeepSeek-VL2 ：支持动态分辨率、处理科研图表、解析各种梗图等

DeepSeek-VL2 是由深度求索（DeepSeek-AI）推出的一系列先进混合专家（MoE, Mixtur...

2周前 46

Sber AI 推出新一代多模态生成模型Kandinsky 4.0：包含3个视频生成模型（T2V、T2V Flash、I2V）和一个视频生成音频模型（V2A）

Sber AI 推出新一代多模态生成模型Kandinsky 4.0：包含3个视频生成模型（T2V、T2V Flash、I2V）和一个视频生成音频模型（V2A）

去年，在 AI Journey 2023 大会上，Sber AI 推出了两款引人注目的模型：用于图像生...

2周前 84

FireFlow：用于快速反转和编辑图像语义内容，提高图像生成和编辑的效率和准确性

FireFlow：用于快速反转和编辑图像语义内容，提高图像生成和编辑的效率和准确性

尽管带有蒸馏的校正流（ReFlows）为快速采样提供了一种有前景的方法，但其...

2周前 66

图像超分辨率技术InvSR：基于扩散反转（Diffusion Inversion）来提高图像的分辨率

图像超分辨率技术InvSR：基于扩散反转（Diffusion Inversion）来提高图像的分辨率

南洋理工大学（NTU）S-Lab提出了一种新的图像超分辨率（Super-Resolution, SR）技...

2周前 62

多概念图像生成方法LoRACLR：在单一模型中合并多个特定概念（如人物、物体或艺术风格）并生成多概念图像

多概念图像生成方法LoRACLR：在单一模型中合并多个特定概念（如人物、物体或艺术风格）并生成多概念图像

近年来，文本到图像定制技术的进步使得个性化图像的高保真、内容丰富的生成成为可...

2周前 52

人体图像动画生成DisPose：从参考图像和驱动视频中生成视频，同时保持人物外观的一致性，并允许对动画进行精确控制

人体图像动画生成DisPose：从参考图像和驱动视频中生成视频，同时保持人物外观的一致性，并允许对动画进行精确控制

可控的人体图像动画旨在使用驱动视频从参考图像生成视频。为了确保运动对齐，最近...

2周前 52

OLA-VLM：提升多模态大语言模型中的视觉感知能力

OLA-VLM：提升多模态大语言模型中的视觉感知能力

开发当代多模态大语言模型（MLLMs）的标准做法是将视觉编码器的特征输入到大型语言...

2周前 58

多模态大语言模型Lyra：专注于增强多模态能力，特别是高级长语音理解、声音理解、跨模态效率和无缝语音交互

多模态大语言模型Lyra：专注于增强多模态能力，特别是高级长语音理解、声音理解、跨模态效率和无缝语音交互

随着多模态大语言模型（MLLMs）的发展，扩展到单一领域之外的能力对于满足更通用和...

2周前 52

文生图模型SnapGen：能够在移动平台上生成高分辨率和高品质的图像

文生图模型SnapGen：能够在移动平台上生成高分辨率和高品质的图像

现有的文本到图像（T2I）扩散模型虽然在生成高质量图像方面表现出色，但面临着几个...

2周前 58

Neural LightRig：从单张图片中准确估计物体的表面法线（normals）和物理基础渲染（PBR）材料

Neural LightRig：从单张图片中准确估计物体的表面法线（normals）和物理基础渲染（PBR）材料

香港中文大学、上海AI实验室和南洋理工大学的研究人员推出新型框架Neural LightRig...

2周前 62

新型插件式适应方法EasyRef：允许扩散模型根据多个参考图像和文本提示进行条件生成

新型插件式适应方法EasyRef：允许扩散模型根据多个参考图像和文本提示进行条件生成

在个性化生成任务中，扩散模型（Diffusion Models）已经取得了显著的成就。传统的...

2周前 52

上一页
1
···
5
6
7
8
9
...
94
下一页
跳转

升级VIP
全屏浏览
夜间模式
返回顶部