小马良 - SD百科 - 第10页

新型文本到图像生成系统NIRVANA：利用近似缓存技术，高效地服务基于扩散模型的文本到图像生成任务

新型文本到图像生成系统NIRVANA：利用近似缓存技术，高效地服务基于扩散模型的文本到图像生成任务

Adobe和伊利诺伊大学厄巴纳-香槟分校的研究人员介绍了一种名为NIRVANA的新型文本到...

2周前 54

华为诺亚方舟实验室推出多模态大语言模型ILLUME

华为诺亚方舟实验室推出多模态大语言模型ILLUME

华为诺亚方舟实验室发布多模态大语言模型ILLUME，旨在无缝集成图像和文本的理解与...

2周前 52

3DTrajMaster：专注于在视频生成中控制多实体的三维（3D）运动轨迹

3DTrajMaster：专注于在视频生成中控制多实体的三维（3D）运动轨迹

香港中文大学、快手科技和浙江大学的研究人员介绍了3DTrajMaster，一个用于多实体3...

2周前 48

MMAudio：基于多模态联合训练的同步音频生成系统

MMAudio：基于多模态联合训练的同步音频生成系统

近年来，多模态生成模型在图像、视频和文本等领域取得了显著进展，但将视觉和文本...

2周前 60

端到端的高质量ID一致性人类跳舞视频生成新框架StableAnimator

端到端的高质量ID一致性人类跳舞视频生成新框架StableAnimator

近年来，人像动画生成模型在图像和视频领域取得了显著进展，但它们在身份一致性（I...

2周前 54

MotionShop：用于视频扩散模型中的零样本（Zero-Shot）运动转移方法，通过混合分数引导（MSG）实现

MotionShop：用于视频扩散模型中的零样本（Zero-Shot）运动转移方法，通过混合分数引导（MSG）实现

近年来，扩散模型在图像和视频生成领域取得了显著进展，但在运动迁移任务中，如何...

2周前 52

视觉条件多视图扩散模型See3D：通过大规模互联网视频数据进行训练，从而实现开放世界的3D创作

视觉条件多视图扩散模型See3D：通过大规模互联网视频数据进行训练，从而实现开放世界的3D创作

近年来，3D生成模型在图像和视频领域取得了显著进展，但它们通常依赖于有限规模的3...

2周前 52

腾讯推出新型视频分词器Divot：统一视频的理解和生成

腾讯推出新型视频分词器Divot：统一视频的理解和生成

近年来，大语言模型（LLMs）在图像理解和生成方面取得了显著进展，尤其是在将图像...

2周前 56

PanoDreamer：从单一图像生成360°的3D全景场景

PanoDreamer：从单一图像生成360°的3D全景场景

德克萨斯 A&M 大学、Leia和马克斯普朗克信息学研究所的研究人员推出新型方法Pa...

2周前 52

多事件视频生成框架MinT：根据一系列文本提示和特定的时间戳生成具有精确时间控制的视频序列

多事件视频生成框架MinT：根据一系列文本提示和特定的时间戳生成具有精确时间控制的视频序列

Snap Research、多伦多大学和向量研究所的研究人员推出多事件视频生成框架MinT（Mi...

2周前 52

多代理协作框架GENMAC：实现复杂的文本到视频生成，特别是针对组合性文本提示的生成

多代理协作框架GENMAC：实现复杂的文本到视频生成，特别是针对组合性文本提示的生成

香港大学、清华大学和微软研究院的研究人员推出多代理协作框架GENMAC，旨在实现复...

2周前 56

图像编辑工具SwiftEdit：通过简单的文本提示实现快速的图像编辑

图像编辑工具SwiftEdit：通过简单的文本提示实现快速的图像编辑

VinAI 研究中心、越南科技大学邮电研究所的研究人员推出图像编辑工具SwiftEdit，它...

2周前 52

上一页
1
···
8
9
10
11
12
...
94
下一页
跳转

升级VIP
全屏浏览
夜间模式
返回顶部