小马良 - SD百科 - 第38页

阿里国际推出多模态大语言模型 Ovis1.6-Gemma2-9B：能够同时处理和理解文本和视觉信息

阿里国际推出多模态大语言模型 Ovis1.6-Gemma2-9B：能够同时处理和理解文本和视觉信息

Ovis1.6-Gemma2-9B是阿里国际推出的一款多模态大语言模型，Ovis是一种新颖的多模...

2024-10-12 258

图像编辑新方法DICE：用于改进离散扩散模型在可控编辑任务中的性能

图像编辑新方法DICE：用于改进离散扩散模型在可控编辑任务中的性能

罗格斯大学、麻省理工学院-IBM Watson AI 实验室、谷歌 DeepMind、NEC 美国实验室...

2024-10-12 258

FSC-CLIP：提升预训练视觉和语言模型（VLMs）在理解图像和文字组合任务上的能力，同时保持在多模态任务上的性能

FSC-CLIP：提升预训练视觉和语言模型（VLMs）在理解图像和文字组合任务上的能力，同时保持在多模态任务上的性能

韩国科学技术院、世宗大学和汉阳大学的研究人员推出FSC-CLIP，提升预训练视觉和语...

2024-10-12 220

矩形扩散Rectified Diffusion：提高扩散模型的生成速度

矩形扩散Rectified Diffusion：提高扩散模型的生成速度

香港中文大学、北京大学和普林斯顿大学的研究人员推出Rectified Diffusion，它用于...

2024-10-12 308

长视频生成新方法PA-VDM：现有的模型可以自然地扩展为自回归视频扩散模型，而无需改变架构

长视频生成新方法PA-VDM：现有的模型可以自然地扩展为自回归视频扩散模型，而无需改变架构

石溪大学和Adobe 研究中心的研究人员推出长视频生成新方法PA-VDM，它能够生成高...

2024-10-12 264

基于Transformer架构的新型图像生成模型DART：根据文本描述生成高质量的图像

基于Transformer架构的新型图像生成模型DART：根据文本描述生成高质量的图像

苹果和香港中文大学的研究人员推出新型图像生成模型DART，这个模型的目标是让计算...

2024-10-12 240

新型多模态原生模型Aria：专门设计来处理和理解多种类型的信息（文本、代码、图像和视频）

新型多模态原生模型Aria：专门设计来处理和理解多种类型的信息（文本、代码、图像和视频）

Rhymes AI推出新型多模态原生模型Aria，这是一个开源的混合专家（MoE）模型，ARIA...

2024-10-11 232

用于长篇故事视觉化的迭代框架Story-Adapter：根据长篇故事的文字描述生成一系列既连贯又具有丰富细节的图像

用于长篇故事视觉化的迭代框架Story-Adapter：根据长篇故事的文字描述生成一系列既连贯又具有丰富细节的图像

加州大学圣克鲁斯分校、杭州电子科技大学和新加坡理工学院的研究人员推出一个用于...

2024-10-11 412

BroadWay：提升文生视频模型的质量，而且不需要额外的训练

BroadWay：提升文生视频模型的质量，而且不需要额外的训练

上海交通大学、中国科学技术大学、香港中文大学和上海人工智能实验室的研究人员推...

2024-10-11 384

IterComp：为了解决文本到图像生成中的复杂和组合问题而设计的新框架

IterComp：为了解决文本到图像生成中的复杂和组合问题而设计的新框架

清华大学、北京大学、LibAI Lab、中国科学技术大学、牛津大学和普林斯顿大学的研究...

2024-10-11 258

新型视频生成模型Pyramidal Flow：提高视频生成的效率，同时保持生成视频的高质量

新型视频生成模型Pyramidal Flow：提高视频生成的效率，同时保持生成视频的高质量

北京大学、快手科技和北京邮电大学的研究人员推出新型视频生成模型Pyramidal Flow...

2024-10-11 206

视频插值方法ViBiDSampler：专门用于在两个关键帧之间生成平滑且逼真的中间帧，从而创建流畅的视频过渡效果

视频插值方法ViBiDSampler：专门用于在两个关键帧之间生成平滑且逼真的中间帧，从而创建流畅的视频过渡效果

韩国科学技术研究院推出视频插值方法ViBiDSampler，这种方法专门用于在两个关键帧...

2024-10-11 204

升级VIP
全屏浏览
夜间模式
返回顶部