小马良 - SD百科 - 第74页

多模态大语言模型Groma：具备精细化和定位化的视觉感知能力

多模态大语言模型Groma：具备精细化和定位化的视觉感知能力

来自香港大学和字节跳动的研究人员推出多模态大语言模型Groma，它具备精细化和定位...

2024-04-22 432

微软亚洲研究院推出新框架VASA-1：基于一张静态图片和一个语音音频片段，实时生成逼真的会说话的面孔

微软亚洲研究院推出新框架VASA-1：基于一张静态图片和一个语音音频片段，实时生成逼真的会说话的面孔

微软亚洲研究院推出新框架VASA-1，它可以根据单张静态图像和语音音频片段，生成具...

2024-04-22 294

如何申请及使用Stable Diffusion 3 API

如何申请及使用Stable Diffusion 3 API

Stability AI在经历了人员变动后，其最新基于MMDiT架构的Stable Diffusion 3是否开...

2024-04-22 1.29k

AniClipart：根据文本提示将静态的剪贴画转换成动画

AniClipart：根据文本提示将静态的剪贴画转换成动画

香港城市大学和莫纳什大学的研究人员推出AniClipart，它能够根据文本提示将静态的...

2024-04-21 364

文生图模型新架构MoA：根据用户的个性化需求生成包含特定人物的图像，同时保持原有模型的风格和多样性

文生图模型新架构MoA：根据用户的个性化需求生成包含特定人物的图像，同时保持原有模型的风格和多样性

Snap推出新架构注意力混合（Mixture-of-Attention，简称MoA），即在个性化图像生成...

2024-04-21 662

动态排版Dynamic Typography：将文字通过动画效果生动呈现的技术

动态排版Dynamic Typography：将文字通过动画效果生动呈现的技术

来自香港科技大学和特拉维夫大学的研究人员推出Dynamic Typography（动态排版），...

2024-04-20 412

EdgeFusion：能够在资源受限的移动设备上快速生成与文本描述相匹配的高质量图像

EdgeFusion：能够在资源受限的移动设备上快速生成与文本描述相匹配的高质量图像

来自韩国Nota AI和三星电子的研究人员推出EdgeFusion，它能够在资源受限的移动设备...

2024-04-20 320

3D重建模型MeshLRM：基于LRM的方法，能够从极少量的输入图像（仅需四张）快速重建出高质量的3D网格模型

3D重建模型MeshLRM：基于LRM的方法，能够从极少量的输入图像（仅需四张）快速重建出高质量的3D网格模型

来自加州大学圣地亚哥分校和Adobe的研究人员推出大型3D重建模型MeshLRM，这是一...

2024-04-20 360

Stable Diffusion 3 API正式发布，还计划在不久的将来通过会员资格提供模型

Stable Diffusion 3 API正式发布，还计划在不久的将来通过会员资格提供模型

Stability AI宣布Stable Diffusion 3及其增强版Stable Diffusion 3 Turbo API已经...

2024-04-18 438

虚拟服装试穿Magic Clothing：根据特定的服装和文本提示来生成穿着这些服装的定制化角色图像

虚拟服装试穿Magic Clothing：根据特定的服装和文本提示来生成穿着这些服装的定制化角色图像

小i研究院发布了OOTDiffusion的分支版本Magic Clothing，它能够根据特定的服装和文...

2024-04-18 662

新型文本到音频生成模型Tango 2：提高音频生成的质量和与文本的匹配度

新型文本到音频生成模型Tango 2：提高音频生成的质量和与文本的匹配度

新加坡科技设计大学和密歇根大学的研究人员推出新型文本到音频生成模型Tango 2，它...

2024-04-17 368

高效且多功能的框架Ctrl-Adapter：在各种图像和视频生成模型中加入丰富的控制功能

高效且多功能的框架Ctrl-Adapter：在各种图像和视频生成模型中加入丰富的控制功能

北卡罗来纳大学教堂山分校的研究人员推出高效且多功能的框架CTRL-Adapter，它能够...

2024-04-17 594

升级VIP
全屏浏览
夜间模式
返回顶部