小马良 - SD百科 - 第30页

开源应用 X-to-Voice：通过分析 X个人资料生成自定义的声音和动画头像

开源应用 X-to-Voice：通过分析 X个人资料生成自定义的声音和动画头像

ElevenLabs发布了一个开源应用 X-to-Voice，该应用使用新的语音设计 API 构建，允...

2024-11-02 176

Claude新功能Computer Use的开源平替方案大合集

Claude新功能Computer Use的开源平替方案大合集

Anthropic在近期升级了Claude 3.5 Sonnet 和推出新模型 Claude 3.5 Haiku，不过最...

2024-11-02 209

Unpacking SDXL Turbo: 使用稀疏自编码器来解释和理解文本到图像模型，特别是SDXL Turbo模型的内部工作机制

Unpacking SDXL Turbo: 使用稀疏自编码器来解释和理解文本到图像模型，特别是SDXL Turbo模型的内部工作机制

稀疏自编码器（SAEs）已成为逆向工程大语言模型（LLMs）的核心组成部分。SAEs通过...

2024-11-02 122

高容量真实世界图像恢复模型DreamClear：结合隐私安全的数据处理流程（GenIR）和DiT技术，以实现对低质量图像的高质量恢复

高容量真实世界图像恢复模型DreamClear：结合隐私安全的数据处理流程（GenIR）和DiT技术，以实现对低质量图像的高质量恢复

现实世界中的图像恢复（IR）面临着显著的挑战，主要是缺乏高容量模型和全面的数据...

2024-11-01 130

新型文本到图像生成技术GrounDiT：利用DiT实现了无需训练的空间定位能力，实现更精细的用户控制

新型文本到图像生成技术GrounDiT：利用DiT实现了无需训练的空间定位能力，实现更精细的用户控制

韩国科学技术研究院推出新型文本到图像生成技术GrounDiT（GROUNDIT），它通过利用D...

2024-11-01 122

新型视频分词器LARP：专为自回归（AR）生成模型设计，用于提高视频生成任务的性能

新型视频分词器LARP：专为自回归（AR）生成模型设计，用于提高视频生成任务的性能

马里兰大学学院公园分校的研究人员提出了一种名为LARP（Latent Aggregation and Re...

2024-11-01 136

新型视频生成模型家族MarDini：通过将掩码自回归（MAR）技术与扩散模型（DM）相结合，开创了一种高效的视频生成方法

新型视频生成模型家族MarDini：通过将掩码自回归（MAR）技术与扩散模型（DM）相结合，开创了一种高效的视频生成方法

Meta AI与阿卜杜拉国王科技大学的研究人员推出了一种新型视频生成模型家族——MarDin...

2024-11-01 130

ReferEverything：专为视频中通过自然语言描述的概念进行分割而设计

ReferEverything：专为视频中通过自然语言描述的概念进行分割而设计

来自卡内基梅隆大学、伊利诺伊大学香槟分校和丰田研究所的研究者们共同提出了一种...

2024-11-01 124

用于长视频生成的双速学习系统SLOWFAST-VGEN：模仿了人类大脑中慢速学习和快速学习相结合的互补学习系统

用于长视频生成的双速学习系统SLOWFAST-VGEN：模仿了人类大脑中慢速学习和快速学习相结合的互补学习系统

人类拥有一个独特的学习系统，它既能从普遍的世界规律中缓慢学习，也能迅速地将新...

2024-11-01 116

神秘图像生成模型“red_panda”揭晓，来自AI设计平台Recraft，官方正式版本为Recraft V3

神秘图像生成模型“red_panda”揭晓，来自AI设计平台Recraft，官方正式版本为Recraft V3

之前给大家介绍了神秘图像生成模型“red_panda”，其在Artificial Analysis 图像模型...

2024-10-31 224

用于视觉配音的先进框架PersonaTalk：实现高保真和个性化的视觉配音

用于视觉配音的先进框架PersonaTalk：实现高保真和个性化的视觉配音

在音频驱动的视觉配音中，合成准确的口型同步同时保持和突出说话者的“个性”是一个...

2024-10-29 154

无需训练的新策略FasterCache：加速高质量视频生成的视频生成模型的推理

无需训练的新策略FasterCache：加速高质量视频生成的视频生成模型的推理

视频生成是当前 AI 领域的一个热点研究方向，特别是基于扩散模型的方法。然而，这...

2024-10-29 144

升级VIP
全屏浏览
夜间模式
返回顶部