最新发布 - SD百科 - 第4页

视频修复模型SeedVR：处理任意长度和分辨率的真实世界视频修复任务

视频修复模型SeedVR：处理任意长度和分辨率的真实世界视频修复任务

南洋理工大学和字节跳动的研究团队提出了 SeedVR，旨在解决通用视频恢复（video re...

1周前 78

华中科技大学推出VA-VAE和LightningDiT框架：在不牺牲重建质量的前提下，显著提升生成性能

华中科技大学推出VA-VAE和LightningDiT框架：在不牺牲重建质量的前提下，显著提升生成性能

华中科技大学的研究团队聚焦于潜在扩散模型（latent diffusion models）中的优化困...

1周前 54

VideoRefer Suite：提升视频大语言模型对视频中时空对象的理解能力

VideoRefer Suite：提升视频大语言模型对视频中时空对象的理解能力

由浙江大学和阿里巴巴达摩院的研究团队提出了VideoRefer Suite，旨在提升视频...

1周前 52

零样本视频对象插入框架VideoAnydoor：能够在视频中高精度地插入给定对象，并且允许用户精确控制对象的运动

零样本视频对象插入框架VideoAnydoor：能够在视频中高精度地插入给定对象，并且允许用户精确控制对象的运动

由香港大学和阿里巴巴达摩院等机构的研究团队推出零样本视频对象插入框架VideoAnyd...

1周前 50

ComfyUI Loop Image：专注于图像循环处理的节点包

ComfyUI Loop Image：专注于图像循环处理的节点包

ComfyUI Loop Image 是一个专注于图像循环处理的节点包，提供了两种主要的循环处理...

2周前 50

Etch A Sketcher：重现 Etch A Sketch 玩具的外观及其独特的线描风格的Flux Lora

Etch A Sketcher：重现 Etch A Sketch 玩具的外观及其独特的线描风格的Flux Lora

Etch A Sketcher是一款国外经典艺术玩具Etch A Sketcher（蚀刻素描）的Flux Lora，...

2周前 50

Stability AI 推出一种基于大规模 Transformer 架构的新型音频编码模型TAAE

Stability AI 推出一种基于大规模 Transformer 架构的新型音频编码模型TAAE

在语音处理领域，标记化（tokenization）是生成或理解语音的关键步骤。传统的语音...

2周前 56

基于 RAG 的开源工具kotaemon：让用户能够轻松与文档进行对话

基于 RAG 的开源工具kotaemon：让用户能够轻松与文档进行对话

kotaemon 是一个开源的、简洁且高度可定制的 RAG 用户界面，旨在让终端用户和开发...

2周前 52

Comfy Org团队开始着手改善节点安装与安全问题，推出全新的节点注册系统

Comfy Org团队开始着手改善节点安装与安全问题，推出全新的节点注册系统

去年Comfy遭遇到几次安全问题，尤其是Ultralytics被植入挖矿病毒事件，Comfy Org团...

2周前 114

ComfyUI-LatentSyncWrapper：基于字节跳动唇音同步框架LatentSync的非官方ComfyUI节点

ComfyUI-LatentSyncWrapper：基于字节跳动唇音同步框架LatentSync的非官方ComfyUI节点

ComfyUI-LatentSyncWrapper是专门为ComfyUI设计的非官方节点，基于字节跳动的Laten...

2周前 221

端到端唇音同步框架LatentSync：可以分析新的音频信号，并生成与音频同步的口型

端到端唇音同步框架LatentSync：可以分析新的音频信号，并生成与音频同步的口型

字节跳动与北京交通大学的研究团队共同提出了一种名为LatentSync的新方法，旨在解...

2周前 80

虚拟脱衣TryOffAnyone：从穿着服装的人身上生成高保真平铺服装图像

虚拟脱衣TryOffAnyone：从穿着服装的人身上生成高保真平铺服装图像

多伦多大学和帕特雷大学的研究人员推出TryOffAnyone，这是一个从穿着服装的人身上...

2周前 99

升级VIP
全屏浏览
夜间模式
返回顶部