华中科技大学推出VA-VAE和LightningDiT框架:在不牺牲重建质量的前提下,显著提升生成性能
华中科技大学的研究团队聚焦于潜在扩散模型(latent diffusion models)中的优化困...
零样本视频对象插入框架VideoAnydoor:能够在视频中高精度地插入给定对象,并且允许用户精确控制对象的运动
由香港大学和阿里巴巴达摩院等机构的研究团队推出零样本视频对象插入框架VideoAnyd...
Etch A Sketcher:重现 Etch A Sketch 玩具的外观及其独特的线描风格的Flux Lora
Etch A Sketcher是一款国外经典艺术玩具Etch A Sketcher(蚀刻素描)的Flux Lora,...
Stability AI 推出一种基于大规模 Transformer 架构的新型音频编码模型TAAE
在语音处理领域,标记化(tokenization)是生成或理解语音的关键步骤。传统的语音...
ComfyUI-LatentSyncWrapper:基于字节跳动唇音同步框架LatentSync的非官方ComfyUI节点
ComfyUI-LatentSyncWrapper是专门为ComfyUI设计的非官方节点,基于字节跳动的Laten...