加速DiT架构视频生成模型的开源技术栈FastVideo:已推出FastHunyuan和FastMochi 两款模型,生成速度提升8倍
加州大学圣地亚哥分校 Hao AI 实验室推出的一个开源技术栈FastVideo ,旨在显著加...
通义语音团队推出语音生成模型CosyVoice 2:提升了多语言语音合成的质量、响应速度和实时性能
阿里巴巴旗下通义实验室语音团队在之前提出的 CosyVoice 基础上,推出了全新的 Cos...
通过实现空间可扩展和全景动态场景合成的创新框架DynamicScaler:用于生成高质量、可扩展的全景动态场景视频
随着对沉浸式 AR/VR 应用和空间智能需求的增加,生成高质量的场景级和 360...
字节推出CausalFusion:基于解码器的变换器,旨在统一自回归(AR)和扩散模型的生成范式
字节跳动介绍了一个名为CausalFusion的模型,它是一个基于解码器的变换器(decoder...
基于修复的指令引导图像编辑框架BrushEdit:通过自然语言指令进行无缝编辑,包括添加对象、移除元素或进行结构性更改等多样化编辑操作
图像编辑技术近年来在基于反演(inversion-based)和基于指令(instruction-based...
用于创建数据集的桌面工具qapyq:最新版增加了图像缩放、自动遮罩和裁剪功能,以及自动字幕功能
qapyq 是一款专为生成式 AI 模型的数据集整理、微调(finetune)和 LoRA 设计的图...