最近的研究表明,尽管视觉信息被高度压缩,视觉-语言模型(VLMs)依然能在多种任务...
6天前 38

加州大学圣地亚哥分校 Hao AI 实验室推出的一个开源技术栈FastVideo ,旨在显著加...
6天前 119

阿里巴巴旗下通义实验室语音团队在之前提出的 CosyVoice 基础上,推出了全新的 Cos...
1周前 46

随着对沉浸式 AR/VR 应用和空间智能需求的增加,生成高质量的场景级和 360...
1周前 44

视频换脸技术近年来在各种应用中变得越来越流行,但现有方法主要集中在静态图像上...
1周前 38

字节跳动介绍了一个名为CausalFusion的模型,它是一个基于解码器的变换器(decoder...
1周前 40

ColorFlow 是由清华大学和腾讯ARC实验室提出的一个创新性三阶段扩散模型框架,专门...
1周前 42

ComfyUI官方发布博文宣布已内置了多语言支持,取代之前第三方翻译插件,用户将Comf...
1周前 201

Markdown 是一种轻量级的标记语言,旨在提供一种易于阅读和书写的纯文本格式。它的...
1周前 44

图森未来今日正式发布了其首款“图生视频”大模型——Ruyi,目前Ruyi-Mini-7B版本已经...
1周前 56

qapyq 是一款专为生成式 AI 模型的数据集整理、微调(finetune)和 LoRA 设计的图...
1周前 48
没有账号?注册  忘记密码?