阿里通义团队为大家送上圣诞节大礼,开源全球首个视觉推理模型 QVQ-72B-Preview阿里通义团队为大家送上圣诞节大礼,开源了第一个视觉推理模型QVQ,其中V代表视觉。它只需读取一张图像和一个指令,开始思考,适时反思,持续推理,最终自信地生成预测!然而,它仍处于实验阶段,这个预览版本仍...多模态模型# QVQ-72B-Preview# 视觉推理模型# 阿里通义11个月前03210
ltx-video-0.9-vae-finetune:基于 LTX Video 0.9 VAE 进行的微调VAE模型ltx-video-0.9-vae-finetune 是由开发者 spacepxl 基于 LTX Video 0.9 VAE 进行的微调VAE模型,旨在解决该模型中常见的棋盘伪影问题。通过专注于解码器...视频模型# ltx-video-0.9-vae-finetune# VAE模型11个月前03250
lllyasviel推出交互式图像光照绘制新框架LuminaBrushControlNet的作者lllyasviel继推出IC-Light系列之后,再次推出了一个全新的项目——LuminaBrush。这个项目旨在为用户提供一种简单而强大的方式,在图像上绘制和调整光照效果...图像模型# LuminaBrush# 光照绘制11个月前03380
Nexa AI 推出一款专为边缘部署设计的音频语言模型 OmniAudio-2.6B音频语言模型(ALMs)在各种应用中发挥着关键作用,包括实时转录、翻译、语音控制系统和辅助技术。然而,许多现有解决方案面临高延迟、大量计算需求以及依赖云端处理等限制。这些问题对边缘部署提出了挑战,因为...语音模型# OmniAudio-2.6B11个月前02780
LTX-Video推出0.9.1版本,引入全新VAE解码器,原生支持STG/PAG之前介绍过的《Lightricks推出开源视频生成模型LTX Video》,今天LTX-Video迎来了它的首次重要更新——0.9.1版本。作为生成式AI视频模型的最新迭代,LTX-Video 0.9...视频模型# LTX-Video 0.9.111个月前03790
新型自回归视频生成模型NOVA:能够在无需向量量化的情况下,高效地生成视频北京邮电大学、中国科学院计算技术研究所、大连理工大学和北京智源研究院的研究人员提出了一种名为 NOVA 的新型自回归视频生成模型。该模型能够在无需向量量化的情况下,通过重新表述视频生成问题,实现了在时...视频模型# NOVA# 自回归视频生成模型11个月前03250
加速DiT架构视频生成模型的开源技术栈FastVideo:已推出FastHunyuan和FastMochi 两款模型,生成速度提升8倍加州大学圣地亚哥分校 Hao AI 实验室推出的一个开源技术栈FastVideo ,旨在显著加速最先进的(SoTA)开源DiT架构视频生成模型的推理速度。它通过引入 一致性蒸馏(Consistency...视频模型# FastHunyuan# FastMochi# FastVideo11个月前03990
通义语音团队推出语音生成模型CosyVoice 2:提升了多语言语音合成的质量、响应速度和实时性能阿里巴巴旗下通义实验室语音团队在之前提出的 CosyVoice 基础上,推出了全新的 CosyVoice 2。该模型通过一系列优化和创新,显著提升了多语言语音合成的质量、响应速度和实时性能。CosyV...语音模型# CosyVoice 2# 语音生成模型11个月前02860
三阶段扩散模型框架ColorFlow:专门用于解决黑白图像的自动着色问题ColorFlow 是由清华大学和腾讯ARC实验室提出的一个创新性三阶段扩散模型框架,专门用于解决黑白图像序列的自动着色问题。该模型旨在确保角色和对象的身份(ID)在着色过程中得到一致保留,同时生成高...图像模型# ColorFlow11个月前03330
基于修复的指令引导图像编辑框架BrushEdit:通过自然语言指令进行无缝编辑,包括添加对象、移除元素或进行结构性更改等多样化编辑操作图像编辑技术近年来在基于反演(inversion-based)和基于指令(instruction-based)的方法上取得了显著进步。然而,这些方法各自存在局限性: 基于反演的方法:在处理重大修改(如...图像模型# BrushEdit# 图像编辑11个月前03270
图森未来发布图生视频大模型“Ruyi”,能够在消费级显卡上运行图森未来今日正式发布了其首款“图生视频”大模型——Ruyi,目前Ruyi-Mini-7B版本已经正式释出。这款模型专为生成高质量的影视级视频而设计,能够在消费级显卡(如 RTX 3090 或 RTX ...插件视频模型# Ruyi# 图森未来# 图生视频大模型11个月前04000
无问芯穹推出全球首个端侧全模态理解开源模型Megrez-3B-Omni12月16日,无问芯穹宣布正式开源其“端模型+端软件+端IP”端上智能一体化解决方案中的小模型——Megrez-3B-Omni,以及纯语言版本模型 Megrez-3B-Instruct。这一举措标志着...多模态模型# Megrez-3B-Omni# 无问芯穹11个月前02690