CogAgent-9B-20241220:基于视觉语言模型的开源 GUI agent 模型 图形用户界面(GUI)是用户与软件交互的核心。然而,构建能够有效导航GUI的智能代理一直是一个持续的挑战。传统方法在适应性方面存在不足,尤其是在处理复杂布局或GUI频繁变化时,这些问题限制了自动化GU... 多模态模型# CogAgent-9B-20241220 2周前01140
腾讯发布一种在 MM-DiT 架构下无需额外训练的多提示长视频生成方法DiTCtrl 随着视频生成模型的发展,基于DiT架构如 Sora 和 MM-DiT 在单提示视频生成任务中取得了显著进展。然而,这些模型在处理多个顺序提示时面临诸多挑战,难以生成连贯且自然过渡的场景。具体来说: 严... 视频模型# DiTCtrl 2周前01240
阿里通义团队为大家送上圣诞节大礼,开源全球首个视觉推理模型 QVQ-72B-Preview 阿里通义团队为大家送上圣诞节大礼,开源了第一个视觉推理模型QVQ,其中V代表视觉。它只需读取一张图像和一个指令,开始思考,适时反思,持续推理,最终自信地生成预测!然而,它仍处于实验阶段,这个预览版本仍... 多模态模型# QVQ-72B-Preview# 视觉推理模型# 阿里通义 2周前01360
ltx-video-0.9-vae-finetune:基于 LTX Video 0.9 VAE 进行的微调VAE模型 ltx-video-0.9-vae-finetune 是由开发者 spacepxl 基于 LTX Video 0.9 VAE 进行的微调VAE模型,旨在解决该模型中常见的棋盘伪影问题。通过专注于解码器... 视频模型# ltx-video-0.9-vae-finetune# VAE模型 2周前01160
lllyasviel推出交互式图像光照绘制新框架LuminaBrush ControlNet的作者lllyasviel继推出IC-Light系列之后,再次推出了一个全新的项目——LuminaBrush。这个项目旨在为用户提供一种简单而强大的方式,在图像上绘制和调整光照效果... 图像模型# LuminaBrush# 光照绘制 2周前01170
Nexa AI 推出一款专为边缘部署设计的音频语言模型 OmniAudio-2.6B 音频语言模型(ALMs)在各种应用中发挥着关键作用,包括实时转录、翻译、语音控制系统和辅助技术。然而,许多现有解决方案面临高延迟、大量计算需求以及依赖云端处理等限制。这些问题对边缘部署提出了挑战,因为... 语音模型# OmniAudio-2.6B 2周前01020
LTX-Video推出0.9.1版本,引入全新VAE解码器,原生支持STG/PAG 之前介绍过的《Lightricks推出开源视频生成模型LTX Video》,今天LTX-Video迎来了它的首次重要更新——0.9.1版本。作为生成式AI视频模型的最新迭代,LTX-Video 0.9... 视频模型# LTX-Video 0.9.1 2周前01380
新型自回归视频生成模型NOVA:能够在无需向量量化的情况下,高效地生成视频 北京邮电大学、中国科学院计算技术研究所、大连理工大学和北京智源研究院的研究人员提出了一种名为 NOVA 的新型自回归视频生成模型。该模型能够在无需向量量化的情况下,通过重新表述视频生成问题,实现了在时... 视频模型# NOVA# 自回归视频生成模型 2周前01390
加速DiT架构视频生成模型的开源技术栈FastVideo:已推出FastHunyuan和FastMochi 两款模型,生成速度提升8倍 加州大学圣地亚哥分校 Hao AI 实验室推出的一个开源技术栈FastVideo ,旨在显著加速最先进的(SoTA)开源DiT架构视频生成模型的推理速度。它通过引入 一致性蒸馏(Consistency... 视频模型# FastHunyuan# FastMochi# FastVideo 2周前02120
通义语音团队推出语音生成模型CosyVoice 2:提升了多语言语音合成的质量、响应速度和实时性能 阿里巴巴旗下通义实验室语音团队在之前提出的 CosyVoice 基础上,推出了全新的 CosyVoice 2。该模型通过一系列优化和创新,显著提升了多语言语音合成的质量、响应速度和实时性能。CosyV... 语音模型# CosyVoice 2# 语音生成模型 2周前01140
三阶段扩散模型框架ColorFlow:专门用于解决黑白图像的自动着色问题 ColorFlow 是由清华大学和腾讯ARC实验室提出的一个创新性三阶段扩散模型框架,专门用于解决黑白图像序列的自动着色问题。该模型旨在确保角色和对象的身份(ID)在着色过程中得到一致保留,同时生成高... 图像模型# ColorFlow 2周前01140
基于修复的指令引导图像编辑框架BrushEdit:通过自然语言指令进行无缝编辑,包括添加对象、移除元素或进行结构性更改等多样化编辑操作 图像编辑技术近年来在基于反演(inversion-based)和基于指令(instruction-based)的方法上取得了显著进步。然而,这些方法各自存在局限性: 基于反演的方法:在处理重大修改(如... 图像模型# BrushEdit# 图像编辑 2周前01380