腾讯推出新型图生视频框架FlexiAct:实现灵活的视频动作克隆腾讯和清华大学的研究人员推出新型图生视频框架FlexiAct,实现灵活的动作控制,能够在异构场景(即具有不同空间结构、骨骼结构或视角的场景)中将参考视频中的动作迁移到任意目标图像上,同时保持动作动态和...视频模型# FlexiAct# 图生视频8个月前03070
基于Flux模型的图像编辑框架Insert Anything:通过用户指定的灵活控制,将参考图像中的对象无缝整合到目标场景中来自 浙江大学、哈佛大学 和 南洋理工大学 的研究人员提出了一种名为 Insert Anything 的创新框架,通过用户指定的灵活控制,将参考图像中的对象无缝整合到目标场景中。这一方法无需为每个任务...图像模型# Insert Anything# 图像编辑8个月前01620
专为漫画线稿上色设计的Cobra框架:能将黑白线稿转化为生动的插图在漫画生产行业中,基于参考图像的线稿上色是一项既复杂又关键的任务。一页漫画通常包含多样的人物、物体和背景,这不仅要求上色过程具备高准确性、上下文一致性,还需要灵活控制以满足不同场景需求。然而,传统的扩...图像模型# Cobra# 上色模型# 漫画线稿8个月前01800
Lightricks 推出全新开源视频生成模型 LTXV-13BLightricks之前推出的都是小尺寸模型,而在今天它宣布推出其最新且最先进的开源视频生成模型——LTXV-13B,这一模型不仅在质量、速度和可访问性方面实现了显著提升,还为创作者提供了强大的工具...视频模型# Lightricks# LTXV-13B# 视频生成模型8个月前03770
FramePack:用神经网络破解视频生成难题,能够将输入上下文压缩至固定长度,使生成工作量不受视频长度影响视频生成技术一直是AI领域的热门研究方向之一。然而,现有的视频生成模型在处理长视频时常常面临两大挑战:一是“遗忘”问题,模型难以记住早期的视频内容,导致生成的视频缺乏连贯性;二是“漂移”问题,随着视频...视频模型# controlnet# FramePack# Lvmin Zhang8个月前04170
基于 GenAI 的视觉内容创作控制框架ZenCtrl:利用单张主体图像生成多视角、多样化场景的高分辨率图像,无需额外微调ZenCtrl 是一款基于 GenAI 的视觉内容创作控制框架,专注于利用单张主体图像生成多视角、多样化场景的高分辨率图像,无需额外微调。它通过精细的控制能力和模块化设计,为创作者提供了一个强大且灵活...图像模型# OminiControl# ZenCtrl# 图像控制框架8个月前04400
音乐生成基础模型ACE-Step:通过创新的整体架构设计,快速生成高质量音乐ACE Studio和阶跃星辰(StepFun)联合推出了一款全新的开源音乐生成基础模型ACE-Step,该模型通过创新的整体架构设计,突破了现有方法的局限性,实现了卓越的性能表现。 GitHub:h...语音模型# ACE-Step# 音乐模型8个月前03340
新型语音语言模型 LLaMA-Omni 2:实现高质量的实时语音交互中国科学院计算技术研究所、中国科学院人工智能安全重点实验室和中国科学院大学的研究人员推出新型语音语言模型 LLaMA-Omni 2 ,旨在实现高质量的实时语音交互。LLaMA-Omni 2 基于 Qw...语音模型# LLaMA-Omni 2# 语音语言模型8个月前02450
新型语音语言基础模型Voila :实现自然、实时、自主的语音交互Maitrix.org、加州大学圣地亚哥分校和MBZUAI的研究人员推出新型语音语言基础模型Voila ,旨在实现自然、实时、自主的语音交互。Voila 通过端到端的架构设计,突破了传统语音交互系统...语音模型# Voila# 语音语言基础模型8个月前03610
字节跳动推出新型图像编辑方法 SuperEdit :通过改进监督信号来提升基于指令的图像编辑性能字节跳动和佛罗里达中央大学计算机视觉研究中心的研究人员推出新型图像编辑方法 SuperEdit ,通过改进监督信号来提升基于指令的图像编辑性能。 项目主页:https://liming-ai.gith...图像模型# SuperEdit# 图像编辑# 字节跳动8个月前02430
基于 FLUX.1-schnell的开源、无审查的生成模型ChromaChroma 是一个基于 FLUX.1-schnell 的 8.9 亿参数生成模型,完全采用 Apache 2.0 许可证,为开发者和研究者提供一个自由、开放、无审查的工具。无论是用于艺术创作、科学研...Flux衍生# Chroma# FLUX.1 [schnell]8个月前09120
基于两阶段框架的唇部同步方法KeySync:能够生成高分辨率、时间连贯且与音频对齐的视频,同时有效减少表情泄漏并处理面部遮挡唇部同步(Lip Synchronization)是指将视频中的唇部动作与新的输入音频对齐,使其在视觉上看起来自然且与音频同步。尽管这一领域与音频驱动的面部动画(Audio-driven Facial...视频模型# KeySync# 唇形同步# 唇部同步8个月前03250