模型 | 第48页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型

排序

发布更新浏览点赞

腾讯推出新型图生视频框架FlexiAct：实现灵活的视频动作克隆

腾讯和清华大学的研究人员推出新型图生视频框架FlexiAct，实现灵活的动作控制，能够在异构场景（即具有不同空间结构、骨骼结构或视角的场景）中将参考视频中的动作迁移到任意目标图像上，同时保持动作动态和...

视频模型 # FlexiAct # 图生视频

8个月前

03070

基于Flux模型的图像编辑框架Insert Anything：通过用户指定的灵活控制，将参考图像中的对象无缝整合到目标场景中

来自浙江大学、哈佛大学和南洋理工大学的研究人员提出了一种名为 Insert Anything 的创新框架，通过用户指定的灵活控制，将参考图像中的对象无缝整合到目标场景中。这一方法无需为每个任务...

图像模型 # Insert Anything # 图像编辑

8个月前

01620

专为漫画线稿上色设计的Cobra框架：能将黑白线稿转化为生动的插图

在漫画生产行业中，基于参考图像的线稿上色是一项既复杂又关键的任务。一页漫画通常包含多样的人物、物体和背景，这不仅要求上色过程具备高准确性、上下文一致性，还需要灵活控制以满足不同场景需求。然而，传统的扩...

图像模型 # Cobra # 上色模型 # 漫画线稿

8个月前

01800

Lightricks 推出全新开源视频生成模型 LTXV-13B

Lightricks之前推出的都是小尺寸模型，而在今天它宣布推出其最新且最先进的开源视频生成模型——LTXV-13B，这一模型不仅在质量、速度和可访问性方面实现了显著提升，还为创作者提供了强大的工具...

视频模型 # Lightricks # LTXV-13B # 视频生成模型

8个月前

03770

FramePack：用神经网络破解视频生成难题，能够将输入上下文压缩至固定长度，使生成工作量不受视频长度影响

视频生成技术一直是AI领域的热门研究方向之一。然而，现有的视频生成模型在处理长视频时常常面临两大挑战：一是“遗忘”问题，模型难以记住早期的视频内容，导致生成的视频缺乏连贯性；二是“漂移”问题，随着视频...

视频模型 # controlnet # FramePack # Lvmin Zhang

8个月前

04170

基于 GenAI 的视觉内容创作控制框架ZenCtrl：利用单张主体图像生成多视角、多样化场景的高分辨率图像，无需额外微调

ZenCtrl 是一款基于 GenAI 的视觉内容创作控制框架，专注于利用单张主体图像生成多视角、多样化场景的高分辨率图像，无需额外微调。它通过精细的控制能力和模块化设计，为创作者提供了一个强大且灵活...

图像模型 # OminiControl # ZenCtrl # 图像控制框架

8个月前

04400

音乐生成基础模型ACE-Step：通过创新的整体架构设计，快速生成高质量音乐

ACE Studio和阶跃星辰（StepFun）联合推出了一款全新的开源音乐生成基础模型ACE-Step，该模型通过创新的整体架构设计，突破了现有方法的局限性，实现了卓越的性能表现。 GitHub：h...

语音模型 # ACE-Step # 音乐模型

8个月前

03340

新型语音语言模型 LLaMA-Omni 2：实现高质量的实时语音交互

中国科学院计算技术研究所、中国科学院人工智能安全重点实验室和中国科学院大学的研究人员推出新型语音语言模型 LLaMA-Omni 2 ，旨在实现高质量的实时语音交互。LLaMA-Omni 2 基于 Qw...

语音模型 # LLaMA-Omni 2 # 语音语言模型

8个月前

02450

新型语音语言基础模型Voila ：实现自然、实时、自主的语音交互

Maitrix.org、加州大学圣地亚哥分校和MBZUAI的研究人员推出新型语音语言基础模型Voila ，旨在实现自然、实时、自主的语音交互。Voila 通过端到端的架构设计，突破了传统语音交互系统...

语音模型 # Voila # 语音语言基础模型

8个月前

03610

字节跳动推出新型图像编辑方法 SuperEdit ：通过改进监督信号来提升基于指令的图像编辑性能

字节跳动和佛罗里达中央大学计算机视觉研究中心的研究人员推出新型图像编辑方法 SuperEdit ，通过改进监督信号来提升基于指令的图像编辑性能。项目主页：https://liming-ai.gith...

图像模型 # SuperEdit # 图像编辑 # 字节跳动

8个月前

02430

基于 FLUX.1-schnell的开源、无审查的生成模型Chroma

Chroma 是一个基于 FLUX.1-schnell 的 8.9 亿参数生成模型，完全采用 Apache 2.0 许可证，为开发者和研究者提供一个自由、开放、无审查的工具。无论是用于艺术创作、科学研...

Flux衍生 # Chroma # FLUX.1 [schnell]

8个月前

09120

基于两阶段框架的唇部同步方法KeySync：能够生成高分辨率、时间连贯且与音频对齐的视频，同时有效减少表情泄漏并处理面部遮挡

唇部同步（Lip Synchronization）是指将视频中的唇部动作与新的输入音频对齐，使其在视觉上看起来自然且与音频同步。尽管这一领域与音频驱动的面部动画（Audio-driven Facial...

视频模型 # KeySync # 唇形同步 # 唇部同步

8个月前

03250

加载更多

模型

腾讯推出新型图生视频框架FlexiAct：实现灵活的视频动作克隆

基于Flux模型的图像编辑框架Insert Anything：通过用户指定的灵活控制，将参考图像中的对象无缝整合到目标场景中

专为漫画线稿上色设计的Cobra框架：能将黑白线稿转化为生动的插图

Lightricks 推出全新开源视频生成模型 LTXV-13B

FramePack：用神经网络破解视频生成难题，能够将输入上下文压缩至固定长度，使生成工作量不受视频长度影响

基于 GenAI 的视觉内容创作控制框架ZenCtrl：利用单张主体图像生成多视角、多样化场景的高分辨率图像，无需额外微调

音乐生成基础模型ACE-Step：通过创新的整体架构设计，快速生成高质量音乐

新型语音语言模型 LLaMA-Omni 2：实现高质量的实时语音交互

新型语音语言基础模型Voila ：实现自然、实时、自主的语音交互

字节跳动推出新型图像编辑方法 SuperEdit ：通过改进监督信号来提升基于指令的图像编辑性能

基于 FLUX.1-schnell的开源、无审查的生成模型Chroma

基于两阶段框架的唇部同步方法KeySync：能够生成高分辨率、时间连贯且与音频对齐的视频，同时有效减少表情泄漏并处理面部遮挡

人生 K 线

Fogsight (雾象)

朱雀大模型检测

Tripo

ITELLOU

Higgsfield AI

模型

网址

人生 K 线

Fogsight (雾象)

朱雀大模型检测

Tripo

ITELLOU

Higgsfield AI