视频模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

FlashVSR：首个实时扩散视频超分框架，17 FPS 处理 1408p 视频

视频超分辨率（Video Super-Resolution, VSR）的目标是将低分辨率视频高质量地重建为高分辨率版本。近年来，扩散模型在图像和视频恢复任务中展现出强大能力，但其高延迟、高计算开销和对...

视频模型 # FlashVSR # 视频超分辨率框架

3个月前

0270

谷歌升级 AI 视频生成模型Veo 3.1：支持光照编辑、音频生成与视频扩展

谷歌正式发布视频生成模型 Veo 3.1 ，并同步更新其面向创作者的 AI 工具 Flow。新版本在视觉真实感、音频支持和编辑能力上均有显著提升，目标是让 AI 生成的视频更接近专业影视水准。目前...

视频模型 # Veo 3.1 # 谷歌

4个月前

0520

新加坡国立大学推出 PaperTalker：首个从论文自动生成学术演讲视频的多智能体框架

对于研究人员来说，将一篇论文转化为一场高质量的学术演示视频，往往意味着数小时的设计、录制与剪辑——即使最终视频只有5到10分钟。幻灯片排版、语音同步、字幕对齐、讲解节奏控制……这些重复性工作消耗大量...

视频模型 # PaperTalker

4个月前

02160

Code2Video：基于代码智能体的教育视频生成框架

尽管当前文生视频模型在短片段合成上取得进展，但在生成结构严谨、知识准确、视觉连贯的教育视频方面仍面临挑战。这类内容不仅要求语义正确，还需具备清晰的空间布局、逻辑动画过渡和教学节奏控制。为此，新加坡国...

视频模型 # Code2Video # 教育视频生成

4个月前

02160

StreamDiffusionV2：支持多显卡的实时视频生成系统

由加州大学伯克利分校、麻省理工学院、斯坦福大学、德克萨斯大学奥斯汀分校与 First Intelligence 联合研发的 StreamDiffusionV2 正式开源。这是一个面向交互式直播场景的实...

视频模型 # StreamDiffusionV2

4个月前

01980

SLA：清华与伯克利联合提出可训练稀疏线性注意力，加速DiT视频生成

在高分辨率、长时序视频生成任务中，扩散变换器（Diffusion Transformer, DiT）已成为主流架构。然而，其核心组件——自注意力机制——面临着一个根本性瓶颈：计算复杂度随序列长度呈平方...

视频模型 # SLA # 可训练混合注意力机制

4个月前

01020

线性注意力 + 恒定内存 KV 缓存！SANA-Video：高效生成分钟级高清视频的新一代文生视频模型

在文本到视频（T2V）生成领域，高分辨率、长时长与低延迟三者往往难以兼得。现有大模型虽能生成高质量视频，但动辄数千秒的推理时间与高昂的训练成本严重限制了其落地应用。为此，由英伟达、香港大学、麻省理工...

视频模型 # SANA-Video # 文生视频模型

4个月前

06170

Wan-Alpha：支持透明通道的高质量文生视频模型

在视频编辑、虚拟合成、游戏特效和社交媒体创作中，带有透明背景（Alpha 通道）的视频素材具有不可替代的价值——它们可以无缝叠加到任意场景中，无需后期抠像或遮罩处理。然而，当前主流的文生视频（Tex...

视频模型 # Wan-Alpha # 文生视频模型

4个月前

02380

通义万相 Wan2.5-Preview 正式发布：原生支持音画同步的多模态视觉生成引擎

阿里通义实验室Wan项目组正式推出 Wan2.5-Preview——一个在架构层面实现革新、真正实现“音视频协同生成”的新一代视觉大模型。它不是简单的功能叠加，而是通过原生多模态统一架构，将文本、图...

视频模型 # Wan2.5-Preview

4个月前

01280

Lynx：字节跳动提出的单图驱动个性化视频生成方案，实现高保真身份保留

在内容创作、虚拟社交等场景中，“基于单张图像生成个性化视频”是重要需求——比如用一张自拍生成动态表情视频，或让历史人物照片“动起来”讲述故事。但这类任务长期面临核心挑战：如何在保证视频自然流畅的同时...

视频模型 # Lynx # 个性化视频生成 # 字节跳动

4个月前

02060

字节跳动提出OmniInsert：无需遮罩，任意对象都能自然插入视频

在影视后期、广告制作乃至虚拟内容创作中，“将一个新角色或物体自然地加入已有视频”是一项高频需求。传统方法依赖精确的遮罩标注、关键帧追踪和复杂的合成流程，成本高、耗时长。近期，基于扩散模型的技术为这一...

视频模型 # OmniInsert # 字节跳动 # 视频编辑

4个月前

01540

DecartAI推出 Lucy Edit Dev：全球首个开源、支持自由文本提示的指令引导视频编辑模型

DecartAI推出 Lucy Edit Dev ——全球首个开源、支持自由文本提示的指令引导视频编辑模型。它允许用户仅通过自然语言描述，即可完成复杂的视频修改任务，如更换服装、替换角色、插入物体或更...

视频模型 # Lucy Edit Dev # 视频编辑模型

4个月前

03090

加载更多

FlashVSR：首个实时扩散视频超分框架，17 FPS 处理 1408p 视频

谷歌升级 AI 视频生成模型Veo 3.1：支持光照编辑、音频生成与视频扩展

新加坡国立大学推出 PaperTalker：首个从论文自动生成学术演讲视频的多智能体框架

Code2Video：基于代码智能体的教育视频生成框架

StreamDiffusionV2：支持多显卡的实时视频生成系统

SLA：清华与伯克利联合提出可训练稀疏线性注意力，加速DiT视频生成

线性注意力 + 恒定内存 KV 缓存！SANA-Video：高效生成分钟级高清视频的新一代文生视频模型

Wan-Alpha：支持透明通道的高质量文生视频模型

通义万相 Wan2.5-Preview 正式发布：原生支持音画同步的多模态视觉生成引擎

Lynx：字节跳动提出的单图驱动个性化视频生成方案，实现高保真身份保留

字节跳动提出OmniInsert：无需遮罩，任意对象都能自然插入视频

DecartAI推出 Lucy Edit Dev：全球首个开源、支持自由文本提示的指令引导视频编辑模型

Clawdbot/Moltbot

Higgsfield AI

Situation Monitor

Fogsight (雾象)

CivitAI

ITELLOU

视频模型

网址

Clawdbot/Moltbot

Higgsfield AI

Situation Monitor

Fogsight (雾象)

CivitAI

ITELLOU