视频模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

智谱AI发布面向生产级角色动画的生成框架 SCAIL：通过3D一致姿态表征实现影棚级角色动画

高质量角色动画长期以来依赖昂贵的动作捕捉设备、繁琐的手动绑定和大量人力修型。尽管近年视频生成模型取得进展，但在复杂动作、风格化角色、多角色交互等场景下，现有方法仍普遍存在结构失真、时间不连贯、身份泄漏...

2个月前

0640

STARFlow-V：苹果推出标准化流视频生成模型，挑战扩散模型主流地位

苹果最新发布的 STARFlow-V 为视频生成领域带来了全新技术路径——作为一款基于标准化流（Normalizing Flows）的端到端模型，它打破了当前扩散模型主导的格局，凭借全局-局部架构、因...

视频模型 # STARFlow-V # 流视频生成模型 # 苹果

2个月前

0600

FlashPortrait：端到端生成无限长度肖像动画，6倍加速且身份一致

在肖像动画（Portrait Animation）任务中，身份一致性与推理效率是两大长期瓶颈。现有扩散模型即便能生成逼真短片，也常在长序列中出现身份漂移、颜色偏移或动作断裂，且生成速度慢，难以用于实际...

视频模型 # FlashPortrait # 肖像动画

1个月前

0580

智谱AI开源 RealVideo：基于自回归扩散的实时流式对话视频系统

随着多模态生成技术的发展，用户对虚拟角色的期待已从“能说话”升级为“能自然表达、实时互动、持续存在”。为此，智谱AI推出了 RealVideo —— 一个端到端实时流式视频对话系统，能够将文本对话实时...

视频模型 # RealVideo # 数字人 # 智谱AI

2个月前

0580

谷歌升级 AI 视频生成模型Veo 3.1：支持光照编辑、音频生成与视频扩展

谷歌正式发布视频生成模型 Veo 3.1 ，并同步更新其面向创作者的 AI 工具 Flow。新版本在视觉真实感、音频支持和编辑能力上均有显著提升，目标是让 AI 生成的视频更接近专业影视水准。目前...

视频模型 # Veo 3.1 # 谷歌

4个月前

0520

英伟达推出NitroGen：基于人类游戏视频的通用视觉-动作基础模型

NitroGen 是由英伟达开发的开放性具身智能基础模型（foundation model for embodied agents），旨在通过观察人类玩家的游戏视频，直接学习从原始画面到手柄动作的映射...

视频模型 # NitroGen # 英伟达

1个月前

0510

MoLingo：通过语义对齐潜在空间实现高保真文本到动作生成

在虚拟角色动画、VR/AR交互和智能体控制中，如何让AI根据一句自然语言（如“一个人正在跳华尔兹”）生成逼真、连贯且语义一致的人体动作，一直是核心挑战。传统方法要么动作生硬，要么与文本描述脱节，难以兼...

视频模型 # MoLingo # 动作生成

1个月前

0400

智谱AI发布 Kaleido：通过多参考图像生成主体一致视频的 S2V 框架

在主体到视频（Subject-to-Video, S2V）生成任务中，目标是根据用户提供的多张目标主体参考图像和文本提示，合成一段主体身份一致、动作自然、背景可控的视频。尽管近期 S2V 模型取得进展...

视频模型 # Kaleido # 智谱AI

2个月前

0380

StoryMem：基于Wan2.2的新框架，用“视觉记忆”生成连贯的多镜头长视频

生成一段包含多个镜头、角色一致、场景连贯、时长达一分钟的叙事视频，是当前视频生成模型的重大挑战。主流方法要么局限于单镜头，要么在跨镜头切换时出现角色崩坏、场景断裂等问题。由南洋理工大学与字节跳动联合...

视频模型 # StoryMem # Wan2.2

1个月前

0270

美团 LongCat 团队发布 LongCat-Video：高效长视频生成的开源新标杆

美团LongCat团队推出 LongCat-Video，这是一个基础视频生成模型，拥有 13.6B 参数，在文本到视频、图像到视频以及视频续接生成任务中表现出色。它特别擅长高效且高质量的长视频生成，标...

视频模型 # LongCat # LongCat-Video # 美团

3个月前

0270

FlashVSR：首个实时扩散视频超分框架，17 FPS 处理 1408p 视频

视频超分辨率（Video Super-Resolution, VSR）的目标是将低分辨率视频高质量地重建为高分辨率版本。近年来，扩散模型在图像和视频恢复任务中展现出强大能力，但其高延迟、高计算开销和对...

视频模型 # FlashVSR # 视频超分辨率框架

3个月前

0270

Spatia：基于可更新空间记忆的长期一致视频生成框架

传统视频生成模型在生成长视频时，常因高维时空信号的复杂性而难以维持长期的空间与时间一致性——场景结构漂移、物体位置突变、相机运动不连贯等问题普遍存在。项目主页：https://zhaojingjin...

视频模型 # Spatia # 视频生成

1个月前

0250

加载更多

智谱AI发布面向生产级角色动画的生成框架 SCAIL：通过3D一致姿态表征实现影棚级角色动画

STARFlow-V：苹果推出标准化流视频生成模型，挑战扩散模型主流地位

FlashPortrait：端到端生成无限长度肖像动画，6倍加速且身份一致

智谱AI开源 RealVideo：基于自回归扩散的实时流式对话视频系统

谷歌升级 AI 视频生成模型Veo 3.1：支持光照编辑、音频生成与视频扩展

英伟达推出NitroGen：基于人类游戏视频的通用视觉-动作基础模型

MoLingo：通过语义对齐潜在空间实现高保真文本到动作生成

智谱AI发布 Kaleido：通过多参考图像生成主体一致视频的 S2V 框架

StoryMem：基于Wan2.2的新框架，用“视觉记忆”生成连贯的多镜头长视频

美团 LongCat 团队发布 LongCat-Video：高效长视频生成的开源新标杆

FlashVSR：首个实时扩散视频超分框架，17 FPS 处理 1408p 视频

Spatia：基于可更新空间记忆的长期一致视频生成框架

新QoderWork

Clawdbot/Moltbot

Situation Monitor

Skills.sh

中国科技云数据胶囊

Fogsight (雾象)

视频模型

网址

新QoderWork

Clawdbot/Moltbot

Situation Monitor

Skills.sh

中国科技云数据胶囊

Fogsight (雾象)