阿里云 PAI发布 Wan2.2-Fun:扩展Wan2.2文生视频与可控视频生成的能力边界

视频模型5个月前发布 小马良
286 0

阿里云 PAI 团队昨日正式推出 Wan2.2-Fun 系列模型,作为其 VideoX-Fun 项目的重要更新,进一步扩展了文生视频与可控视频生成的能力边界。

该系列基于此前广受关注的 Wan2.1-Fun 和 CogVideoX-Fun 技术路线持续演进,此次发布的 Wan2.2-Fun 在分辨率支持、控制能力、多语言理解等方面均有显著提升。

阿里云 PAI发布 Wan2.2-Fun:扩展Wan2.2文生视频与可控视频生成的能力边界

但对于普通用户来说,需注意:

🔴 模型体积大、显存要求高,4090以下显卡不建议运行官方完整版

🚀 Wan2.2-Fun 模型概览

名称存储空间Hugging FaceModelScope功能描述
Wan2.2-Fun-A14B-InP47.0 GB下载下载文图生视频权重,支持多分辨率训练,可进行首尾帧预测
Wan2.2-Fun-A14B-Control47.0 GB下载下载支持 Canny、Depth、Pose、MLSD 等多种控制条件,新增轨迹控制功能;支持多分辨率(512/768/1024)视频生成

两个模型均基于 14B 参数规模,以 81 帧、16fps 的设定进行训练,支持长序列视频生成。

✨ 核心能力亮点

1. 多分辨率支持

  • 支持多种分辨率输入与输出
  • 训练过程中采用多尺度策略,增强模型对不同画幅的适应性
  • 更高分辨率意味着更清晰的细节表现,适合高质量内容创作

2. 强大的控制生成功能(Control 版专属)

Wan2.2-Fun-Control 支持多种视觉控制信号,实现精准构图:

控制类型说明
Canny 边缘控制根据边缘图生成风格一致的动态画面
Depth 深度图控制控制场景空间结构与远近关系
Pose 骨骼控制实现人物动作精准复现
MLSD 直线检测适用于建筑、室内等结构化场景
轨迹控制(Trajectory Control)新增功能,可指定物体运动路径,提升动态可控性

这些控制能力让模型从“自由发挥”走向“按需生成”,极大提升了在动画、广告、影视预演等专业场景中的可用性。

阿里云 PAI发布 Wan2.2-Fun:扩展Wan2.2文生视频与可控视频生成的能力边界

3. 首尾帧预测(InP)

InP 模型支持“首尾图引导”生成:

  • 提供起始帧与结束帧
  • 模型自动补全中间过渡动画
  • 适用于转场设计、形态变化类视频生成

4. 多语言支持

模型在训练中融合多语言文本数据,支持中文、英文等多种语言 prompt 输入,降低非英语用户的使用门槛。

⚠️ 显存要求高,本地部署门槛大

两个模型均为 47GB 的 FP16 权重文件,这意味着:

  • ❌ 单卡消费级显卡基本无法本地部署
  • ✅ 推荐使用阿里云 PAI 平台或具备多卡 A100/H100 的服务器环境

即便使用模型分片加载(如 offload),推理速度也将非常缓慢,体验不佳。

显存不足用户的替代方案

对于本地设备有限的用户,推荐使用社区开发者 Kijai 提供的优化版本与工具链:

阿里云 PAI发布 Wan2.2-Fun:扩展Wan2.2文生视频与可控视频生成的能力边界

推荐组合:轻量化 + 加速 + 易用

组件说明
FP8 量化版 Wan2.2-Fun由 Kijai 释出,将模型精度降至 FP8,显著降低显存占用
ComfyUI-WanVideoWrapperKijai 开发的 ComfyUI 插件,提供图形化界面支持 Wan 系列视频模型
加速 LoRAKijai已发布多个轻量 LoRA,用于提升生成速度或稳定动作序列
© 版权声明

相关文章

暂无评论

none
暂无评论...