阿里云 PAI发布 Wan2.2-Fun：扩展Wan2.2文生视频与可控视频生成的能力边界

视频模型7个月前发布小马良

347 0

阿里云 PAI 团队昨日正式推出 Wan2.2-Fun 系列模型，作为其 VideoX-Fun 项目的重要更新，进一步扩展了文生视频与可控视频生成的能力边界。

模型：https://huggingface.co/collections/alibaba-pai/wan22-fun-68958eabec343b948f1225c5

该系列基于此前广受关注的 Wan2.1-Fun 和 CogVideoX-Fun 技术路线持续演进，此次发布的 Wan2.2-Fun 在分辨率支持、控制能力、多语言理解等方面均有显著提升。

阿里云 PAI发布 Wan2.2-Fun：扩展Wan2.2文生视频与可控视频生成的能力边界

但对于普通用户来说，需注意：

🔴 模型体积大、显存要求高，4090以下显卡不建议运行官方完整版。

🚀 Wan2.2-Fun 模型概览

名称	存储空间	Hugging Face	ModelScope	功能描述
Wan2.2-Fun-A14B-InP	47.0 GB	下载	下载	文图生视频权重，支持多分辨率训练，可进行首尾帧预测
Wan2.2-Fun-A14B-Control	47.0 GB	下载	下载	支持 Canny、Depth、Pose、MLSD 等多种控制条件，新增轨迹控制功能；支持多分辨率（512/768/1024）视频生成

两个模型均基于 14B 参数规模，以 81 帧、16fps 的设定进行训练，支持长序列视频生成。

✨ 核心能力亮点

1. 多分辨率支持

支持多种分辨率输入与输出
训练过程中采用多尺度策略，增强模型对不同画幅的适应性
更高分辨率意味着更清晰的细节表现，适合高质量内容创作

2. 强大的控制生成功能（Control 版专属）

Wan2.2-Fun-Control 支持多种视觉控制信号，实现精准构图：

控制类型	说明
Canny 边缘控制	根据边缘图生成风格一致的动态画面
Depth 深度图控制	控制场景空间结构与远近关系
Pose 骨骼控制	实现人物动作精准复现
MLSD 直线检测	适用于建筑、室内等结构化场景
轨迹控制（Trajectory Control）	新增功能，可指定物体运动路径，提升动态可控性

这些控制能力让模型从“自由发挥”走向“按需生成”，极大提升了在动画、广告、影视预演等专业场景中的可用性。

阿里云 PAI发布 Wan2.2-Fun：扩展Wan2.2文生视频与可控视频生成的能力边界

3. 首尾帧预测（InP）

InP 模型支持“首尾图引导”生成：

提供起始帧与结束帧
模型自动补全中间过渡动画
适用于转场设计、形态变化类视频生成

4. 多语言支持

模型在训练中融合多语言文本数据，支持中文、英文等多种语言 prompt 输入，降低非英语用户的使用门槛。

⚠️ 显存要求高，本地部署门槛大

两个模型均为 47GB 的 FP16 权重文件，这意味着：

❌ 单卡消费级显卡基本无法本地部署
✅ 推荐使用阿里云 PAI 平台或具备多卡 A100/H100 的服务器环境

即便使用模型分片加载（如 offload），推理速度也将非常缓慢，体验不佳。

显存不足用户的替代方案

对于本地设备有限的用户，推荐使用社区开发者 Kijai 提供的优化版本与工具链：

模型：https://huggingface.co/Kijai/WanVideo_comfy_fp8_scaled/tree/main/Fun

阿里云 PAI发布 Wan2.2-Fun：扩展Wan2.2文生视频与可控视频生成的能力边界

推荐组合：轻量化 + 加速 + 易用

组件	说明
FP8 量化版 Wan2.2-Fun	由 Kijai 释出，将模型精度降至 FP8，显著降低显存占用
ComfyUI-WanVideoWrapper	Kijai 开发的 ComfyUI 插件，提供图形化界面支持 Wan 系列视频模型
加速 LoRA	Kijai已发布多个轻量 LoRA，用于提升生成速度或稳定动作序列

视频模型 # Wan2.2-Fun # 阿里云 PAI

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

清华大学推出SketchColour：基于扩散变换器的高效 2D 动画自动上色方案

清华大学推出SketchColour：基于扩散变换器的高效 2D 动画自动上色方案

视频模型 # 2D 动画自动上色 # SketchColour

8个月前

01630

Genmo推出开源视频生成模型天花板Mochi 1，型需 4 块英伟达H100 显卡才可运行

Genmo推出开源视频生成模型天花板Mochi 1，型需 4 块英伟达H100 显卡才可运行

视频模型 # Genmo # Mochi 1 # 视频生成模型

1年前

05430

FlashVSR：首个实时扩散视频超分框架，17 FPS 处理 1408p 视频

FlashVSR：首个实时扩散视频超分框架，17 FPS 处理 1408p 视频

视频模型 # FlashVSR # 视频超分辨率框架

4个月前

0330

InfiniteTalk：支持稀疏帧输入的全动态音频驱动视频生成，实现全身协调的说话视频生成

InfiniteTalk：支持稀疏帧输入的全动态音频驱动视频生成，实现全身协调的说话视频生成

视频模型 # InfiniteTalk # 对口型

6个月前

01050

暂无评论

none

暂无评论...