通义万象是阿里云旗下的图像及视频生成平台,凭借其强大的多模态生成能力,正在引领生成式 AI 的发展。除了传统的文生图能力,通义万象现已支持文生视频、图生视频等多种功能,并在插画设计、涂鸦作画、局部重绘、短片创作、配乐生成等场景化应用中表现出色。
其自研视觉生成大模型 WanX,具备强大的画面视觉动态生成能力,尤其擅长概念理解与组合生成,优化了中式元素的表现,并支持多语言与可变分辨率生成。
核心特点
- 多语言支持:兼容中英文输入,在中文语义理解和艺术字生成方面表现突出,尤其擅长处理中式元素,如山水画、水墨风格等。
- 多模态融合:整合文本、图像、语音和视频处理能力,覆盖全模态内容生成场景,实现从静态图像到动态视频的无缝转换。
-
可控性与自由度:通过拆解配色、布局、风格等元素,用户可以对生成内容进行高度定制化调整,既保证了创作的灵活性,又提供了精细控制的能力。
技术架构
WanX隶属于阿里云“通义大模型家族”,首次亮相于2023年世界人工智能大会(WAIC)。其核心模型基于阿里自研的Composer框架,结合扩散模型、生成对抗网络(GAN)和CLIP模型等先进技术,实现了多模态内容的高效生成与编辑。
关键技术创新
- 高效VAE(变分自编码器)与DiT架构:在2025年发布的2.1版本中,引入了高效VAE和DiT架构,显著提升了时空上下文建模能力,支持无限长1080P视频的高效编解码。
- IC-LoRA训练方法:通过该方法优化物理规律模拟,能够还原碰撞、反弹等真实物理效果,使生成内容更加贴近现实。
核心功能与创新点
1. 图像生成与编辑
- 文生图:根据文本描述生成水彩、油画、中国画等风格图像,支持多比例输出(如 1:1、4:3 等)。
- 图生图与风格迁移:基于参考图生成相似内容或转换风格,保留原图主体并应用新视觉风格。
- 局部重绘:针对特定区域调整细节,无需全图修改。
- 虚拟模特与商品图生成:在电商场景中,可自定义模特形象与背景,生成商品展示大片。
2. 视频生成与增强
- 文生视频:输入文本或关键词生成高清视频,支持“灵感扩写”功能丰富内容。
- 图生视频:将静态图片转化为动态视频,适用于广告和社交媒体。
- 中文艺术字视频:2.1 版本新增功能,支持中英文字幕特效生成,提升本土化创作体验。
- 物理规律模拟:通过 IC-LoRA 训练方法,还原碰撞、反弹等真实物理效果。
3. 特色功能
- 涂鸦作画:将手绘草图转化为精致艺术作品。
- 短片创作:整合图像与视频功能,快速生成创意短片。
- 风格化模板:强调中国传统元素(如山水画、水墨风格),满足文化创意需求。
技术优势与市场反馈
1. 竞争优势
- 中文理解优势:本土化语义处理能力超越 Midjourney 等国际竞品。
- 全链路覆盖:从图像到视频的全模态生成能力,支持复杂创作流程。
- 企业级服务:通过阿里云与钉钉服务超过 30 万企业用户,覆盖金融、医疗、教育等领域。
2. 行业认可
- VBench 榜单领先:2.1 版本在运动幅度、多对象生成等维度以 84.7% 总分登顶。
- 商业化规模:截至 2025 年,累计生成 7500 万张图像,视频生成请求超过 100 万次。
版本与服务
WanX 2.1
阿里 WanX 团队最新发布的 WanX 2.1 视频模型已在通义万相平台上线,并通过阿里百炼平台提供 API 服务。此次发布包括两款模型:
- wanx2.1-t2v-turbo:快速的生成速度和均衡的表现受到青睐,价格为 0.24 元/秒。
- wanx2.1-t2v-plus:在生成细节和画面质感上更为出色,价格为 0.70 元/秒。
官方免费的在线体验现已在 HuggingFace 上线,WanX 团队也已预告 WanX 2.1 视频模型将开源。
相关:
阿里巴巴通义实验室开源视频生成模型 Wan2.1