通义万象

1年前更新 7,974 00

通义万象是阿里云旗下的图像及视频生成平台，凭借其强大的多模态生成能力，正在引领生成式 AI 的发展。除了传统的文生图能力，通义万象现已支持文生视频、图生视频等多种功能，并在插画设计、涂鸦作画、局部重绘、短片创作、配乐生成等场景化应用中表现出色。

所在地：

中国

收录时间：

2025-02-25

其他站点:

打开网站手机查看

AI视频 # WanX # 图像生成 # 视频生成 # 通义万象 # 阿里云 # 阿里巴巴

通义万象

通义万象

通义万象是阿里云旗下的图像及视频生成平台，凭借其强大的多模态生成能力，正在引领生成式 AI 的发展。除了传统的文生图能力，通义万象现已支持文生视频、图生视频等多种功能，并在插画设计、涂鸦作画、局部重绘、短片创作、配乐生成等场景化应用中表现出色。

其自研视觉生成大模型 WanX，具备强大的画面视觉动态生成能力，尤其擅长概念理解与组合生成，优化了中式元素的表现，并支持多语言与可变分辨率生成。

核心特点

多语言支持：兼容中英文输入，在中文语义理解和艺术字生成方面表现突出，尤其擅长处理中式元素，如山水画、水墨风格等。
多模态融合：整合文本、图像、语音和视频处理能力，覆盖全模态内容生成场景，实现从静态图像到动态视频的无缝转换。
可控性与自由度：通过拆解配色、布局、风格等元素，用户可以对生成内容进行高度定制化调整，既保证了创作的灵活性，又提供了精细控制的能力。

技术架构

WanX隶属于阿里云“通义大模型家族”，首次亮相于2023年世界人工智能大会（WAIC）。其核心模型基于阿里自研的Composer框架，结合扩散模型、生成对抗网络（GAN）和CLIP模型等先进技术，实现了多模态内容的高效生成与编辑。

关键技术创新

高效VAE（变分自编码器）与DiT架构：在2025年发布的2.1版本中，引入了高效VAE和DiT架构，显著提升了时空上下文建模能力，支持无限长1080P视频的高效编解码。
IC-LoRA训练方法：通过该方法优化物理规律模拟，能够还原碰撞、反弹等真实物理效果，使生成内容更加贴近现实。

核心功能与创新点

1. 图像生成与编辑

文生图：根据文本描述生成水彩、油画、中国画等风格图像，支持多比例输出（如 1:1、4:3 等）。
图生图与风格迁移：基于参考图生成相似内容或转换风格，保留原图主体并应用新视觉风格。
局部重绘：针对特定区域调整细节，无需全图修改。
虚拟模特与商品图生成：在电商场景中，可自定义模特形象与背景，生成商品展示大片。

2. 视频生成与增强

文生视频：输入文本或关键词生成高清视频，支持“灵感扩写”功能丰富内容。
图生视频：将静态图片转化为动态视频，适用于广告和社交媒体。
中文艺术字视频：2.1 版本新增功能，支持中英文字幕特效生成，提升本土化创作体验。
物理规律模拟：通过 IC-LoRA 训练方法，还原碰撞、反弹等真实物理效果。

3. 特色功能

涂鸦作画：将手绘草图转化为精致艺术作品。
短片创作：整合图像与视频功能，快速生成创意短片。
风格化模板：强调中国传统元素（如山水画、水墨风格），满足文化创意需求。

技术优势与市场反馈

1. 竞争优势

中文理解优势：本土化语义处理能力超越 Midjourney 等国际竞品。
全链路覆盖：从图像到视频的全模态生成能力，支持复杂创作流程。
企业级服务：通过阿里云与钉钉服务超过 30 万企业用户，覆盖金融、医疗、教育等领域。

2. 行业认可

VBench 榜单领先：2.1 版本在运动幅度、多对象生成等维度以 84.7% 总分登顶。
商业化规模：截至 2025 年，累计生成 7500 万张图像，视频生成请求超过 100 万次。

版本与服务

WanX 2.1

阿里 WanX 团队最新发布的 WanX 2.1 视频模型已在通义万相平台上线，并通过阿里百炼平台提供 API 服务。此次发布包括两款模型：

wanx2.1-t2v-turbo：快速的生成速度和均衡的表现受到青睐，价格为 0.24 元/秒。
wanx2.1-t2v-plus：在生成细节和画面质感上更为出色，价格为 0.70 元/秒。

官方免费的在线体验现已在 HuggingFace上线，WanX 团队也已预告 WanX 2.1 视频模型将开源。

相关：

阿里巴巴通义实验室开源视频生成模型 Wan2.1

数据统计

相关导航

FLORA

FLORA 是一款创意图像和视频创作工具，接入了顶级 AI 绘画和视频模型。它通过优雅的交互设计，帮助创意团队构建结构化、可扩展的工作流，提升创作速度和控制力，支持多人实时协作。

Edit Mind

Edit Mind 是一款跨平台桌面应用，充当编辑的第二大脑，使用 AI 索引视频（物体检测、人脸识别、情绪分析），支持自然语言查询的语义搜索，并生成粗剪。

绘想

百度发布的“绘想”平台与“MuseSteamer”模型，标志着其在AI视频生成领域的正式布局。尽管目前模型在动态表现与帧率方面仍有提升空间，但其对企业用户的支持能力、生成效率及成本优势，已展现出良好的应用前景。

Utopai Studios

Utopai Studios 正式向公众开放 PAI，这是一款革命性的影视级 AI 视频模型与工作流。与市面上大多数专注于生成短片段或视觉实验的工具不同，PAI 专为多场景叙事、长格式内容创作及版权合规而生，旨在填补从“创意原型”到“最终成片”之间的巨大空白。

Pollo AI

Pollo AI 是一款集多种先进AI模型于一体的生成工具，为用户提供了多样化的创作选择。无论是视频生成、图片生成，还是后期增强处理，Pollo AI 都能在一个平台上满足用户的多样化需求。

VideoFX

VideoFX是谷歌AI实验室的一个实验性AI视频生成产品，由 Veo 2.0模型提供支持，目前还处于抢先体验阶段，Veo 2 是一款极其高质量的视频生成模型，能够在广泛的题材和风格中创建逼真的视频内容。

MovieFlo.AI

MovieFloAI是一个由AI驱动的平台，帮助任何人通过轻松生成各种风格的角色、剧本、故事板和视频来创作视觉故事。MovieFlo.AI 的目标很明确：降低影视创作门槛，让每个人都能成为故事讲述者。

FluxKontext.space

FluxKontext.space

FluxKontext.space 不只是一个简单的图像生成界面，而是一个从用户系统、支付流程到图像生成逻辑都完整实现的商业化平台模板。它为想要进入 AI 创作领域的开发者提供了一个高质量的起点。

暂无评论

none

暂无评论...