通义万象

2周前更新 2,788 0 0

通义万象是阿里云旗下的图像及视频生成平台,凭借其强大的多模态生成能力,正在引领生成式 AI 的发展。除了传统的文生图能力,通义万象现已支持文生视频、图生视频等多种功能,并在插画设计、涂鸦作画、局部重绘、短片创作、配乐生成等场景化应用中表现出色。

所在地:
中国
收录时间:
2025-02-25
其他站点:
通义万象通义万象
通义万象

通义万象是阿里云旗下的图像及视频生成平台,凭借其强大的多模态生成能力,正在引领生成式 AI 的发展。除了传统的文生图能力,通义万象现已支持文生视频、图生视频等多种功能,并在插画设计、涂鸦作画、局部重绘、短片创作、配乐生成等场景化应用中表现出色。

通义万象

其自研视觉生成大模型 WanX,具备强大的画面视觉动态生成能力,尤其擅长概念理解与组合生成,优化了中式元素的表现,并支持多语言与可变分辨率生成。

核心特点

  1. 多语言支持:兼容中英文输入,在中文语义理解和艺术字生成方面表现突出,尤其擅长处理中式元素,如山水画、水墨风格等。
  2. 多模态融合:整合文本、图像、语音和视频处理能力,覆盖全模态内容生成场景,实现从静态图像到动态视频的无缝转换。
  3. 可控性与自由度:通过拆解配色、布局、风格等元素,用户可以对生成内容进行高度定制化调整,既保证了创作的灵活性,又提供了精细控制的能力。

技术架构

WanX隶属于阿里云“通义大模型家族”,首次亮相于2023年世界人工智能大会(WAIC)。其核心模型基于阿里自研的Composer框架,结合扩散模型、生成对抗网络(GAN)和CLIP模型等先进技术,实现了多模态内容的高效生成与编辑。

关键技术创新

  • 高效VAE(变分自编码器)与DiT架构:在2025年发布的2.1版本中,引入了高效VAE和DiT架构,显著提升了时空上下文建模能力,支持无限长1080P视频的高效编解码。
  • IC-LoRA训练方法:通过该方法优化物理规律模拟,能够还原碰撞、反弹等真实物理效果,使生成内容更加贴近现实。

核心功能与创新点

1. 图像生成与编辑

  • 文生图:根据文本描述生成水彩、油画、中国画等风格图像,支持多比例输出(如 1:1、4:3 等)。
  • 图生图与风格迁移:基于参考图生成相似内容或转换风格,保留原图主体并应用新视觉风格。
  • 局部重绘:针对特定区域调整细节,无需全图修改。
  • 虚拟模特与商品图生成:在电商场景中,可自定义模特形象与背景,生成商品展示大片。
通义万象

2. 视频生成与增强

  • 文生视频:输入文本或关键词生成高清视频,支持“灵感扩写”功能丰富内容。
  • 图生视频:将静态图片转化为动态视频,适用于广告和社交媒体。
  • 中文艺术字视频:2.1 版本新增功能,支持中英文字幕特效生成,提升本土化创作体验。
  • 物理规律模拟:通过 IC-LoRA 训练方法,还原碰撞、反弹等真实物理效果。
通义万象

3. 特色功能

  • 涂鸦作画:将手绘草图转化为精致艺术作品。
  • 短片创作:整合图像与视频功能,快速生成创意短片。
  • 风格化模板:强调中国传统元素(如山水画、水墨风格),满足文化创意需求。
通义万象

技术优势与市场反馈

1. 竞争优势

  • 中文理解优势:本土化语义处理能力超越 Midjourney 等国际竞品。
  • 全链路覆盖:从图像到视频的全模态生成能力,支持复杂创作流程。
  • 企业级服务:通过阿里云与钉钉服务超过 30 万企业用户,覆盖金融、医疗、教育等领域。

2. 行业认可

  • VBench 榜单领先:2.1 版本在运动幅度、多对象生成等维度以 84.7% 总分登顶。
  • 商业化规模:截至 2025 年,累计生成 7500 万张图像,视频生成请求超过 100 万次。

版本与服务

WanX 2.1

阿里 WanX 团队最新发布的 WanX 2.1 视频模型已在通义万相平台上线,并通过阿里百炼平台提供 API 服务。此次发布包括两款模型:

  • wanx2.1-t2v-turbo:快速的生成速度和均衡的表现受到青睐,价格为 0.24 元/秒。
  • wanx2.1-t2v-plus:在生成细节和画面质感上更为出色,价格为 0.70 元/秒。

官方免费的在线体验现已在 HuggingFace 上线,WanX 团队也已预告 WanX 2.1 视频模型将开源。

通义万象

相关:

阿里巴巴通义实验室开源视频生成模型 Wan2.1

数据统计

相关导航

暂无评论

none
暂无评论...