近日,国产 AI 视频生成平台 Vidu 推出 Q2 版本,重点强化了参考生图的一致性与图像编辑的实用性。作为成立仅两年多的初创团队,Vidu 在最新Artificial Analysis榜单中,其图像编辑能力首次超越 OpenAI 的 GPT-5,并与谷歌、字节跳动等大厂模型并列前三,显示出在特定任务上的技术竞争力。

此次更新的核心目标明确:从“单图好看”转向“全流程可用”。团队将研发重心放在解决行业长期痛点——如角色崩坏、风格跳变、空间穿模等问题,试图为创作者提供一套可贯穿概念到成稿的稳定工具链。
多参考生图:不止“像”,更要“稳”
Vidu 早期就将“基于单图或多图的持续创作”作为核心方向。在 Q2 版本中,这一能力进一步升级:
- 支持最多数量的参考图输入(在国内同类工具中领先);
- 可同时指定主体图(如角色);
- 模型能自动对齐参考图中的姿态、布局、纹理、光照、色彩等要素。
空间理解:避免“穿模”与“悬浮”
更关键的是其对三维空间结构的理解。当提示“大湾鸡穿梭在故宫雕花栏杆中”时,模型未将角色简单叠加在背景上,而是推断出廊道的空间纵深,使角色合理置于栏杆之间,避免了常见 AI 的“穿模”或“漂浮”问题。
风格一致性:连贯叙事的基础
在连续生成多张图像时,Vidu Q2 能在上百种动漫风格中保持角色特征与画风统一,为分镜脚本、角色设定集等需要连贯性的场景提供支持。

图像编辑:用自然语言实现精细化控制
如果说参考生图解决“如何定稿”,那么新上线的图像编辑功能则让图像真正进入工作流。Vidu Q2 支持通过自然语言指令完成以下操作:
- 添加或移除画面元素
- 替换背景或调整色调
- 修改光线方向与强度
- 调整构图(如变焦、横竖比切换)
关键优势在于:在多次编辑过程中,主体身份与核心特征始终保持一致。这对电商产品图修改、影视概念迭代、广告素材快速调整等商业化场景尤为重要。

免费体验计划
即日起至 2025 年 12 月 31 日,Vidu 推出限时免费活动:
- 会员功能全免费:文生图、参考生图、图像编辑均无限制;
- 标准版 / 专业版:每月 300 张免费额度;
- 旗舰版:无限生成。
此举降低了用户尝试门槛,也为团队收集真实场景反馈提供了机会。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















