腾讯混元推出 HunyuanImage 3.0-Instruct:原生多模态图像编辑模型,支持精准编辑与多图融合

图像模型10小时前发布 小马良
5 0

腾讯混元项目组正式开源 HunyuanImage 3.0-Instruct —— 一款专注于图像编辑的原生多模态大模型。该模型不仅能理解输入图像的语义内容,还能基于复杂指令进行推理,并生成高保真、高一致性的编辑结果。

其核心突破在于原生统一了视觉理解与图像生成能力,无需依赖外部模块或级联流程,实现端到端的智能编辑。

腾讯混元推出 HunyuanImage 3.0-Instruct:原生多模态图像编辑模型,支持精准编辑与多图融合

腾讯混元发布 HunyuanImage-3.0:800亿参数开源原生多模态模型,实现“语义理解-图像生成”的深度融合

模型架构:800 亿参数 MoE,130 亿激活

HunyuanImage 3.0-Instruct 基于 800 亿总参数的混合专家(MoE)架构,每次推理仅激活约 130 亿参数,在保持高性能的同时控制计算开销。这一设计使其既能处理细粒度视觉任务,又具备大规模语言-视觉对齐能力。

核心创新:原生思维链 + MixGRPO 算法

与传统“指令-执行”式模型不同,HunyuanImage 3.0-Instruct 内置 原生思维链(Chain-of-Thought, CoT)机制:

  • 面对复杂编辑指令(如“将左侧人物换成穿红色风衣的女性,背景改为雨天东京街头”),模型会先进行多步推理,分解任务目标;
  • 结合腾讯自研的 MixGRPO 强化学习算法,优化生成结果与人类偏好的一致性;
  • 最终输出不仅满足指令要求,还保持非编辑区域的像素级一致性,避免无关内容被意外修改。

这一机制使模型真正具备“思考”能力,而非简单模式匹配。

关键能力

1. 精准局部编辑

  • 支持添加、移除、替换图像中的特定元素;
  • 严格保护非目标区域,确保背景、光照、透视等上下文不变;
  • 适用于人像换装、物体移除、场景替换等精细操作。

2. 多图像无缝融合

  • 可同时解析多张参考图,提取关键元素(如人物、物品、风格);
  • 将其融合为单一、连贯的新场景,保持光照、比例与风格统一;
  • 例如:从图 A 提取人物,图 B 提取建筑,图 C 提取天气效果,合成一张完整街景。

3. 智能提示词增强

  • Instruct 版本支持对用户输入的自然语言提示进行自动优化;
  • 即使提示简略(如“加个帽子”),也能推断合理细节(帽子类型、颜色、光影匹配)。

性能表现:人工评估 SOTA

在 GSB(Good/Same/Bad)人工评估中,模型表现达到当前领先水平:

  • 评估规模:1000+ 单图与多图编辑案例
  • 评估方式:每条提示仅生成一次,无结果筛选;100+ 专业评估员盲测
  • 对比基准:与主流开源及闭源模型在默认设置下公平比较

结果显示,HunyuanImage 3.0-Instruct 在整体图像感知质量指令对齐度上显著优于多数基线模型,性能可与顶尖专有系统媲美。

腾讯混元推出 HunyuanImage 3.0-Instruct:原生多模态图像编辑模型,支持精准编辑与多图融合

版本与部署

  • HunyuanImage-3.0-Instruct:完整版,支持复杂推理与高保真生成
  • HunyuanImage-3.0-Instruct-Distil:蒸馏版本,推荐用于高效部署,8 步采样即可获得高质量结果

两个版本均已在 Hugging Face 开源,支持本地运行,无需 API 调用。

开源愿景

腾讯混元希望通过开放 HunyuanImage 3.0-Instruct,为社区提供一个强大、可靠、可扩展的图像编辑基础模型,推动创意工具、内容生成、AIGC 应用等领域的创新。

© 版权声明

相关文章

暂无评论

none
暂无评论...