腾讯混元推出 HunyuanImage 3.0-Instruct：原生多模态图像编辑模型，支持精准编辑与多图融合

34 0

腾讯混元项目组正式开源 HunyuanImage 3.0-Instruct —— 一款专注于图像编辑的原生多模态大模型。该模型不仅能理解输入图像的语义内容，还能基于复杂指令进行推理，并生成高保真、高一致性的编辑结果。

GitHub：https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
Hugging Face：https://huggingface.co/tencent/HunyuanImage-3.0-Instruct
Hugging Face (Distil)：https://huggingface.co/tencent/HunyuanImage-3.0-Instruct-Distil
Demo：https://hunyuan.tencent.com/chat/HunyuanDefault?from=modelSquare&modelId=Hunyuan-Image-3.0-Instruct

其核心突破在于原生统一了视觉理解与图像生成能力，无需依赖外部模块或级联流程，实现端到端的智能编辑。

腾讯混元推出 HunyuanImage 3.0-Instruct：原生多模态图像编辑模型，支持精准编辑与多图融合

腾讯混元发布 HunyuanImage-3.0：800亿参数开源原生多模态模型，实现“语义理解-图像生成”的深度融合

模型架构：800 亿参数 MoE，130 亿激活

HunyuanImage 3.0-Instruct 基于 800 亿总参数的混合专家（MoE）架构，每次推理仅激活约 130 亿参数，在保持高性能的同时控制计算开销。这一设计使其既能处理细粒度视觉任务，又具备大规模语言-视觉对齐能力。

核心创新：原生思维链 + MixGRPO 算法

与传统“指令-执行”式模型不同，HunyuanImage 3.0-Instruct 内置 原生思维链（Chain-of-Thought, CoT）机制：

面对复杂编辑指令（如“将左侧人物换成穿红色风衣的女性，背景改为雨天东京街头”），模型会先进行多步推理，分解任务目标；
结合腾讯自研的 MixGRPO 强化学习算法，优化生成结果与人类偏好的一致性；
最终输出不仅满足指令要求，还保持非编辑区域的像素级一致性，避免无关内容被意外修改。

这一机制使模型真正具备“思考”能力，而非简单模式匹配。

关键能力

1. 精准局部编辑

支持添加、移除、替换图像中的特定元素；
严格保护非目标区域，确保背景、光照、透视等上下文不变；
适用于人像换装、物体移除、场景替换等精细操作。

2. 多图像无缝融合

可同时解析多张参考图，提取关键元素（如人物、物品、风格）；
将其融合为单一、连贯的新场景，保持光照、比例与风格统一；
例如：从图 A 提取人物，图 B 提取建筑，图 C 提取天气效果，合成一张完整街景。

3. 智能提示词增强

Instruct 版本支持对用户输入的自然语言提示进行自动优化；
即使提示简略（如“加个帽子”），也能推断合理细节（帽子类型、颜色、光影匹配）。

性能表现：人工评估 SOTA

在 GSB（Good/Same/Bad）人工评估中，模型表现达到当前领先水平：

评估规模：1000+ 单图与多图编辑案例
评估方式：每条提示仅生成一次，无结果筛选；100+ 专业评估员盲测
对比基准：与主流开源及闭源模型在默认设置下公平比较

结果显示，HunyuanImage 3.0-Instruct 在整体图像感知质量与指令对齐度上显著优于多数基线模型，性能可与顶尖专有系统媲美。

版本与部署

HunyuanImage-3.0-Instruct：完整版，支持复杂推理与高保真生成
HunyuanImage-3.0-Instruct-Distil：蒸馏版本，推荐用于高效部署，8 步采样即可获得高质量结果

两个版本均已在 Hugging Face 开源，支持本地运行，无需 API 调用。

开源愿景

腾讯混元希望通过开放 HunyuanImage 3.0-Instruct，为社区提供一个强大、可靠、可扩展的图像编辑基础模型，推动创意工具、内容生成、AIGC 应用等领域的创新。

文章版权归作者所有，未经允许请勿转载。

谷歌开源野生动物识别 AI 模型 SpeciesNet

图像模型 # SpeciesNet # 谷歌 # 野生动物

1年前

04350

用文生图的新型规模感知变换器SWITTI：基于现有的下一代规模预测自回归（AR）模型

图像模型 # AR模型 # SWITTI

1年前

03960

CoMPaSS：让AI“看懂”空间关系，提升文生图模型的空间理解能力

图像模型 # CoMPaSS

6个月前

01690

基于FLUX模型的图像定制框架DreamO：支持多种图像定制任务，同时实现多种条件（如身份、主体、风格、背景等）的无缝集成

图像模型 # DreamO # 图像定制框架

10个月前

03510

暂无评论

暂无评论...

腾讯混元推出 HunyuanImage 3.0-Instruct：原生多模态图像编辑模型，支持精准编辑与多图融合

模型架构：800 亿参数 MoE，130 亿激活

核心创新：原生思维链 + MixGRPO 算法

关键能力

1. 精准局部编辑

2. 多图像无缝融合

3. 智能提示词增强

性能表现：人工评估 SOTA

版本与部署

开源愿景

阿里DiffSynth-Studio 项目组推出Z-Image-i2L：从单张图像一键生成风格 LoRA

Apache 2.0 许可！Photoroom 推出轻量级 13 亿参数开源文生图模型 PRX

相关文章

谷歌开源野生动物识别 AI 模型 SpeciesNet

用文生图的新型规模感知变换器SWITTI：基于现有的下一代规模预测自回归（AR）模型

CoMPaSS：让AI“看懂”空间关系，提升文生图模型的空间理解能力

基于FLUX模型的图像定制框架DreamO：支持多种图像定制任务，同时实现多种条件（如身份、主体、风格、背景等）的无缝集成

暂无评论

文章

Kimi × OpenClaw 最新配置指南：原生支持Kimi K2.5，三步快速搭建智能体工作流

拒绝无效等待！在 Ollama 中灵活开关 Qwen3.5 思考模式，简单问题秒回，复杂问题深究

ComfyUI 原生支持 LTX-2.3：开源音视频生成的画质新标杆

Jina AI推出文本嵌入模型Jina Embeddings v4：多模态多语言检索的通用嵌入模型

Anthropic 为“退役”的 Claude 3 Opus 开设 Substack 专栏：全球首个 AI 博客实验，每周发布“退休思考”

新型图像到3D框架Unique3D：从单视图图像高效生成高质量的3D网格模型

S.H.I.T

新QClaw

CoPaw

新WorkBuddy

新AutoClaw

waoo

腾讯混元推出 HunyuanImage 3.0-Instruct：原生多模态图像编辑模型，支持精准编辑与多图融合

模型架构：800 亿参数 MoE，130 亿激活

核心创新：原生思维链 + MixGRPO 算法

关键能力

1. 精准局部编辑

2. 多图像无缝融合

3. 智能提示词增强

性能表现：人工评估 SOTA

版本与部署

开源愿景

阿里DiffSynth-Studio 项目组推出Z-Image-i2L：从单张图像一键生成风格 LoRA

Apache 2.0 许可！Photoroom 推出轻量级 13 亿参数开源文生图模型 PRX

相关文章

文章

标签云

网址

S.H.I.T

新QClaw

CoPaw

新WorkBuddy

新AutoClaw

waoo