2025 年 12 月 31 日,阿里 Qwen 项目组发布了 Qwen-Image-2512 —— Qwen-Image 文生图基础模型的最新版本。这是继今年 8 月首次开源 Qwen-Image 后的一次重要迭代,聚焦于图像真实感、细节表现力和图文混合渲染能力的全面提升。
- GitHub:https://github.com/QwenLM/Qwen-Image
- Hugging Face:https://huggingface.co/Qwen/Qwen-Image-2512
- 魔塔:https://modelscope.cn/models/Qwen/Qwen-Image-2512
- ComfyUI:https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI
- GGUF版:https://huggingface.co/unsloth/Qwen-Image-2512-GGUF
- 加速模型:https://huggingface.co/Wuli-art/Qwen-Image-2512-Turbo-LoRA
- Qwen-Image-2512-Lightning:https://huggingface.co/lightx2v/Qwen-Image-2512-Lightning

更真实的人物质感
与前一版本相比,Qwen-Image-2512 显著降低了“AI感”,生成的人物图像在皮肤质感、光影过渡和表情自然度上更为逼真。这一改进对人像生成、虚拟角色设计等应用场景尤为重要,也意味着模型在理解人类面部结构和材质细节方面取得了实质性进展。
更细腻的自然纹理
新版本在自然场景的表现上同样有明显优化。无论是风景中的植被层次、水面反射,还是动物毛发的密度与走向,Qwen-Image-2512 都展现出更强的细节捕捉能力。这不仅提升了视觉观感,也为需要高保真图像输出的创意工作提供了更可靠的支持。
更复杂的文字渲染
图文混合生成一直是文生图模型的技术难点。Qwen-Image-2512 在此方面取得关键突破:不仅能够更准确地渲染中英文混合文本,还在排版逻辑、字体适配和文字与背景的融合上表现更佳。对于海报设计、信息图制作等任务,这一改进大幅提升了可用性。
模型性能验证
Qwen 项目组在 AI Arena 平台上组织了超过 1 万局的盲测对比。结果显示,Qwen-Image-2512 不仅在开源模型中排名第一,即便与主流闭源模型同台竞技,也展现出强劲的竞争力。这一成绩验证了其在图像生成质量上的综合优势。

示例展示
更真实的人物质感
在Qwen-Image-2512模型中,人物质感获得显著提升。相比于8月份的原版Qwen-Image,Qwen-Image-2512显著增加了人物面部细节。我们看下面这个例子:
一位中国女性大学生,性别女,年龄约20岁左右,超短发发型略带柔和文艺感,发丝自然垂落遮住部分脸颊,整体风格偏向假小子(tomboy)气质。她肤色冷白,五官清秀,表情略显羞涩又带着一丝拽劲,嘴角微微歪起,流露出痞帅又青春的神态。身穿一字领露肩短袖上衣,露出一侧肩膀,身材匀称。画面为近景自拍构图,人物占据主体位置,背景清晰可见宿舍环境:上铺床铺铺着白色床上三件套,旁边是一张桌面物品摆放整齐的书桌,以及木制柜子与抽屉。整体采用手机拍摄,光线为均匀柔和的环境光,色调自然真实,画面清晰明亮,氛围轻快鲜活,充满日常生活的青春气息。

对于同一prompt,Qwen-Image-2512生成人物面部会更加真实,背景出现的书桌、文具,包括被褥细节会比Qwen-Image要显著清晰。再比如:
一位20岁少女,东亚人,五官清秀可爱,棕色大眼睛明亮有神,神情活泼或带着含蓄微笑。她留着自然微卷的长发,或扎成双马尾,肤色白皙,妆容清淡,突出青春感。身穿明亮柔和色调的可爱现代风裙装或宽松套装,材质轻盈,剪裁简洁。她站在室内动漫展背景中,周围可见展板、海报或摊位陈设,环境光线为日常室内照明,无刻意打光,整体画面如普通iPhone快照般自然随意,构图平实却洋溢着清新明快的少女气息与青春活力。

在这里例子中,我们可以重点观察发丝。对比能看到8月版的Qwen-Image头发是模糊在一起的,发丝的细节没有得到很好的客户。而Qwen-Image-2512则是细腻的刻画了发丝,生成的图片也更加真实自然。
一位东亚少年,年龄约15-18岁,黑发蓬松短发,发质略显柔软,面部轮廓清秀,眼睛大而明亮,呈温暖的棕色,眼神充满活力。他肤色白皙,面带阳光开朗的笑容,表情亲切自然,无明显妆容或瑕疵。身穿蓝白相间的夏季校服衬衫,领口微敞,衣料轻薄透气,脖子上挂着一副黑色耳机。双手插在裤袋中,身体微微前倾,姿态放松,似正与人交谈。背景为夏日校园操场,前景可见鲜绿色草坪与红色塑胶跑道,远处有模糊的教学楼轮廓,天空湛蓝,飘着几朵蓬松白云,整体光线明亮通透,氛围青春洋溢、轻松愉快。

在上面例子中,我可以看到Qwen-Image-2512相比于Qwen-Image更遵循人物的语义刻画。比如Prompt里面要求人物“身体微微前倾”,Qwen-Image-2512更好的遵循了语义,刻画了人物姿势。
一对七十多岁的中国老人在家中整洁有序的厨房里,老太太面容慈祥,脸上挂着温暖的笑容,系着一条花式围裙;老头站在她身后,同样满脸笑意,两人一同注视着灶台上蒸腾热气的一大锅包子。厨房干净明亮,物品摆放井然有序,整体氛围温馨和睦。画面采用广角镜头拍摄,完整呈现人物与环境的关系。

这个例子可以更加显著的对比8月份模型和12月模型的区别。可以看到原版Qwen-Image难以准确刻画老爷爷和老奶奶面部的皱纹,因此生成的图片AI感很强,但是2512可以更准确的刻画人物,因此真实度显著增高。
更细腻的自然纹理
Qwen-Image-2512对细节的刻画不仅仅包括人物,也包括自然风景、动物等等。例如下面这个例子:
一条翠绿色的河流蜿蜒流经葱郁峡谷,两岸岩壁覆盖着厚实的苔藓与茂密蕨类植物,数道瀑布自高处飞泻而下,水雾缭绕。正午阳光透过浓密树冠,在河面投下斑驳跃动的光点,整体氛围湿润清新,充满原始丛林的蓬勃生机。图中无人物、文字或人工痕迹。

通过左右对比,可以看到Qwen-Image-2512对于水流、树木、瀑布的刻画要更加细腻,对于绿色的层次感也更强。下面这个例子也一样,是对海浪的刻画:
黎明时分,薄雾轻笼海面,一座古老的石砌灯塔矗立于海岸尽头,塔顶灯光在晨雾中若隐若现。黑色礁石被海浪不断拍打,激起簇簇白色浪花。天空呈现柔和的蓝紫色调,光线清冷朦胧,整体氛围孤寂而庄严。

Qwen-Image-2512对于细节刻画的增强也可以在动物毛发上显著的看到,例如对于下面图片的毛发细节:
一只金毛寻回犬的超写实特写肖像,置于柔和自然日光下的户外场景中;毛发细节极为精细——根根分明,色泽从暖金色到浅奶油色自然过渡,微光在毛尖轻盈跳跃,微风拂过带来轻微蓬松感;底层绒毛柔软浓密,外层护毛修长分明,层次清晰可见;双眼清澈湿润、富有情感,鼻头微润并带有细腻的高光反光;背景虚化柔和,突出狗狗真实可触的质感与生动神态。

此外,雄性盘羊的身体纹理细节也能看到2512在质感上的提升:
一头雄性盘羊伫立在崎岖裸露的岩石山坡上,灰褐色皮毛粗硬浓密,身躯魁梧结实,肌肉线条分明。它最引人注目的是那对巨大、厚重且向外螺旋盘旋的角,彰显其野性力量。盘羊眼神警觉,目光锐利地扫视四周环境。背景为陡峭险峻的高山地貌,山体嶙峋,植被稀疏低矮,阳光充沛,整体画面凸显高山荒野的苍劲氛围与盘羊顽强的生命力。

更复杂的文字渲染
Qwen-Image-2512在文字渲染上也相比于前作进行了提升。值得一提的是,Qwen-Image原版的最大特色就是复杂文本渲染,2512相比之下,进一步提升了渲染的质量。例如,我们在下面的例子生成完整的一页ppt流程图,讲述Qwen-Image的生图路线和编辑路线发展历程:
这是一张现代风格的科技感幻灯片,整体采用深蓝色渐变背景。标题是“Qwen-Image发展历程”。下方一条水平延伸的发光时间轴,轴线中间写着“生图路线”。由左侧淡蓝色渐变为右侧深紫色,并以精致的箭头收尾。时间轴上每个节点通过虚线连接至下方醒目的蓝色圆角矩形日期标签,标签内为清晰白色字体,从左向右依次写着:“2025年5月6日 Qwen-Image 项目启动”“2025年8月4日 Qwen-Image 开源发布”“2025年12月31日 Qwen-Image-2512 开源发布” (周围光晕显著)在下方一条水平延伸的发光时间轴,轴线中间写着“编辑路线”。由左侧淡蓝色渐变为右侧深紫色,并以精致的箭头收尾。时间轴上每个节点通过虚线连接至下方醒目的蓝色圆角矩形日期标签,标签内为清晰白色字体,从左向右依次写着:“2025年8月18日 Qwen-Image-Edit 开源发布”“2025年9月22日 Qwen-Image-Edit-2509 开源发布”“2025年12月19日 Qwen-Image-Layered 开源发布”“2025年12月23日 Qwen-Image-Edit-2511 开源发布”

我们甚至可以利用Qwen-Image-2512生成版本前后对比PPT,突出“没有细节的AI感”和“更真实的纹理”之间的区别:
这是一张现代风格的科技感幻灯片,整体采用深蓝色渐变背景。顶部中央为白色无衬线粗体大字标题“Qwen-Image-2512重磅发布”。画面主体为横向对比图,视觉焦点集中于中间的升级对比区域。左侧为面部光滑没有任何细节的女性人像,质感差;右侧为高度写实的年轻女性肖像,皮肤呈现真实毛孔纹理与细微光影变化,发丝根根分明,眼眸透亮,表情自然,整体质感接近写实摄影。两图像之间以一个绿色流线型箭头链接。造型科技感十足,中部标注“2512质感升级”,使用白色加粗字体,居中显示。箭头两侧有微弱光晕效果,增强动态感。在图像下方,以白色文字呈现三行说明:“● 更真实的人物质感。大幅度降低了生成图片的AI感,提升了图像真实性 ● 更细腻的自然纹理。大幅度提升了生成图片的纹理细节。风景图,动物毛发刻画更细腻。● 更复杂的文字渲染。大幅提升了文字渲染的质量。图文混合渲染更准确,排版更好”

下面是一个更复杂的图文渲染例子:
这是一幅专业级工业技术信息图表,整体采用深蓝色科技感背景,光线均匀柔和,营造出冷静、精准的现代工业氛围。画面分为左右两大板块,布局清晰,视觉层次分明。左侧板块标题为“实际发生的现象”,以浅蓝色圆角矩形框突出显示,内部排列三个深蓝色按钮式条目,第一个条目展示一堆棕色粉末状原料上滴落水滴的图标,文字为“团聚/结块”,后面配有绿色对钩;第二个条目为一个装有蓝色液体并冒出气泡的锥形瓶,文字为“产生气泡/缺陷”,后面配有绿色对钩;第三个条目为两个生锈的齿轮,文字为“设备腐蚀/催化剂失活”,后面配有绿色对钩。右侧板块标题为“【不会】发生的现象”,使用米黄色圆角矩形框呈现,内部四个条目均置于深灰色背景方框中。图标分别为:一组精密啮合的金属齿轮,文字为“反应效率【显著提高】”,上方覆盖醒目的红色叉号;一捆整齐排列的金属管材,文字为“成品内部【绝对无气泡/孔隙】”,上方覆盖醒目的红色叉号;一条坚固的金属链条正在承受拉力,文字为“材料强度与耐久性【得到增强】”,上方覆盖醒目的红色叉号;一堆腐蚀的扳手,文字为“加工过程【零腐蚀/零副反应风险】”,上方覆盖醒目的红色叉号。底部中央有一行小字注释:“注:水分的存在通常会导致负面或干扰性的结果,而非理想或增强的状态”,字体为白色,清晰可读。整体风格现代简约,配色对比强烈,图形符号准确传达技术逻辑,适合用于工业培训或科普演示场景。

或者是生成完整的海报:
这是一幅由十二个分格组成的3×4网格布局的写实摄影作品,整体呈现“健康的一天”主题,画面风格简洁清晰,每一分格独立成景又统一于生活节奏的叙事脉络。第一行分别是“06:00 晨跑唤醒身体”:面部特写,一位女性身穿灰色运动套装,背景是初升的朝阳与葱郁绿树;“06:30 动态拉伸激活关节”:女性身着瑜伽服在阳台做晨间拉伸,身体舒展,背景为淡粉色天空与远山轮廓;“07:30 均衡营养早餐”:桌上摆放全麦面包、牛油果和一杯橙汁,女性微笑着准备用餐;“08:00 补水润燥”:透明玻璃水杯中浮有柠檬片,女性手持水杯轻啜,阳光从左侧斜照入室,杯壁水珠滑落;第二行分别是:“09:00 专注高效工作”:女性专注敲击键盘,屏幕显示简洁界面,身旁放有一杯咖啡与一盆绿植;“12:00 静心阅读时光”:女性坐在书桌前翻阅纸质书籍,台灯散发暖光,书页泛黄,旁放半杯红茶;“12:30 午后轻松漫步”:女性在林荫道上漫步,脸部特写;“15:00 茶香伴午后”:女性端着骨瓷茶杯站在窗边,窗外是城市街景与飘动云朵,茶香袅袅;第三行分别是:“18:00 运动释放压力”:健身房内,女性正在练习瑜伽;“19:00 美味晚餐”:女性在开放式厨房中切菜,砧板上有番茄与青椒,锅中热气升腾,灯光温暖;“21:00 冥想助眠”:女性盘腿坐在柔软地毯上冥想,双手轻放膝上,闭目宁静;“21:30 进入睡眠”:女性躺在床上休息。整体采用自然光线为主,色调以暖白与米灰为基调,光影层次分明,画面充满温馨的生活气息与规律的节奏感。
















