阿里发布文生图模型Qwen-Image-2512:人像、纹理、文字渲染显著提升2025 年 12 月 31 日,阿里 Qwen 项目组发布了 Qwen-Image-2512 —— Qwen-Image 文生图基础模型的最新版本。这是继今年 8 月首次开源 Qwen-Image ...图像模型# Qwen-Image-2512# 文生图模型6天前0160
1步顶100步!TwinFlow让Qwen-Image、Z-Image推理提速100倍,无需判别器或教师模型当前,大规模多模态生成模型(如 Qwen-Image、Z-Image)在图像与视频生成上展现出惊人能力,但其推理效率仍严重受限——标准扩散或流匹配模型通常需 40–100 次函数评估(NFE)才能生成...图像模型# TwinFlow# TwinFlow-Qwen-Image# TwinFlow-Z-Image-Turbo1周前0410
fal 发布FLUX.2 Turbo:开源图像模型速度提升6倍,成本降至0.008美元/图在完成 1.4 亿美元 D 轮融资后,AI 媒体基础设施平台 fal.ai(简称 fal)于年末推出其最新成果:FLUX.2 [dev] Turbo —— 一款基于 Black Forest Labs...图像模型# FLUX.2 Turbo1周前0340
告别 “改不动”!ProEdit:反转编辑新方案,精准修改图像属性,即插即用超 SOTA解决源图像信息过度注入问题,实现更可控的图像与视频编辑 由中山大学、香港中文大学、香港大学与南洋理工大学联合提出,ProEdit 是一种高精度、即插即用的基于反转(inversion-based)的视...图像模型# ProEdit# 编辑图像1周前0350
阿里通义实验室发布Qwen-Image-Edit-2511:显著提升人物一致性与工业设计能力,支持 LoRA 集成与多图融合阿里通义实验室 Qwen 项目组正式发布 Qwen-Image-Edit-2511,这是继 9 月发布的 Qwen-Image-Edit-2509 后的增强版本。从版本号“2511”可见,该模型原计划...图像模型# Qwen-Image-Edit-2511# 图像编辑模型2周前01210
Generative Refocusing:基于单张输入图像的生成式重聚焦方法Generative Refocusing 是一种基于单张输入图像的生成式重聚焦方法,能够将任意照片转化为一个“虚拟相机”,在拍摄后灵活调整焦点位置、焦外虚化强度、光圈形状等光学属性。该方法不仅支持从...图像模型# Generative Refocusing2周前0360
港科大与阿里推出Qwen-Image-Layered:将单图分解为可编辑RGBA图层,实现像素级精准编辑在传统图像编辑中,若想修改照片中的某个物体(如移动人物、更换背景、调整颜色),往往需要复杂的抠图、蒙版或手动重绘——操作繁琐,且容易破坏整体一致性。 由香港科技大学(广州)、阿里巴巴与香港科技大学联合...图像模型# Qwen-Image-Layered# RGBA图层# 编辑模型3周前0490
MotionEdit:首个专注动作编辑的图像生成基准与训练框架当前主流的图像编辑模型在处理静态属性(如颜色、纹理、物体替换)时已相当成熟,但在修改图像中主体的动作、姿势或交互行为时仍面临显著挑战。例如,让一个人从“站立”变为“坐下”,或让其“拿起桌上的杯子”,现...图像模型# MotionEdit# 图像编辑4周前0320
扩散模型加速框架Glance:仅用 1 张图 + 1 GPU 小时,将扩散模型加速至 8 步武汉大学、新加坡国立大学、中南大学、电子科技大学和微软的研究人员推出一个用于加速扩散模型(Diffusion Models)的轻量级框架 Glance,通过“慢-快”(Slow-Fast)的阶段感知...图像模型# Glance# 加速框架1个月前0410
阿里开源Ovis-Image:7B 参数实现高质量文本渲染的文生图模型,海报 / UI 设计秒生成Ovis-Image 是由阿里巴巴国际数字商务团队开发的 70亿参数 文本到图像(Text-to-Image)生成模型,专注于解决文生图系统中长期存在的文本模糊、拼写错误、排版失真等痛点。该模型在保持...图像模型# Ovis-Image# 文生图模型1个月前02110
阿里通义发布Z-Image-Turbo:60 亿参数高效图像模型,支持中英双语文本渲染与亚秒级生成在图像生成模型多依赖“大参数堆料”的行业趋势下,阿里通义MAX项目组推出的Z-Image,以60亿参数的轻量化体量实现了颠覆性突破。这款通过系统性优化打造的图像生成基础模型,不仅在照片级真实感生成、中...图像模型# Z-Image-Turbo1个月前02240
Kandinsky 5.0 全系列开源:190亿参数视频Pro+轻量版,支持中俄双语+5-10秒HD生成来自俄罗斯的AI企业Sber AI,正式推出新一代扩散模型家族 Kandinsky 5.0,以“全场景覆盖+开源开放”为核心亮点,涵盖视频生成(T2V/I2V)、图像生成(T2I)、图像编辑三大核心能...图像模型视频模型# Kandinsky 5.01个月前0460