图像模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

Face-MoGLE：一种面向高保真与可控人脸生成的新框架

在生成模型中，可控人脸合成是一项极具挑战的任务。既要保证生成图像的真实感与细节质量，又要实现对发型、五官、表情等语义属性的精确控制，二者往往难以兼顾。现有方法常将语义条件直接拼接或交叉注意力注入生成...

图像模型 # Face-MoGLE # 人脸生成

6个月前

02560

PosterGen：用多智能体系统自动生成高质量学术海报

对研究人员而言，撰写论文只是第一步。在会议展示阶段，如何将复杂的研究内容浓缩成一张信息清晰、视觉美观、叙事连贯的学术海报，是一项耗时且需要设计经验的任务。尽管已有自动化工具尝试解决这一问题，但大多数...

图像模型 # PosterGen # 学术海报

6个月前

03620

CoMPaSS：让AI“看懂”空间关系，提升文生图模型的空间理解能力

尽管当前的文本到图像（Text-to-Image, T2I）扩散模型能够生成高度逼真的图像，但在一个关键任务上仍频频失手：准确理解并渲染文本中描述的空间关系。例如，当用户输入： “一个棕色皮革沙发放...

图像模型 # CoMPaSS

6个月前

01640

复旦等团队联合突破文生图模型生成瓶颈：Pref-GRPO解决奖励操控，UniGenBench补上评估短板

文本到图像（T2I）生成技术的进步，离不开强化学习方法的优化与基准测试的支撑。但当前领域存在两大核心问题：一是传统强化学习依赖“点式奖励模型”打分，易出现“分数涨而质量降”的奖励操控现象；二是现有基准...

图像模型 # Pref-GRPO # 文生图模型

6个月前

03000

字节跳动推出 USO：统一风格与主体生成模型，开源全方案赋能创作

字节跳动智能创作实验室UXO项目组近期发布了UXO家族的新成员——USO（统一风格-主体优化定制模型）。这款模型打破了现有技术中“风格驱动”与“主体驱动”生成相互孤立的困境，能在单一框架下自由组合任意...

图像模型 # USO # 字节跳动 # 统一风格与主体生成模型

6个月前

05520

nano-banana正式版！谷歌发布全新图像模型Gemini 2.5 Flash Image，更精准的 AI 图像编辑

谷歌正在为其 Gemini 聊天机器人引入一项重要升级：全新的 AI 图像模型 Gemini 2.5 Flash Image。该模型不仅提升了图像生成质量，更在编辑精度、角色一致性与多图融合方面实现了...

图像模型 # AI 图像编辑 # Gemini 2.5 Flash Image # nano-banana

6个月前

05220

Chroma 模型家族正式发布：基于 FLUX.1-schnell，8.9亿参数开源无限制，4大分支适配不同需求

开发者 lodestones 近期宣布，基于 FLUX.1-schnell 构建的 8.9 亿参数生成模型 Chroma 已完成全部基础训练，正式开放供开发者与研究者使用。作为完全遵循 Apache ...

图像模型 # Chroma # FLUX.1 [schnell]

6个月前

01,0850

GNER-T5-XXL：GNER 提升零样本实体识别能力，可用于 Flux、Chroma 等模型

在多模态生成系统中，精准识别文本中的关键语义元素，是生成高质量图像或内容的前提。例如，当输入提示词“一位身着红色礼服的女人，手持手枪，站在黑暗小巷中”，模型需要准确识别出“红色礼服”“手枪”“黑暗小巷...

图像模型 # Chroma # FLUX # GNER-T5-XXL

6个月前

03840

阿里 Qwen 团队发布Qwen-Image-Edit：支持语义与外观双重编辑的图像编辑模型

阿里Qwen项目组今日正式推出 Qwen-Image-Edit，基于 Qwen-Image 20B 模型进一步训练而成，是 Qwen-Image 系列在图像编辑方向的重要延伸。该模型不仅继承了 Qw...

图像模型 # Qwen-Image-Edit # 图像编辑模型

6个月前

02040

Nunchaku发布量化版Qwen-Image模型，支持高效图像生成

Nunchaku 官方宣布，其基于Qwen-Image的四个量化版本模型已正式上线 Hugging Face和魔塔！这些模型专为高效文本到图像生成而优化，尤其在复杂文本渲染方面表现突出。 Huggin...

图像模型 # Nunchaku # Qwen-Image

6个月前

05950

Meta AI 发布 DINOv3：无需微调、无需标注的下一代视觉模型

Meta AI 正式推出 DINOv3 —— 一项在计算机视觉领域具有里程碑意义的自监督学习模型。它不仅刷新了密集预测任务的性能上限，更首次证明：一个通用、冻结的视觉骨干，可以在无需微调的情况下，在多...

图像模型 # DINOv3 # 视觉模型

6个月前

05540

阶跃星辰发布 NextStep-1：140 亿参数自回归模型，用“连续令牌”重塑图像生成

在图像生成领域，自回归模型长期被视作“文本专家，视觉弱项”——它们擅长逐词生成语言，却难以像扩散模型那样精细构建图像。而如今，阶跃星辰（StepFun）正试图打破这一边界。 GitHub：https...

图像模型 # NextStep-1 # 图像生成 # 图像编辑

6个月前

05250

加载更多

Face-MoGLE：一种面向高保真与可控人脸生成的新框架

PosterGen：用多智能体系统自动生成高质量学术海报

CoMPaSS：让AI“看懂”空间关系，提升文生图模型的空间理解能力

复旦等团队联合突破文生图模型生成瓶颈：Pref-GRPO解决奖励操控，UniGenBench补上评估短板

字节跳动推出 USO：统一风格与主体生成模型，开源全方案赋能创作

nano-banana正式版！谷歌发布全新图像模型Gemini 2.5 Flash Image，更精准的 AI 图像编辑

Chroma 模型家族正式发布：基于 FLUX.1-schnell，8.9亿参数开源无限制，4大分支适配不同需求

GNER-T5-XXL：GNER 提升零样本实体识别能力，可用于 Flux、Chroma 等模型

阿里 Qwen 团队发布Qwen-Image-Edit：支持语义与外观双重编辑的图像编辑模型

Nunchaku发布量化版Qwen-Image模型，支持高效图像生成

Meta AI 发布 DINOv3：无需微调、无需标注的下一代视觉模型

阶跃星辰发布 NextStep-1：140 亿参数自回归模型，用“连续令牌”重塑图像生成

OpenClaw

A股智能分析系统

OpenClaw（Clawdbot/Moltbot）

MimiClaw

OpenClaw 一键部署工具

Skills.sh

图像模型

网址

OpenClaw

A股智能分析系统

OpenClaw（Clawdbot/Moltbot）

MimiClaw

OpenClaw 一键部署工具

Skills.sh