RouWei-Gemma:基于 Gemma-3-1b 的文本编码器适配器(用于 Rouwei 0.8)RouWei-Gemma是一个为 Rouwei 0.8 开发的文本编码器适配器,基于 Gemma-3-1b 构建,用于替换 SDXL 中的 CLIP 文本编码器。它利用大语言模型(LLM)的强大语义理...图像模型# Gemma-3-1b# Rouwei 0.8# RouWei-Gemma6个月前02630
字节跳动 & 复旦大学联合提出智能海报生成新框架 DreamPoster在 AI 生成图像(AIGC)领域,海报设计一直是极具挑战性的任务之一。它不仅要求模型理解文本描述,还需要兼顾视觉美感、排版逻辑和品牌一致性。近日,字节跳动与复旦大学的研究团队联合提出了一种新的文本...图像模型# DreamPoster# 字节跳动# 海报设计6个月前03090
T-LoRA:基于时间步敏感机制的扩散模型个性化定制方法在图像生成任务中,扩散模型凭借强大的表达能力成为主流方案。然而,在仅有一张图像作为训练样本的情况下,模型容易出现过拟合现象,导致生成结果过度依赖原始图像背景或姿态,而无法很好地响应文本提示。 为此,研...图像模型# T-LoRA6个月前01080
NovelAI 正式公开了其基于SD1.5的第二代图像生成模型 NovelAI Diffusion V2NovelAI 正式公开了其第二代图像生成模型 NovelAI Diffusion V2 的权重文件,供研究、个人使用及历史保存。这一举动意味着即使该模型在 NovelAI 官网停止服务后,用户仍可通...图像模型# NovelAI Diffusion V2# SD1.56个月前03150
阿里Ovis团队发布统一多模态模型Ovis-U1:理解、生成与编辑三位一体近日,阿里巴巴通义实验室Ovis团队正式发布了新一代统一多模态大模型——Ovis-U1。该模型以30亿参数为基础,实现了对多模态任务的全面覆盖,涵盖图像理解、文本到图像生成以及图像编辑三大核心能力。 ...图像模型# Ovis-U1# 统一多模态模型6个月前02310
BRIA AI 推出 Bria 3.2:专为商业设计的下一代文本到图像模型BRIA AI 正式发布其最新文本到图像模型 Bria 3.2。作为一款专为企业和商业应用打造的生成模型,Bria 3.2 凭借仅 40 亿参数 的轻量架构,在美学效果与文本渲染能力方面表现优异,经评...图像模型# Bria 3.2# BRIA AI6个月前01560
字节跳动提出的新一代多主体可控图像生成模型XVerse在文本到图像生成领域,如何实现对多个主体身份和语义属性(如姿势、风格、照明)的细粒度控制,同时保持高质量和一致性,一直是一个极具挑战性的问题。 传统方法往往存在以下问题: 在多主体场景中容易引入视觉伪...图像模型# XVerse# 图像生成模型6个月前03170
JarvisArt:由AI驱动的照片修饰智能体,释放你的艺术创造力来自厦门大学、香港科技大学(广州)、字节跳动、新加坡国立大学等机构的研究人员联合推出了一项令人瞩目的新成果 —— JarvisArt。这是一个由多模态大语言模型(MLLM)驱动的照片修饰智能体,能够理...图像模型# JarvisArt# 照片修饰智能体7个月前03590
黑森林实验室正式发布图像编辑模型FLUX.1 Kontext [dev]截至今日,所有高性能的生成式图像编辑模型均为专有工具。今天,这一局面发生了改变。 黑森林实验室(Black Forest Labs)发布了 FLUX.1 Kontext [dev],这是 FLUX.1...图像模型# FLUX.1 Kontext [dev]# 图像编辑模型# 黑森林实验室7个月前05790
Janus-4o:基于数据集 ShareGPT-4o-Image 的新型多模态图像生成模型香港中文大学(深圳) 的研究人员推出了一项重要的多模态研究成果 —— ShareGPT-4o-Image 数据集 及其衍生的开源多模态大语言模型 Janus-4o。该研究旨在将 GPT-4o 在图像生...图像模型# Janus-4o# ShareGPT-4o-Image# 数据集7个月前03250
Neta Lumina 发布:专为二次元创作打造的高品质图像生成模型由捏Ta实验室(Neta.art)训练的 Neta Lumina 是一款专注于二次元风格的高质量图像生成模型。此模型基于上海人工智能实验室 Alpha-VLLM 团队开源的 Lumina-Image...图像模型# Neta Lumina# 二次元7个月前08490
DRA-Ctrl:利用视频生成模型实现可控图像生成的新范式近年来,视频生成模型因其能够捕捉现实世界中的动态变化和复杂因果关系,被广泛视为一种“世界模拟器”。它们整合了视觉、时间、空间和语义等多个维度的信息,在建模长程依赖和多模态交互方面展现出强大潜力。 那么...图像模型# DRA-Ctrl# HunyuanVideo-I2V# 知识迁移7个月前02570