多模态框架Tar:通过统一的离散语义表示将视觉理解和生成任务整合到一个共享空间中香港中文大学和字节跳动的研究人员推出多模态框架Tar,通过统一的离散语义表示将视觉理解和生成任务整合到一个共享空间中。该框架的核心是 Text-Aligned Tokenizer (TA-Tok),它...图像模型# Tar# 多模态框架7个月前03460
北京人工智能研究院推出新一代统一多模态图像生成模型OmniGen2:视觉理解、文本到图像生成、指令驱动编辑和基于主体的上下文生成能力在上一代模型 OmniGen 发布仅 7 个月后,北京人工智能研究院正式推出了其升级版——OmniGen2,一个集成了视觉理解、文本到图像生成、指令驱动编辑和基于主体的上下文生成能力的统一多模态模型...图像模型# OmniGen2# 北京人工智能研究院# 统一多模态图像生成7个月前02800
Soul AI推出新型推出新型图像生成模型 TransDiff :将自回归(AR)Transformer 和扩散模型相结合,用于高质量的图像生成Soul AI推出新型图像生成模型 TransDiff ,该模型将自回归(AR)Transformer 和扩散模型相结合,用于高质量的图像生成。TransDiff 通过将输入编码为高级语义特征,并利用...图像模型# TransDiff# 图像生成模型7个月前02420
Krea AI 正式发布首款图像模型 Krea 1:专治“AI味”画面!今天,AI 创意工具平台 Krea AI 宣布推出其首款自研图像生成模型 —— Krea 1。这款模型专注于解决一个长期困扰创作者的问题: “AI 生成的画面,总感觉像 AI。” 而现在,Krea 1...图像模型# Krea 1# Krea AI# 图像模型7个月前03650
MARBLE:基于 CLIP 空间的图像材质编辑新方法在计算机视觉与图形学领域,图像中对象材质的编辑是一项具有挑战性的任务。传统方法往往依赖复杂的建模与渲染流程,而近年来,借助预训练扩散模型与语义嵌入空间(如CLIP)的技术逐渐成为研究热点。 项目主页...图像模型# MARBLE# 图像材质编辑7个月前02610
字节跳动 Seed 团队正式发布 SeedEdit 3.0:支持 4K 图像编辑,编辑可用率显著提升今日,字节跳动 Seed 团队正式发布了新一代图像编辑模型 SeedEdit 3.0。该模型基于文生图模型 Seedream 3.0,融合多样化的训练数据与奖励机制,在图像主体与背景一致性、指令理解能...图像模型# SeedEdit 3.0# 字节跳动7个月前01910
原生分辨率图像生成新范式NiT:原生分辨率扩散Transformer,实现任意分辨率和宽高比图像生成大语言模型(LLMs)凭借其在原生数据格式上训练的能力,能够高效处理可变长度文本。这种灵活的适应性启发我们思考一个关键问题: 扩散模型能否也具备类似的灵活性,在任意分辨率和宽高比下直接学习生成图像? ...图像模型# NiT# 原生分辨率生成7个月前03260
统一视觉理解与生成框架UniWorld:支持 20+语义图片编辑任务北京大学深圳研究生院、鹏城实验室、兔展AI的研究人员推出统一视觉理解与生成框架UniWorld,它基于强大的视觉-语言模型和对比语义编码器,能够同时处理图像感知和图像操控任务。 GitHub:http...图像模型# UniWorld# 图像生成# 图像编辑7个月前03720
Black Forest Labs 推出新一代上下文感知图像生成模型FLUX.1 Kontext,支持图像生成及编辑继 FLUX.1 系列大获成功后,Black Forest Labs(黑森林实验室) 在今天正式发布其最新力作 —— FLUX.1 Kontext。 这是一套全新的上下文流匹配生成模型(Context...图像模型# Black Forest Labs# FLUX.1 Kontext# 黑森林实验室8个月前06130
OmniConsistency:解决图像风格化中“一致性”难题的通用插件,提升了图像风格化的一致性与美学质量在图像风格化领域,扩散模型已经取得了显著进展。然而,两个核心问题始终困扰着研究者与开发者: 如何在复杂场景下保持一致的风格化效果? 尤其是在身份、构图和细节上的保留。 如何防止图像到图像(I2I)流水...图像模型# OmniConsistency# 图像风格化8个月前04100
gen2seg:将生成模型(如Stable Diffusion和MAE)应用于实例分割任务加州大学戴维斯分校的研究人员推出GEN2SEG,将生成模型(如Stable Diffusion和MAE)应用于实例分割任务,特别是对于那些在预训练和微调阶段未见过的物体类型和风格。通过微调这些生成模型...图像模型# gen2seg# 实例分割# 生成模型8个月前03880
开源版GPT-4o!字节跳动开源新一代多模态模型 BAGEL:多模态理解、图像生成、图像编辑,还能“思考”字节跳动发布了一款名为 BAGEL 的开源多模态基础模型,该模型拥有 70 亿活跃参数(总规模为 140 亿),在大规模交错多模态数据上进行训练。BAGEL 不仅在标准多模态理解排行榜中超越了当前主流...图像模型# BAGEL# GPT-4o# 多模态模型8个月前07580