基于DiT模型的多领域程序化序列生成框架MakeAnything:根据文本描述或图像生成分步骤的教程新加坡国立大学的研究团队推出 MakeAnything,这是一个基于DiT模型的多领域程序化序列生成框架,能够根据文本描述或图像生成分步骤的教程,也就是生成一致性图片序列。 GitHub:https...图像模型# DiT模型# MakeAnything10个月前02500
上海大学联合vivo推出新型交互式图像抠图方法SDMatte:用扩散模型重新定义交互式抠图上海大学与 vivo 联合研究团队近期提出一种名为 SDMatte 的新型交互式图像抠图方法。该方法基于稳定扩散模型(Stable Diffusion),支持点、框和掩码三种视觉提示,能够从自然图像中...图像模型# SDMatte# 图像抠图4个月前02490
基于视觉语言模型的端到端多模态 SVG 生成框架OmniSVG:能够生成从简单图标到复杂动漫角色的高质量 SVG 图形复旦大学和阶跃星辰的研究人员推出基于视觉语言模型(VLMs)的端到端多模态 SVG 生成框架OmniSVG,能够生成从简单图标到复杂动漫角色的高质量 SVG 图形,支持文本到 SVG、图像到 SVG ...图像模型# OmniSVG# SVG# 视觉语言模型5个月前02490
PixNerd:无需 VAE,用神经场实现端到端像素级图像生成在图像生成领域,扩散模型已成主流,但其典型架构依赖变分自编码器(VAE)将图像压缩至低维潜在空间,再在该空间进行生成。这种“两阶段”范式虽能降低计算负担,却也带来了解码伪影与信息损失等固有缺陷。 为突...图像模型# PixNerd4个月前02450
腾讯混元项目组联合北京大学提出新框架MixGRPO:用混合微分方程提升图像对齐效率在图像生成领域,如何让模型输出更符合人类审美与偏好,已成为对齐研究的核心目标。基于流匹配(Flow Matching)的生成模型近年来展现出强大潜力,而 Group Relative Policy O...图像模型# MixGRPO4个月前02420
字节跳动推出新型图像编辑方法 SuperEdit :通过改进监督信号来提升基于指令的图像编辑性能字节跳动和佛罗里达中央大学计算机视觉研究中心的研究人员推出新型图像编辑方法 SuperEdit ,通过改进监督信号来提升基于指令的图像编辑性能。 项目主页:https://liming-ai.gith...图像模型# SuperEdit# 图像编辑# 字节跳动7个月前02400
Pattern Diffusion:专为无缝图案生成而生的扩散模型由开发者 Alex Reid 推出的 Pattern Diffusion,是一个专为生成可平铺(tiling)表面图案而从零训练的扩散模型。它基于 Stable Diffusion 2-Base 架构...图像模型# Pattern Diffusion# 无缝图案4个月前02390
基于蒸馏的多功能图像生成模型DMM:通过蒸馏模型合并技术实现多功能图像生成在文本到图像(Text-to-Image, T2I)生成领域,开发者通常会基于强大的基础模型(如Stable Diffusion 1.5)进行微调,以适应特定风格或场景的需求。例如,某些模型专注于生成...图像模型# DMM# 图像生成模型# 蒸馏模型8个月前02390
字节跳动发布OneReward 框架:用单一奖励模型革新多任务图像编辑在图像生成领域,AI 已经能完成许多复杂操作:补全残缺画面、扩展图像边界、移除干扰物体,甚至在图中添加可读文本。但这些任务通常由不同模型分别处理——每个任务有自己的训练流程、评估标准和奖励机制。 这带...图像模型# FLUX.1-Fill-dev-OneReward# OneReward# 字节跳动3个月前02370
Soul AI推出新型推出新型图像生成模型 TransDiff :将自回归(AR)Transformer 和扩散模型相结合,用于高质量的图像生成Soul AI推出新型图像生成模型 TransDiff ,该模型将自回归(AR)Transformer 和扩散模型相结合,用于高质量的图像生成。TransDiff 通过将输入编码为高级语义特征,并利用...图像模型# TransDiff# 图像生成模型6个月前02370
MARBLE:基于 CLIP 空间的图像材质编辑新方法在计算机视觉与图形学领域,图像中对象材质的编辑是一项具有挑战性的任务。传统方法往往依赖复杂的建模与渲染流程,而近年来,借助预训练扩散模型与语义嵌入空间(如CLIP)的技术逐渐成为研究热点。 项目主页...图像模型# MARBLE# 图像材质编辑6个月前02370
对角蛇形扫描自回归图像生成框架DAR:用于生成高质量图像的新型自回归模型传统的自回归图像生成方法(如VQGAN)通常按照光栅扫描(raster scan)顺序生成图像令牌。这种方式在行末换行时会导致相邻令牌之间的欧几里得距离过大,从而影响生成效果。例如,当生成一张256...图像模型# DAR# 自回归模型8个月前02370