个性化图像生成RealCustom：理解你的描述，并生成符合你要求的个性化图像

新技术12个月前更新小马良

373 0

来自中科大、字节跳动的研究人员推出新型文本到图像定制方法RealCustom。这种方法的目标是为给定的主题生成受文本驱动的图像，这在内容创作领域具有革命性的意义。

项目主页

论文地址

想象一下，你想要创建一张图片，其中包含了你最喜欢的玩具，而且这张图片还能根据你提供的描述（比如“在沙漠中的玩具”）来定制背景和风格。RealCustom就是这样一种技术，它能够理解你的描述，并生成符合你要求的个性化图像。

RealCustom通过精确限制主题影响范围，实现了在实时开放领域中对给定主题的高质量相似性和给定文本的高控制性的统一，为个性化图像生成提供了一种新的解决方案。

主要功能：

实时图像定制： RealCustom能够实时地根据用户提供的文本描述和给定的主题（如特定的人、物体或场景）生成图像。

高质量相似性： 生成的图像在主题上与给定的图像高度相似。

高控制性： 图像中与主题无关的部分能够完全按照给定文本的描述进行控制。

主要特点：

解耦框架： RealCustom采用了一种新颖的“训练-推理”解耦框架，这使得模型在训练时学习视觉条件与原始文本条件之间的一般对齐能力，而在推理时通过自适应掩码引导策略逐步缩小给定主题的影响范围。

自适应评分模块： 在训练过程中，这个模块能够根据文本和当前生成的特征来调整影响量，从而提供平滑准确的视觉条件。

自适应掩码引导策略： 在推理过程中，这个策略通过迭代更新给定主题的影响范围和影响量，逐步将真实文本词缩小到特定主题。

工作原理：

训练阶段： RealCustom通过自适应评分模块学习如何在大规模文本-图像数据集上将视觉条件与预训练模型的原始文本条件对齐。

推理阶段： 在生成图像时，RealCustom首先使用文本到图像（T2I）分支来确定目标真实词的影响范围，然后使用文本和图像到图像（TI2I）分支来将影响量注入到这个范围内。

新技术 # RealCustom # 个性化图像生成

文章版权归作者所有，未经允许请勿转载。

Multi-LoRA Composition：不经过训练直接融合多个 Lora 不损失效果

新技术 # Lora # Multi-LoRA Composition

1年前

06080

AnyStory：用于文本到图像生成的统一单主体和多主体个性化框架，生成具有特定主体的高保真个性化图像

新技术 # AnyStory

1个月前

0740

无需训练、基于轨迹的可控图像生成技术TraDiffusion：允许用户通过鼠标轨迹来轻松引导图像的生成，而无需进行额外的训练或微调

新技术 # TraDiffusion # 图像生成

6个月前

03780

新型视频人脸超分辨率技术KEEP：让模糊不清的人脸视频变得清晰

新技术 # KEEP # 视频人脸超分辨率

6个月前

09770

暂无评论

暂无评论...

个性化图像生成RealCustom：理解你的描述，并生成符合你要求的个性化图像

视觉变换器VisionLLaMA：基于LLaMA架构设计，用于处理图像任务

阿里推出高保真图像到视频生成框架AtomoVideo

相关文章

Multi-LoRA Composition：不经过训练直接融合多个 Lora 不损失效果

AnyStory：用于文本到图像生成的统一单主体和多主体个性化框架，生成具有特定主体的高保真个性化图像

无需训练、基于轨迹的可控图像生成技术TraDiffusion：允许用户通过鼠标轨迹来轻松引导图像的生成，而无需进行额外的训练或微调

新型视频人脸超分辨率技术KEEP：让模糊不清的人脸视频变得清晰

暂无评论

文章

Adobe Podcast：一键打造专业级播客音质，AI音频神器免费体验

抖音出品的AI工具即梦：可生成图片、视频生成工具

文生图风格化工具Artist：无需训练即可实现美学控制的文本驱动风格化

Luma AI推出AI视频生成服务Dream Machine，通过自然语言描述生成逼真的视频

Cherry Studio：跨平台开源，支持多模型服务的桌面客户端

Meta推出新型视频生成模型Movie Gen：不仅能制作高清视频，还能为视频配上声音

个性化图像生成RealCustom：理解你的描述，并生成符合你要求的个性化图像

视觉变换器VisionLLaMA：基于LLaMA架构设计，用于处理图像任务

阿里推出高保真图像到视频生成框架AtomoVideo

相关文章

文章

标签云