百科 | 第134页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

图像编辑工具SwiftEdit：通过简单的文本提示实现快速的图像编辑

VinAI 研究中心、越南科技大学邮电研究所的研究人员推出图像编辑工具SwiftEdit，它能够通过简单的文本提示实现快速的图像编辑。SwiftEdit的核心优势在于其极速的编辑能力，能够在0.23秒...

新技术 # SwiftEdit # 图像编辑

1年前

03060

Golden Noise：将随机的高斯噪声转换成能够生成更高质量、与文本提示更匹配的图像的“黄金噪声”

香港科技大学（广州）、穆罕默德·本·扎耶德人工智能大学和香港浸会大学的研究人员推出一种名为“Golden Noise for Diffusion Models”的学习框架，旨在提高文生图模型的性能。这...

新技术 # Golden Noise # 黄金噪声

1年前

03840

新型单步修复模型OSDFace：用于面部恢复，将低质量图片恢复成高质量面部图像

上海交通大学和vivo的研究人员提出了OSDFace，这是一种新颖的单步扩散模型，旨在解决传统多步推理扩散模型在人脸修复中的计算密集问题，并生成和谐、逼真且与主体身份一致的人脸图像。OSDFace通过...

百科 # OSDFace # 面部修复模型

1年前

02830

MEMO：用于生成富有表情的、与音频同步的说话视频的端到端音频驱动肖像动画技术

天工 AI、南洋理工大学和新加坡国立大学的研究人员提出了MEMO（Memory-Guided Emotion-Aware Diffusion），这是一种端到端的音频驱动肖像动画方法，旨在生成身份一致且...

新技术 # MEMO # 肖像动画

1年前

03450

LumiNet：利用生成模型和潜在内在表示进行有效光照传输的新架构

博世和芝加哥丰田技术研究所的研究人员提出了LumiNet，这是一种创新的光照传输架构，旨在给定一个源图像和一个目标光照图像的情况下，合成一个捕捉目标光照的源场景重照明版本。LumiNet通过两个关键贡...

新技术 # LumiNet # 光照

1年前

02690

端到端的训练框架Mimir：通过大语言模型增强文本到视频生成

蚂蚁集团和清华大学的研究人员提出了Mimir，这是一个端到端的训练框架，旨在解决当前视频扩散模型在文本理解方面的不足，并充分利用大语言模型（LLMs）的强大文本处理能力。Mimir通过引入精心设计的标...

新技术 # Mimir # 大语言模型

1年前

02910

Inst-IT：增强大型多模态模型实例级理解能力

复旦大学计算机学院、上海创新学院和华为诺亚方舟实验室的研究人员提出了Inst-IT，这是一种通过明确的视觉提示指令调优来增强大型多模态模型（LMMs）实例级理解能力的解决方案。尽管现有的LMMs在整体...

新技术 # Inst-IT # 多模态模型

1年前

03000

CleanDIFT：从大规模预训练的扩散模型中提取无噪声、与时间步无关的通用特征表示

慕尼黑大学的研究人员推出一种名为CleanDIFT的新方法，用于从大规模预训练的扩散模型中提取无噪声、与时间步无关的通用特征表示。这种方法特别针对的是，以往在使用扩散模型提取特征时需要向图像添加噪声...

新技术 # CleanDIFT

1年前

04960

从单张图片生成3D场景的新型框架MIDI

北京航空航天大学、VAST、清华大学和香港大学的研究人员推出新型框架MIDI（Multi-Instance Diffusion），它用于从单张图片生成3D场景。这项技术的核心在于将预训练的图像到3D对...

新技术 # 3D场景 # MIDI

1年前

02930

One Shot, One Talk：从单张图像构建全身说话虚拟形象

中国科学技术大学和香港理工大学的研究人员提出了一种名为One Shot, One Talk的新颖流程，旨在解决从单张图像构建全身说话虚拟形象的挑战。该方法解决了两个关键问题：1）复杂的动态建模；2）对...

新技术 # One Shot # One Talk # 虚拟形象

1年前

03040

新型多视图生成新视角合成（NVS）模型NVComposer

香港中文大学、腾讯PCG ARC实验室和北京大学的研究人员推出新型多视图生成新视角合成（NVS）模型NVComposer，它能够从少量未对准的稀疏图像中生成新视角的视图，而无需依赖外部的多视图对齐过程...

新技术 # NVComposer

1年前

02750

Imagine360框架：能够将标准透视视频转换为360°全景视频

香港中文大学、上海交通大学、南洋理工大学和上海人工智能实验室的研究人员推出Imagine360框架，它能够将标准透视视频转换为360°全景视频，从而为用户提供全方位的沉浸式视频体验。Imagine36...

新技术 # Imagine360 # 全景视频

1年前

03360

加载更多

百科