具有光照感知能力的扩散模型Relightful Harmonization来自Adobe和纽约大学的研究人员推出具有光照感知能力的扩散模型Relightful Harmonization,这是一种先进的图像处理方法,专门用于在更换人像照片背景时,保持前景人物与新背景之间的光...新技术# Relightful Harmonization# 光影2年前05520
新算法ViewFusion:解决在多视角图像生成一致性的问题来自亚马逊、悉尼大学、阿德莱德大学的研究人员推出新算法ViewFusion,它旨在解决在多视角图像合成中保持一致性的挑战。这个算法可以与现有的预训练扩散模型无缝集成,用于生成高质量、多样化的图像。 论...新技术# ViewFusion# 图像生成2年前07110
韩国团队提出文生图大模型KOALA:可在低端GPU电脑上运行韩国研究人员提出了一种高效的潜在扩散模型KOALA,该模型可以用于文本到图像的生成,研究人员构建了T2I模型KOALA-1B和KOALA-700M,减小了模型大小,降低了模型对硬件的需求,提高了模型运...新技术# KOALA# 文生图大模型# 韩国2年前08590
LayerDiffusion:可生成高质量的透明图像和图层Controlnet、Fooocus、Stable Diffusion WebUI Forge的开发者lllyasviel推出新的项目LayerDiffusion,它允许大规模预训练的潜在扩散模型(如...新技术# LayerDiffusion# 图层# 透明图像2年前06910
微调模型TCD:提高图像生成的速度和质量来自华南理工、南洋理工、北理工和悉尼大学的研究人员推出TCD(Trajectory Consistency Distillation),这是一种用于加速文生图模型图像生成的微调模型。TCD的目标是提高...新技术# TCD# 微调模型2年前08060
DistriFusion:加速高分辨率扩散模型的并行推理算法来自麻省理工学院、普林斯顿大学、Lepton AI 和 英伟达的研究人员推出DistriFusion,这是一种用于加速高分辨率扩散模型(diffusion models)的并行推理算法。 项目主页 G...新技术# DistriFusion# 高分辨率扩散模型2年前06120
基于优化框架的跨模态视频-音频生成方法Seeing and Hearing:能够同时生成视频和音频内容香港科技大学和腾讯 PCG ARC 实验室推出基于优化框架的跨模态视频-音频生成方法Seeing and Hearing,它能够同时生成视频和音频内容。方法的主要创新点在于,通过预训练的多模态模型(如...新技术# Seeing and Hearing# 优化框架# 跨模态视频-音频生成方法2年前06520
基于Kronecker积的新型适应模块DiffuseKronA:保持图像生成质量的同时,显著减少模型的参数数量来自印度信息技术研究所、Hugging Face、阳明交通大学、IBM 研究院的研究人员提出一种用于个性化扩散模型的参数高效微调方法DiffuseKronA,主要功能是在保持图像生成质量的同时,显著减...新技术# DiffuseKronA# 扩散模型2年前06950
创新框架EMO:只需要提供一张静态照片和一段语音,就能生成口型匹配的视频阿里巴巴推出创新框架EMO,它是一个能够根据音频生成表情丰富的肖像视频的系统。想象一下,你只需要提供一张静态的照片和一段语音,EMO就能创造出一个视频,视频中的人物头像会根据语音的内容和情感变化做出相...新技术# EMO# 口型匹配2年前07070
Multi-LoRA Composition:不经过训练直接融合多个 Lora 不损失效果来自伊利诺伊大学香槟分校和微软公司的研究人员公开了多LoRA组合来生成图像的项目。简单来说,LoRA是一种可以让文本生成图像模型更准确地呈现特定元素(如独特的字符、风格或服装)的技术。论文探讨了如何更...新技术# Lora# Multi-LoRA Composition2年前08670
负面提示词在Stable Diffusion中的作用及书写技巧在Stable Diffusion中,负面提示(Negative Prompts)作为一种图像生成的引导机制发挥着重要作用。它们使用户能够定义希望从生成的图像中排除的内容,这在避免产生模糊、失真或包含...科普# negative prompts# Stable Diffusion# 负面提示2年前08840
新框架VSP-LLM:通过观察视频中人的嘴型来理解和翻译说话内容这篇论文介绍了一个名为VSP-LLM(Visual Speech Processing incorporated with LLMs)的新框架,它结合了视觉语音处理和大语言模型(LLMs),以提高视觉...新技术# VSP-LLM# 大语言模型# 视觉语音翻译2年前06800