百科 | 第179页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

具有光照感知能力的扩散模型Relightful Harmonization

来自Adobe和纽约大学的研究人员推出具有光照感知能力的扩散模型Relightful Harmonization，这是一种先进的图像处理方法，专门用于在更换人像照片背景时，保持前景人物与新背景之间的光...

2年前

05520

新算法ViewFusion：解决在多视角图像生成一致性的问题

来自亚马逊、悉尼大学、阿德莱德大学的研究人员推出新算法ViewFusion，它旨在解决在多视角图像合成中保持一致性的挑战。这个算法可以与现有的预训练扩散模型无缝集成，用于生成高质量、多样化的图像。论...

新技术 # ViewFusion # 图像生成

2年前

07110

韩国团队提出文生图大模型KOALA：可在低端GPU电脑上运行

韩国研究人员提出了一种高效的潜在扩散模型KOALA，该模型可以用于文本到图像的生成，研究人员构建了T2I模型KOALA-1B和KOALA-700M，减小了模型大小，降低了模型对硬件的需求，提高了模型运...

新技术 # KOALA # 文生图大模型 # 韩国

2年前

08590

LayerDiffusion：可生成高质量的透明图像和图层

Controlnet、Fooocus、Stable Diffusion WebUI Forge的开发者lllyasviel推出新的项目LayerDiffusion，它允许大规模预训练的潜在扩散模型（如...

新技术 # LayerDiffusion # 图层 # 透明图像

2年前

06910

微调模型TCD：提高图像生成的速度和质量

来自华南理工、南洋理工、北理工和悉尼大学的研究人员推出TCD（Trajectory Consistency Distillation），这是一种用于加速文生图模型图像生成的微调模型。TCD的目标是提高...

新技术 # TCD # 微调模型

2年前

08060

DistriFusion：加速高分辨率扩散模型的并行推理算法

来自麻省理工学院、普林斯顿大学、Lepton AI 和英伟达的研究人员推出DistriFusion，这是一种用于加速高分辨率扩散模型（diffusion models）的并行推理算法。项目主页 G...

新技术 # DistriFusion # 高分辨率扩散模型

2年前

06120

基于优化框架的跨模态视频-音频生成方法Seeing and Hearing：能够同时生成视频和音频内容

香港科技大学和腾讯 PCG ARC 实验室推出基于优化框架的跨模态视频-音频生成方法Seeing and Hearing，它能够同时生成视频和音频内容。方法的主要创新点在于，通过预训练的多模态模型(如...

新技术 # Seeing and Hearing # 优化框架 # 跨模态视频-音频生成方法

2年前

06520

基于Kronecker积的新型适应模块DiffuseKronA：保持图像生成质量的同时，显著减少模型的参数数量

来自印度信息技术研究所、Hugging Face、阳明交通大学、IBM 研究院的研究人员提出一种用于个性化扩散模型的参数高效微调方法DiffuseKronA，主要功能是在保持图像生成质量的同时，显著减...

新技术 # DiffuseKronA # 扩散模型

2年前

06950

创新框架EMO：只需要提供一张静态照片和一段语音，就能生成口型匹配的视频

阿里巴巴推出创新框架EMO，它是一个能够根据音频生成表情丰富的肖像视频的系统。想象一下，你只需要提供一张静态的照片和一段语音，EMO就能创造出一个视频，视频中的人物头像会根据语音的内容和情感变化做出相...

新技术 # EMO # 口型匹配

2年前

07070

Multi-LoRA Composition：不经过训练直接融合多个 Lora 不损失效果

来自伊利诺伊大学香槟分校和微软公司的研究人员公开了多LoRA组合来生成图像的项目。简单来说，LoRA是一种可以让文本生成图像模型更准确地呈现特定元素（如独特的字符、风格或服装）的技术。论文探讨了如何更...

新技术 # Lora # Multi-LoRA Composition

2年前

08670

负面提示词在Stable Diffusion中的作用及书写技巧

在Stable Diffusion中，负面提示（Negative Prompts）作为一种图像生成的引导机制发挥着重要作用。它们使用户能够定义希望从生成的图像中排除的内容，这在避免产生模糊、失真或包含...

科普 # negative prompts # Stable Diffusion # 负面提示

2年前

08840

新框架VSP-LLM：通过观察视频中人的嘴型来理解和翻译说话内容

这篇论文介绍了一个名为VSP-LLM（Visual Speech Processing incorporated with LLMs）的新框架，它结合了视觉语音处理和大语言模型（LLMs），以提高视觉...

新技术 # VSP-LLM # 大语言模型 # 视觉语音翻译

2年前

06800

加载更多

百科