百科 | 第162页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

步态感知偏好优化SPO：改进SD模型的训练过程，使其生成的图像更符合人类的审美偏好

来自澳大利亚国立大学、利物浦大学、东南大学和微软亚洲研究院的研究人员推出新技术Step-aware Preference Optimization（SPO，步态感知偏好优化），用于改进文本到图像的扩散...

2年前

07570

Follow-Your系列新框架Follow-Your-Emoji：基于扩散模型的肖像动画框架，生成富有表现力的表情动画

来自香港科技大学、腾讯混元团队和清华大学的研究团队推出Follow-Your系列新框架Follow-Your-Emoji，这是一种基于扩散模型的肖像动画框架。简单来说，它可以根据一系列目标表情和动作标...

新技术 # Follow-Your-Emoji # 肖像动画框架

1年前

08330

模型量化技术BitsFusion：减少SD模型参数大小，同时还能让这个模型生成的图片质量更好

Snap和罗格斯大学的研究人员推出新型图像生成模型的权重量化技术BitsFusion。简单来说，就是研究者们开发了一种方法，可以把一个用来生成图片的复杂模型（叫做扩散模型）的参数量大大减少，同时还能让...

新技术 # BitsFusion # 模型参数 # 模型量化

2年前

06720

Controlnet作者lllyasviel新开源项目Omost：将大语言模型的编程能力转化为图像合成能力

Controlnet作者lllyasviel的新开源项目Omost，这是一个将大语言模型的编程能力转化为图像合成能力的项目。项目名称“Omost”（发音类似于“almost”，意为“几乎”）蕴含双重意...

新技术 # controlnet # lllyasviel # Omost

2年前

07560

自动化图形设计工具PosterLLaVa：利用多模态大语言模型来自动化图形设计中的布局生成任务

腾讯推出PosterLLaVa系统，它是一个统一的多模态布局生成器，利用多模态大语言模型（MLLM）来自动化图形设计中的布局生成任务。布局生成是图形设计中非常关键的一环，它需要以一种视觉上令人愉悦且遵...

新技术 # PosterLLaVa # 多模态布局生成器 # 自动化图形设计

2年前

08810

Search_T2V：改善文本到视频合成的质量和真实感

浙江大学、飞步科技、宁波港和腾讯数据平台的研究人员推出新技术Search_T2V，旨在改善文本到视频（Text-to-Video, T2V）合成的质量和真实感。该技术通过搜索现有的视频资源作为运动先验...

新技术 # Search_T2V # 文生视频模型

2年前

06810

阿里推出新型视频生成框架I4VGen：无需训练且即插即用的视频扩散推理框架

阿里推出新型视频生成框架I4VGen，这是一个无需训练（training-free）且即插即用（plug-and-play）的视频扩散推理框架，它通过强化图像技术来提升文本到视频（text-to-vi...

新技术 # I4VGen # 视频生成框架

2年前

05930

人像视频生成框架V-Express：平衡不同控制信号（如文本、音频、参考图像、姿态、深度图等）的强弱，以便在生成视频中实现更协调和有效的控制

南京大学和腾讯人工智能实验室的研究人员推出人像视频生成框架V-Express，它用于生成高质量的人像视频。这项技术特别关注于如何平衡不同控制信号（如文本、音频、参考图像、姿态、深度图等）的强弱，以便在...

新技术 # V-Express # 人像视频

2年前

06550

英伟达推出Autoguidance：改进图像生成扩散模型的性能

英伟达和阿尔托大学的研究人员推出Autoguidance，改进图像生成扩散模型的性能，特别是通过一种新颖的方法来控制图像质量、结果的变化性以及与给定条件（如类别标签或文本提示）的一致性。扩散模型是一种...

新技术 # Autoguidance # 英伟达

2年前

08080

创新框架UniAnimate：用于生成高质量、时间连贯的人类图像动画视频

华中科技大学、阿里巴巴和中国科学技术大学的研究人员推出创新框架UniAnimate，它专门用于生成高质量、时间连贯的人类图像动画视频。UniAnimate通过结合统一的视频扩散模型、统一的噪声输入和...

新技术 # UniAnimate # 视频扩散模型

2年前

09070

视频插帧新技术ZeroSmooth：提升预训练视频扩散模型生成高帧率视频的能力，而无需额外的训练数据和参数更新

中国科学院大学人工智能学院、中国科学院自动化研究所模式识别新实验室和腾讯AI实验室的研究人员推出ZeroSmooth，它能够提升预训练视频扩散模型生成高帧率视频的能力，而无需额外的训练数据和参数更新...

新技术 # ZeroSmooth # 视频插帧

2年前

08660

先进的视频深度估计方法ChronoDepth：通过结合视频生成模型的先验知识，有效地提高了深度估计的准确性和时间一致性

浙江大学、博洛尼亚大学、蚂蚁集团和Rock Universe的研究人员推出一种先进的视频深度估计方法ChronoDepth，它通过结合视频生成模型的先验知识，有效地提高了深度估计的准确性和时间一致性...

新技术 # ChronoDepth # 视频深度

2年前

08160

加载更多

百科