百科 | 第145页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

4D 场景纹理化Tex4D：使用视频扩散模型为未纹理化的动画网格序列生成多视图、时间一致的 4D 纹理

来自香港中文大学（深圳）、NVIDIA 和加州大学默塞德分校的研究人员开发了 Tex4D，这是一种零样本方法，使用视频扩散模型为未纹理化的动画网格序列生成多视图、时间一致的 4D 纹理。简单来说，如果...

新技术 # 4D 场景 # 4D 纹理 # Tex4D

1年前

03730

FlexGen框架：能够根据单一视角的图像、文本提示或两者的结合来灵活生成可控制且一致的多视图图像

来自香港科技大学（广州）、香港科技大学和趣玩的研究人员开发了一个名为FlexGen的框架，它能够根据单一视角的图像、文本提示或两者的结合来灵活生成可控制且一致的多视图图像。想象一下，你给FlexGen...

新技术 # FlexGen

1年前

04520

结合了大语言模型与文生图模型的新框架SGEdit：用于基于场景图的精确和灵活的图像编辑

场景图提供了一种结构化、层次化的图像表示方式，其中节点和边分别代表图像中的对象及其相互关系。这种方式不仅能够帮助用户更直观地理解图像内容，还能作为图像编辑的有效接口，极大提升了编辑工作的准确性和灵活性...

新技术 # SGEdit # 图像编辑 # 大语言模型

1年前

04250

GS^3：从多视角点光源输入图像中实时合成高质量的新光照和视图

浙江大学CAD与CG国家重点实验室推出一种新技术，用于从多视角点光源输入图像中实时合成高质量的新光照和视图。他们的方法称为 GS^3，使用基于空间和角度的高斯表示，并结合三重 splatting 过程...

新技术 # GS^3 # 多视角点光源

1年前

03870

新型图像生成技术“集合自回归模型”（SAR）：通过改变图像生成的顺序和方式，使得生成图像的速度和灵活性都得到了极大的提升

香港中文大学MMLab 、上海人工智能实验室和南京大学的研究人员推出一种新的图像生成技术“集合自回归模型”（Set AutoRegressive Modeling，简称SAR）。你可以把它想象成一个超...

新技术 # SAR # 图像生成 # 集合自回归模型

1年前

04210

新型条件图像生成模型BiGR：不仅能创作出高质量的图像，还能理解和识别图像中的内容

香港大学、香港科技大学、云天励飞和香港中文大学的研究人员介绍了一种名为BiGR（Binary Generative Representation）的新型条件图像生成模型。BiGR 使用紧凑的二进制潜在...

新技术 # BiGR # 条件图像生成模型

1年前

04580

灵活视觉变换器FiT v2：根据给定的文本描述或已有的图像，生成高质量、高分辨率的新图像

自然界的图像具有无穷的分辨率，而现有的扩散模型（如扩散变换器）在处理超出其训练领域的图像分辨率时常常面临挑战。为了解决这一限制，研究人员提出了一种新的视角，将图像概念化为具有动态大小的令牌序列，而不是...

新技术 # FiT v2 # 灵活视觉变换器

1年前

04330

非自回归扩散框架的动态帧化身DAWN：根据单一的肖像图像和语音音频剪辑生成生动、逼真的头部动画视频

中国科学技术大学和科大讯飞研究院的研究人员推出新框架DAWN，它能够根据单一的肖像图像和语音音频剪辑生成生动、逼真的头部动画视频。这项技术的核心在于使用非自回归（NAR）扩散模型来一次性生成动态长度的...

新技术 # DAWN # 头部动画

1年前

04490

EvolveDirector 框架：通过使用公开可用的资源来训练一个能够与高级文生图模型相媲美的模型

近年来，生成模型在生成高质量图像方面取得了显著进展，但大多数模型依赖于专有的高质量数据集，并且有些模型保留了其参数，只提供可访问的应用程序编程接口（APIs）。这限制了这些模型在下游任务中的应用。为了...

新技术 # EvolveDirector # 文生图模型

1年前

04280

角色图像动画化Animate-X：基于潜在扩散模型（LDM）的通用动画框架，让图像上的角色动起来

近年来，角色图像动画技术取得了显著进展，即从参考图像和目标姿态序列生成高质量视频。然而，大多数现有方法仅适用于人体，对拟人化角色（如卡通角色、游戏角色等）的泛化效果不佳。这种限制主要归因于对运动的建模...

新技术 # Animate-X # 角色图像动画化

1年前

03740

新型框架Cavia：生成具有相机控制功能的多视角视频

德克萨斯大学奥斯汀分校、苹果和谷歌的研究人员推出新型框架Cavia，它能够生成具有相机控制功能的多视角视频。简单来说，Cavia可以根据一张图片和一些相机运动的指令，生成一系列从不同角度和时间点观察的...

新技术 # Cavia

1年前

04820

LongAlign：改进文生图模型的长文本对齐

文生图模型的快速发展使它们能够从给定的文本生成前所未有的结果。然而，随着文本输入变长，现有的编码方法如 CLIP 面临限制，并且将生成的图像与长文本对齐变得具有挑战性。为了解决这些问题，香港大学、新加...

新技术 # LongAlign # 文生图模型 # 长文本对齐

1年前

07270

加载更多

百科