百科 | 第26页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

SpaTracker：通过在三维空间中跟踪像素点，能够在各种复杂场景中实现精确的运动估计

来自浙江大学、加州大学伯克利分校和蚂蚁集团的研究人员推出SpatialTracker，这是一种能够在三维空间中跟踪任意二维像素点的方法。它使用单目深度估计器将2D像素提升到3D，使用三平面表示法有效表...

新技术 # SpaTracker # 三维空间

2年前

06800

无需训练的新策略FasterCache：加速高质量视频生成的视频生成模型的推理

视频生成是当前 AI 领域的一个热点研究方向，特别是基于扩散模型的方法。然而，这些模型的推理速度通常较慢，限制了它们在实际应用中的效率。香港大学、南洋理工大学 S-Lab 和上海人工智能实验室的研究人...

新技术 # FasterCache # 视频生成

1年前

06790

新型图像生成模型家族LlamaGen：将大语言模型（Llama）应用到视觉图像生成领域

香港大学及字节跳动的研究人员推出新型图像生成模型家族LlamaGen，将大语言模型（Llama）中原用于文本生成的“下一个令牌预测”范式应用到了视觉图像生成领域。LlamaGen是对传统自回归模型在图...

新技术 # LlamaGen # 图像生成 # 大语言模型

2年前

06790

视觉风格提示（Visual Style Prompting）：不需要对模型进行微调的情况下，通过参考图像来生成具有特定风格的图像

来自韩国延世大学和NAVER AI 实验室的研究团队推出“视觉风格提示（Visual Style Prompting）”，它能够在不需要对预训练模型进行微调的情况下，通过参考图像来生成具有特定风格的图...

新技术 # Visual Style Prompting # 视觉风格提示

2年前

06780

无需额外训练的缓存策略TeaCache：加速视频扩散模型的推理过程，同时保持生成视频的视觉质量

扩散模型（DMs）作为视频生成的基本骨干，因其顺序去噪的性质而面临低推理速度的挑战。尽管先前的方法通过在均匀选择的时间步长上缓存和重用模型输出来加速模型，但这种策略忽略了模型输出在不同时间步长上的差异...

新技术 # TeaCache # 缓存策略

1年前

06770

创建人物图像动画的新方法Champ：让静态人物图片动起来

来自南京大学、复旦大学和阿里巴巴的研究团队推出一种用于创建人物图像动画的新方法Champ，该方法利用潜在扩散框架内的3D人体参数模型来强化当前人体生成技术中的形状对齐和运动引导。例如，你有一张静态的照...

新技术 # Champ # 图像动画

2年前

06770

新型多模态DiT模型AV-DiT：生成既有视觉画面又有声音的高质量视频

来自多伦多大学、德克萨斯大学达拉斯分校和Adobe研究中心的研究人员推出新型多模态扩散变换器AV-DiT（Audio-Visual Diffusion Transformer），它专门设计用于联合生成...

新技术 # AV-DiT # DiT模型

2年前

06760

FoleyCrafter：用于将无声视频通过自动生成高质量、与视频同步的声音效果，从而带来沉浸式的视听体验

上海人工智能实验室he 香港中文大学（深圳）的研究人员推出FoleyCrafter系统，它专门用于将无声视频通过自动生成高质量、与视频同步的声音效果，从而带来沉浸式的视听体验。这项技术在电影、电视和游...

新技术 # FoleyCrafter

2年前

06750

图生图新技术pOps：将图像和文本转换为可以相互理解的格式，更好的生成图像

特拉维夫大学和西蒙菲莎大学的研究人员推出图生图新技术pOps（Photo-Inspired Diffusion Operators），它是一种用于生成视觉内容的先进方法。例如，你想要生成一张“在海滩上...

新技术 # pOps # 图生图

2年前

06750

新型框架Lightplane：用于处理3D神经场的高度可扩展的组件

密歇根大学和Meta的研究人员推出新型框架Lightplane，它包含两个高度可扩展的组件：Lightplane Renderer和Lightplane Splatter。这两个组件专门用于处理3D神...

新技术 # 3D场景模型 # Lightplane # Lightplane Renderer

2年前

06750

Video2Game：自动将现实世界的视频转化为真实且具备交互性的游戏环境

来自伊利诺伊大学厄巴纳-香槟分校、上海交通大学和康奈尔大学的研究人员推出Video2Game，它可以将任何真实世界的视频转换成一个实时、互动、真实感强且与浏览器兼容的游戏环境。例如，你有一段拍摄街道的...

新技术 # Video2Game # 游戏

2年前

06740

Follow-Your-Click：通过用户简单的点击和简短的动作提示来实现图像的局部动画化

来自香港科大、腾讯浑源和清华大学的团队推出新颖框架Follow-Your-Click，它能够通过用户简单的点击和简短的动作提示来实现图像的局部动画化。项目主页 GitHub 想象一下，你有一张静态图...

新技术 # Follow-Your-Click # 局部动画化

2年前

06740

加载更多

百科

SpaTracker：通过在三维空间中跟踪像素点，能够在各种复杂场景中实现精确的运动估计

无需训练的新策略FasterCache：加速高质量视频生成的视频生成模型的推理

新型图像生成模型家族LlamaGen：将大语言模型（Llama）应用到视觉图像生成领域

视觉风格提示（Visual Style Prompting）：不需要对模型进行微调的情况下，通过参考图像来生成具有特定风格的图像

无需额外训练的缓存策略TeaCache：加速视频扩散模型的推理过程，同时保持生成视频的视觉质量

创建人物图像动画的新方法Champ：让静态人物图片动起来

新型多模态DiT模型AV-DiT：生成既有视觉画面又有声音的高质量视频

FoleyCrafter：用于将无声视频通过自动生成高质量、与视频同步的声音效果，从而带来沉浸式的视听体验

图生图新技术pOps：将图像和文本转换为可以相互理解的格式，更好的生成图像

新型框架Lightplane：用于处理3D神经场的高度可扩展的组件

Video2Game：自动将现实世界的视频转化为真实且具备交互性的游戏环境

Follow-Your-Click：通过用户简单的点击和简短的动作提示来实现图像的局部动画化

S.H.I.T

新Flova

ITELLOU

Tripo

即梦 CLI

CoPaw

百科

网址

S.H.I.T

新Flova

ITELLOU

Tripo

即梦 CLI

CoPaw