新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

ACDIT：介于自回归模型和扩散模型之间的插值方法，用于处理视觉信息

清华大学和字节跳动的研究人员推出ACDIT，它是一种介于自回归模型和扩散模型之间的插值方法，用于处理视觉信息。ACDIT的核心思想是将自回归建模扩展到块级别，而不是单个文本标记，使得每个块的生成可以基...

新技术 # ACDIT

1年前

02770

苹果推出用于文本和图像条件下的视频生成新方法STIV

苹果公司介绍了一个名为STIV（Scalable Text and Image Conditioned Video Generation）的系统，它是一种用于文本和图像条件下的视频生成方法。STIV系...

1年前

02830

新型文本到图像生成系统NIRVANA：利用近似缓存技术，高效地服务基于扩散模型的文本到图像生成任务

Adobe和伊利诺伊大学厄巴纳-香槟分校的研究人员介绍了一种名为NIRVANA的新型文本到图像生成系统，它利用了一种称为近似缓存（Approximate Caching）的技术，旨在高效地服务基于扩散...

新技术 # NIRVANA # 文生图

1年前

03740

华为诺亚方舟实验室推出多模态大语言模型ILLUME

华为诺亚方舟实验室发布多模态大语言模型ILLUME，旨在无缝集成图像和文本的理解与生成。ILLUME凭借其创新的架构和训练策略，在显著减少预训练所需数据量的同时，达到了最先进的性能。ILLUME基于统...

新技术 # ILLUME # 华为诺亚方舟实验室 # 多模态大语言模型

1年前

02810

3DTrajMaster：专注于在视频生成中控制多实体的三维（3D）运动轨迹

香港中文大学、快手科技和浙江大学的研究人员介绍了3DTrajMaster，一个用于多实体3D运动可控视频生成的强大控制器。与传统的2D控制信号相比，3DTrajMaster利用6自由度（6DoF）姿态...

新技术 # 3DTrajMaster # 3D运动轨迹

1年前

02740

端到端的高质量ID一致性人类跳舞视频生成新框架StableAnimator

近年来，人像动画生成模型在图像和视频领域取得了显著进展，但它们在身份一致性（ID一致性）方面仍然面临挑战。传统的扩散模型虽然能够生成高质量的视频，但在长时间序列中保持人物的身份特征（如面部表情、发型等...

新技术 # StableAnimator # 视频生成框架

1年前

02990

MotionShop：用于视频扩散模型中的零样本（Zero-Shot）运动转移方法，通过混合分数引导（MSG）实现

近年来，扩散模型在图像和视频生成领域取得了显著进展，但在运动迁移任务中，如何将一个视频中的运动模式迁移到另一个视频中，同时保持内容的完整性，仍然是一个具有挑战性的问题。传统的运动迁移方法通常依赖于复杂...

新技术 # MotionShop # MSG

1年前

02780

视觉条件多视图扩散模型See3D：通过大规模互联网视频数据进行训练，从而实现开放世界的3D创作

近年来，3D生成模型在图像和视频领域取得了显著进展，但它们通常依赖于有限规模的3D“黄金标签”或2D扩散先验来进行3D内容创作。这种依赖性限制了模型的性能，因为现有的3D数据集规模较小且标注成本高昂...

新技术 # See3D # 多视图扩散模型

1年前

03110

腾讯推出新型视频分词器Divot：统一视频的理解和生成

近年来，大语言模型（LLMs）在图像理解和生成方面取得了显著进展，尤其是在将图像编码为离散标记并结合LLMs进行多模态任务时。然而，将这一成功扩展到视频领域面临着更大的挑战，因为视频不仅包含空间信息...

新技术 # Divot # 视频分词器

1年前

03210

PanoDreamer：从单一图像生成360°的3D全景场景

德克萨斯 A&M 大学、Leia和马克斯普朗克信息学研究所的研究人员推出新型方法PanoDreamer，它能够从单一图像生成360°的3D全景场景。这种方法的核心在于它不是顺序地生成场景，而是...

新技术 # 3D全景场景 # PanoDreamer

1年前

02630

多事件视频生成框架MinT：根据一系列文本提示和特定的时间戳生成具有精确时间控制的视频序列

Snap Research、多伦多大学和向量研究所的研究人员推出多事件视频生成框架MinT（Mind the Time），它能够根据一系列文本提示和特定的时间戳生成具有精确时间控制的视频序列。MinT...

新技术 # MinT # 多事件视频生成

1年前

02690

多代理协作框架GENMAC：实现复杂的文本到视频生成，特别是针对组合性文本提示的生成

香港大学、清华大学和微软研究院的研究人员推出多代理协作框架GENMAC，旨在实现复杂的文本到视频生成，特别是针对组合性文本提示的生成。传统的文本到视频生成模型在处理复杂场景时常常面临挑战，例如多个对象...

新技术 # GENMAC # 文生视频

1年前

02960

加载更多