新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

新型文本到图像生成技术GrounDiT：利用DiT实现了无需训练的空间定位能力，实现更精细的用户控制

韩国科学技术研究院推出新型文本到图像生成技术GrounDiT（GROUNDIT），它通过利用DiT实现了无需训练的空间定位能力，用于在文本到图像生成中实现更精细的用户控制。这项技术特别关注于在图像生成...

新技术 # GrounDiT # 文生图模型

1年前

04120

新型视频分词器LARP：专为自回归（AR）生成模型设计，用于提高视频生成任务的性能

马里兰大学学院公园分校的研究人员提出了一种名为LARP（Latent Aggregation and Refinement for Perception）的新型视频分词器，它专为自回归（AR）生成模型...

新技术 # LARP # 视频分词器 # 视频生成

1年前

04190

新型视频生成模型家族MarDini：通过将掩码自回归（MAR）技术与扩散模型（DM）相结合，开创了一种高效的视频生成方法

Meta AI与阿卜杜拉国王科技大学的研究人员推出了一种新型视频生成模型家族——MarDini。这一模型家族通过将掩码自回归（MAR）技术与扩散模型（DM）相结合，开创了一种高效的视频生成方法。Mar...

新技术 # MarDini # 视频生成模型

1年前

03950

ReferEverything：专为视频中通过自然语言描述的概念进行分割而设计

来自卡内基梅隆大学、伊利诺伊大学香槟分校和丰田研究所的研究者们共同提出了一种名为ReferEverything（Reference Expression Modeling）的创新框架，专为视频中通过自...

新技术 # ReferEverything # 分割模型

1年前

04060

用于长视频生成的双速学习系统SLOWFAST-VGEN：模仿了人类大脑中慢速学习和快速学习相结合的互补学习系统

人类拥有一个独特的学习系统，它既能从普遍的世界规律中缓慢学习，也能迅速地将新的经历转化为情景记忆。这种能力使我们在面对新情况时能灵活应对，同时保持对已知世界的深刻理解。然而，现有的视频生成技术大多聚焦...

新技术 # SLOWFAST-VGEN # 长视频生成

1年前

05100

用于视觉配音的先进框架PersonaTalk：实现高保真和个性化的视觉配音

在音频驱动的视觉配音中，合成准确的口型同步同时保持和突出说话者的“个性”是一个巨大的挑战。现有方法往往未能捕捉到说话者的独特说话风格或保留面部细节。为了解决这一问题，字节跳动提出了 PersonaTa...

新技术 # PersonaTalk # 视觉配音

1年前

04890

无需训练的新策略FasterCache：加速高质量视频生成的视频生成模型的推理

视频生成是当前 AI 领域的一个热点研究方向，特别是基于扩散模型的方法。然而，这些模型的推理速度通常较慢，限制了它们在实际应用中的效率。香港大学、南洋理工大学 S-Lab 和上海人工智能实验室的研究人...

新技术 # FasterCache # 视频生成

1年前

06660

CAMI2V：引入物理约束提升文生视频模型中的相机控制精度

浙江大学计算机科学与技术学院的研究团队推出一个名为CAMI2V（Camera-Controlled Image-to-Video Diffusion Model）的模型，它是一个基于扩散模型的图像到视...

新技术 # CAMI2V # 文生视频 # 相机控制

1年前

04500

新框架SCT：旨在理解和改进一致性模型

香港中文大学和卡内基梅隆大学的研究人员提出了一个名为Stable Consistency Tuning（SCT）的新框架，旨在理解和改进一致性模型（Consistency Models）。一致性模型是...

新技术 # SCT # 一致性模型

1年前

04520

交互式帧插值工具Framer：根据用户的创造力生成两个图像之间平滑过渡的帧

帧插值是生成两个图像之间平滑过渡帧的技术，广泛应用于视频处理、动画制作和内容创作等领域。传统的帧插值方法通常依赖于固定的算法，难以实现对局部运动的精细控制。浙江大学和蚂蚁集团的研究人员提出了Frame...

新技术 # Framer # 帧插值

1年前

07140

视频对象分割技术SMITE：解决视频内对象的分割问题，特别是在需要任意粒度（即对象可以被分割成不同数量的片段）的情况下

视频对象分割是一项具有挑战性的任务，每个像素必须被准确标记，并且这些标签必须在帧之间保持一致。当分割具有任意粒度时，难度会进一步增加，这意味着段的数量可以任意变化，并且掩模仅基于一个或几个样本图像定义...

新技术 # SMITE # 视频对象分割

1年前

06860

RankDPO：提高模型在遵循文本提示和视觉质量方面的表现

直接偏好优化（DPO）已成为一种强大的方法，用于将文本到图像（T2I）模型与人类反馈对齐。然而，成功应用DPO需要大量的资源来收集和标注大规模数据集，例如数百万张生成的人类偏好注释的配对图像。此外，随...

新技术 # RankDPO

1年前

05210

加载更多