百科 | 第144页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

ReferEverything：专为视频中通过自然语言描述的概念进行分割而设计

来自卡内基梅隆大学、伊利诺伊大学香槟分校和丰田研究所的研究者们共同提出了一种名为ReferEverything（Reference Expression Modeling）的创新框架，专为视频中通过自...

新技术 # ReferEverything # 分割模型

1年前

03710

用于长视频生成的双速学习系统SLOWFAST-VGEN：模仿了人类大脑中慢速学习和快速学习相结合的互补学习系统

人类拥有一个独特的学习系统，它既能从普遍的世界规律中缓慢学习，也能迅速地将新的经历转化为情景记忆。这种能力使我们在面对新情况时能灵活应对，同时保持对已知世界的深刻理解。然而，现有的视频生成技术大多聚焦...

新技术 # SLOWFAST-VGEN # 长视频生成

1年前

04240

用于视觉配音的先进框架PersonaTalk：实现高保真和个性化的视觉配音

在音频驱动的视觉配音中，合成准确的口型同步同时保持和突出说话者的“个性”是一个巨大的挑战。现有方法往往未能捕捉到说话者的独特说话风格或保留面部细节。为了解决这一问题，字节跳动提出了 PersonaTa...

新技术 # PersonaTalk # 视觉配音

1年前

04830

无需训练的新策略FasterCache：加速高质量视频生成的视频生成模型的推理

视频生成是当前 AI 领域的一个热点研究方向，特别是基于扩散模型的方法。然而，这些模型的推理速度通常较慢，限制了它们在实际应用中的效率。香港大学、南洋理工大学 S-Lab 和上海人工智能实验室的研究人...

新技术 # FasterCache # 视频生成

1年前

05680

CAMI2V：引入物理约束提升文生视频模型中的相机控制精度

浙江大学计算机科学与技术学院的研究团队推出一个名为CAMI2V（Camera-Controlled Image-to-Video Diffusion Model）的模型，它是一个基于扩散模型的图像到视...

新技术 # CAMI2V # 文生视频 # 相机控制

1年前

04030

新框架SCT：旨在理解和改进一致性模型

香港中文大学和卡内基梅隆大学的研究人员提出了一个名为Stable Consistency Tuning（SCT）的新框架，旨在理解和改进一致性模型（Consistency Models）。一致性模型是...

新技术 # SCT # 一致性模型

1年前

04120

交互式帧插值工具Framer：根据用户的创造力生成两个图像之间平滑过渡的帧

帧插值是生成两个图像之间平滑过渡帧的技术，广泛应用于视频处理、动画制作和内容创作等领域。传统的帧插值方法通常依赖于固定的算法，难以实现对局部运动的精细控制。浙江大学和蚂蚁集团的研究人员提出了Frame...

新技术 # Framer # 帧插值

1年前

06550

视频对象分割技术SMITE：解决视频内对象的分割问题，特别是在需要任意粒度（即对象可以被分割成不同数量的片段）的情况下

视频对象分割是一项具有挑战性的任务，每个像素必须被准确标记，并且这些标签必须在帧之间保持一致。当分割具有任意粒度时，难度会进一步增加，这意味着段的数量可以任意变化，并且掩模仅基于一个或几个样本图像定义...

新技术 # SMITE # 视频对象分割

1年前

06410

Midjourney 推出全新外部图像编辑功能、图像重新纹理化以及下一代AI审查系统

由前 Magic Leap 工程师 David Holz 创立的 AI 图像生成初创公司Midjourney，昨晚宣布了一项令人瞩目的新功能——AI 图像编辑。这项功能不仅让现有的2000多万用户感到...

教程 # Midjourney # 图像编辑

1年前

05920

RankDPO：提高模型在遵循文本提示和视觉质量方面的表现

直接偏好优化（DPO）已成为一种强大的方法，用于将文本到图像（T2I）模型与人类反馈对齐。然而，成功应用DPO需要大量的资源来收集和标注大规模数据集，例如数百万张生成的人类偏好注释的配对图像。此外，随...

新技术 # RankDPO

1年前

04720

多模态框架FakeShield：通过多模态大语言模型评估图像的真实性，用于检测AI及PS图片

生成式AI的快速发展为内容创作带来了巨大便利，但同时也使得图像篡改变得更加容易且难以检测。当前的图像伪造检测和定位（IFDL）方法虽然通常有效，但仍面临两大挑战：黑箱性质：检测原理未知，难以理解和解...

新技术 # FakeShield # 多模态框架

1年前

05780

新型多模态大语言模型PUMA：不仅能理解文本指令，还能根据这些指令创作出精细的图像，或者对现有图像进行精确的编辑

近年来，多模态基础模型在视觉-语言理解领域取得了显著进展，同时也开始探索多模态大语言模型（MLLMs）在视觉内容生成方面的潜力。然而，现有的工作在统一MLLM范式中处理不同图像生成任务的多样化粒度需求...

百科 # PUMA # 多模态大语言模型

1年前

04180

加载更多

百科