基于常加速度方程的普通微分方程(ODE)框架CAF:用于学习两个分布之间的映射,特别是在图像生成领域高丽大学和韩国科学技术研究院的研究人员推出新型框架Constant Acceleration Flow(CAF),它是一种基于常加速度方程的普通微分方程(ODE)框架,用于学习两个分布之间的映射,特别...新技术# CAF# 图像生成1年前04450
MimicTalk:用于实现特定说话人的高表现力的虚拟人视频合成说话人脸生成(Talking Face Generation, TFG)的目标是将目标身份的脸部动画化,以创建逼真的说话视频。个性化TFG是这一任务的一个重要变体,强调生成的视频在静态外观和动态说话风...新技术# MimicTalk# 虚拟人1年前05000
基于扩散模型的图像处理系统PromptFix:能够根据人类的指令执行各种图像处理任务,如上色、提升照片亮度、去除水印、抠图、去雾和去模糊等扩散模型结合语言模型在图像生成任务中展现了卓越的可控性,能够根据人类指令进行图像处理。然而,由于缺乏多样化的指令遵循数据,模型在识别和执行用户定制指令方面仍面临挑战,尤其是在低级任务中。此外,扩散过程...新技术# PromptFix# 图像处理# 扩散模型1年前04050
Decart 和 Etched 联手打造的全球首个实时 AI 世界模型Oasis:完全由AI实时生成游戏场景Oasis 是由 Decart 和 Etched 联手打造的全球首个实时 AI 世界模型。这不仅仅是一个游戏,而是一个完全由 AI 实时生成的互动体验。想象一下,一个无需等待加载、始终以 20fps ...新技术# AI 世界模型# Oasis1年前04320
Unpacking SDXL Turbo: 使用稀疏自编码器来解释和理解文本到图像模型,特别是SDXL Turbo模型的内部工作机制稀疏自编码器(SAEs)已成为逆向工程大语言模型(LLMs)的核心组成部分。SAEs通过将中间表示分解为可解释特征的稀疏和,促进了对模型内部机制的更好理解和控制。然而,类似的分析和方法在文本到图像模型...新技术# SDXL Turbo# 稀疏自编码器1年前03580
新型文本到图像生成技术GrounDiT:利用DiT实现了无需训练的空间定位能力,实现更精细的用户控制韩国科学技术研究院推出新型文本到图像生成技术GrounDiT(GROUNDIT),它通过利用DiT实现了无需训练的空间定位能力,用于在文本到图像生成中实现更精细的用户控制。这项技术特别关注于在图像生成...新技术# GrounDiT# 文生图模型1年前03890
新型视频分词器LARP:专为自回归(AR)生成模型设计,用于提高视频生成任务的性能马里兰大学学院公园分校的研究人员提出了一种名为LARP(Latent Aggregation and Refinement for Perception)的新型视频分词器,它专为自回归(AR)生成模型...新技术# LARP# 视频分词器# 视频生成1年前03990
新型视频生成模型家族MarDini:通过将掩码自回归(MAR)技术与扩散模型(DM)相结合,开创了一种高效的视频生成方法Meta AI与阿卜杜拉国王科技大学的研究人员推出了一种新型视频生成模型家族——MarDini。这一模型家族通过将掩码自回归(MAR)技术与扩散模型(DM)相结合,开创了一种高效的视频生成方法。Mar...新技术# MarDini# 视频生成模型1年前03890
ReferEverything:专为视频中通过自然语言描述的概念进行分割而设计来自卡内基梅隆大学、伊利诺伊大学香槟分校和丰田研究所的研究者们共同提出了一种名为ReferEverything(Reference Expression Modeling)的创新框架,专为视频中通过自...新技术# ReferEverything# 分割模型1年前03770
用于长视频生成的双速学习系统SLOWFAST-VGEN:模仿了人类大脑中慢速学习和快速学习相结合的互补学习系统人类拥有一个独特的学习系统,它既能从普遍的世界规律中缓慢学习,也能迅速地将新的经历转化为情景记忆。这种能力使我们在面对新情况时能灵活应对,同时保持对已知世界的深刻理解。然而,现有的视频生成技术大多聚焦...新技术# SLOWFAST-VGEN# 长视频生成1年前04430
用于视觉配音的先进框架PersonaTalk:实现高保真和个性化的视觉配音在音频驱动的视觉配音中,合成准确的口型同步同时保持和突出说话者的“个性”是一个巨大的挑战。现有方法往往未能捕捉到说话者的独特说话风格或保留面部细节。为了解决这一问题,字节跳动提出了 PersonaTa...新技术# PersonaTalk# 视觉配音1年前04830
无需训练的新策略FasterCache:加速高质量视频生成的视频生成模型的推理视频生成是当前 AI 领域的一个热点研究方向,特别是基于扩散模型的方法。然而,这些模型的推理速度通常较慢,限制了它们在实际应用中的效率。香港大学、南洋理工大学 S-Lab 和上海人工智能实验室的研究人...新技术# FasterCache# 视频生成1年前05890