华为诺亚方舟实验室推出多模态大语言模型ILLUME 华为诺亚方舟实验室发布多模态大语言模型ILLUME,旨在无缝集成图像和文本的理解与生成。ILLUME凭借其创新的架构和训练策略,在显著减少预训练所需数据量的同时,达到了最先进的性能。ILLUME基于统... 新技术# ILLUME# 华为诺亚方舟实验室# 多模态大语言模型 2个月前01250
3DTrajMaster:专注于在视频生成中控制多实体的三维(3D)运动轨迹 香港中文大学、快手科技和浙江大学的研究人员介绍了3DTrajMaster,一个用于多实体3D运动可控视频生成的强大控制器。与传统的2D控制信号相比,3DTrajMaster利用6自由度(6DoF)姿态... 新技术# 3DTrajMaster# 3D运动轨迹 2个月前01060
端到端的高质量ID一致性人类跳舞视频生成新框架StableAnimator 近年来,人像动画生成模型在图像和视频领域取得了显著进展,但它们在身份一致性(ID一致性)方面仍然面临挑战。传统的扩散模型虽然能够生成高质量的视频,但在长时间序列中保持人物的身份特征(如面部表情、发型等... 新技术# StableAnimator# 视频生成框架 3个月前01150
MotionShop:用于视频扩散模型中的零样本(Zero-Shot)运动转移方法,通过混合分数引导(MSG)实现 近年来,扩散模型在图像和视频生成领域取得了显著进展,但在运动迁移任务中,如何将一个视频中的运动模式迁移到另一个视频中,同时保持内容的完整性,仍然是一个具有挑战性的问题。传统的运动迁移方法通常依赖于复杂... 新技术# MotionShop# MSG 3个月前01310
视觉条件多视图扩散模型See3D:通过大规模互联网视频数据进行训练,从而实现开放世界的3D创作 近年来,3D生成模型在图像和视频领域取得了显著进展,但它们通常依赖于有限规模的3D“黄金标签”或2D扩散先验来进行3D内容创作。这种依赖性限制了模型的性能,因为现有的3D数据集规模较小且标注成本高昂,... 新技术# See3D# 多视图扩散模型 3个月前01130
腾讯推出新型视频分词器Divot:统一视频的理解和生成 近年来,大语言模型(LLMs)在图像理解和生成方面取得了显著进展,尤其是在将图像编码为离散标记并结合LLMs进行多模态任务时。然而,将这一成功扩展到视频领域面临着更大的挑战,因为视频不仅包含空间信息,... 新技术# Divot# 视频分词器 3个月前01300
PanoDreamer:从单一图像生成360°的3D全景场景 德克萨斯 A&M 大学、Leia和马克斯普朗克信息学研究所的研究人员推出新型方法PanoDreamer,它能够从单一图像生成360°的3D全景场景。这种方法的核心在于它不是顺序地生成场景,而是... 新技术# 3D全景场景# PanoDreamer 3个月前01180
多事件视频生成框架MinT:根据一系列文本提示和特定的时间戳生成具有精确时间控制的视频序列 Snap Research、多伦多大学和向量研究所的研究人员推出多事件视频生成框架MinT(Mind the Time),它能够根据一系列文本提示和特定的时间戳生成具有精确时间控制的视频序列。MinT... 新技术# MinT# 多事件视频生成 3个月前01220
多代理协作框架GENMAC:实现复杂的文本到视频生成,特别是针对组合性文本提示的生成 香港大学、清华大学和微软研究院的研究人员推出多代理协作框架GENMAC,旨在实现复杂的文本到视频生成,特别是针对组合性文本提示的生成。传统的文本到视频生成模型在处理复杂场景时常常面临挑战,例如多个对象... 新技术# GENMAC# 文生视频 3个月前01090
图像编辑工具SwiftEdit:通过简单的文本提示实现快速的图像编辑 VinAI 研究中心、越南科技大学邮电研究所的研究人员推出图像编辑工具SwiftEdit,它能够通过简单的文本提示实现快速的图像编辑。SwiftEdit的核心优势在于其极速的编辑能力,能够在0.23秒... 新技术# SwiftEdit# 图像编辑 3个月前01240
Golden Noise:将随机的高斯噪声转换成能够生成更高质量、与文本提示更匹配的图像的“黄金噪声” 香港科技大学(广州)、穆罕默德·本·扎耶德人工智能大学和香港浸会大学的研究人员推出一种名为“Golden Noise for Diffusion Models”的学习框架,旨在提高文生图模型的性能。这... 新技术# Golden Noise# 黄金噪声 3个月前01290
MEMO:用于生成富有表情的、与音频同步的说话视频的端到端音频驱动肖像动画技术 天工 AI、南洋理工大学和新加坡国立大学的研究人员提出了MEMO(Memory-Guided Emotion-Aware Diffusion),这是一种端到端的音频驱动肖像动画方法,旨在生成身份一致且... 新技术# MEMO# 肖像动画 3个月前01460