帧感知视频扩散模型FVDM:时间步向量化方法,提高了视频生成任务的质量和灵活性香港城市大学、大湾区大学、国防科技大学、香港中文大学和岭南大学的研究人员推出了一种新的视频扩散模型,称为帧感知视频扩散模型(Frame-Aware Video Diffusion Model,简称FV...新技术# FVDM# 帧感知视频扩散模型1年前04860
新型图像生成框架ControlAR:根据空间控制信息生成可控制的高质量图像华中科技大学信息与通信学院、香港大学计算机科学系和vivo AI 实验室的研究人员推出新型图像生成框架ControlAR,它能够根据空间控制信息生成可控制的高质量图像。简单来说,ControlAR能够...新技术# ControlAR# 图像生成框架1年前05320
新型端到端模型DnD-Transformer:提高了图像生成任务的质量和效率,为图像生成领域带来了新的可能北京大学、阿里巴巴集团、威斯康星大学麦迪逊分校和北京理工大学的研究人员推出新型端到端模型DnD-Transformer,这是一种用于高效细粒度图像生成的二维自回归Transformer。简单来说,这个...新技术# DnD-Transformer# 图像生成1年前04720
文本到纹理方法RoCoTex:用于生成高质量、一致性强的3D模型纹理NCSOFT 图形 AI 实验室、韩国大学计算机科学与工程系和韩国中央大学图像系的研究人员推出一种稳健的文本到纹理方法RoCoTex,它是一种用于生成高质量、一致性强的3D模型纹理的方法。简单来说,R...新技术# 3D模型纹理# RoCoTex1年前04670
无需训练的概率并行解码算法SJD:用于加速自动回归文本到图像的生成模型香港大学、华为诺亚方舟实验室、香港中文大学、清华大学、上海交通大学和无问芯穹的研究人员推出一种无需训练的概率并行解码算法SJD(猜测性雅可比解码),用于加速自动回归文本到图像的生成模型。自动回归模型在...新技术# SJD# 解码算法1年前07440
基于多模态token的新型基础模型MIO:能够以端到端、自回归的方式理解和生成语音、文本、图像和视频北京航空航天大学、01.AI、香港理工大学、AIWaves、阿尔伯塔大学、滑铁卢大学、曼彻斯特大学、中国科学院自动化研究所、北京大学和香港科技大学的研究人员推出一个基于多模态token的新型基础模型M...新技术# MIO# 多模态1年前06210
新颖的图生视频方法PhysGen:能够将一张静态图片转换成一段真实感强、物理上可信、时间上连贯的视频伊利诺伊大学香槟分校推出一种新颖的图像到视频生成方法PhysGen,它能够将一张静态图片转换成一段真实感强、物理上可信、时间上连贯的视频。简单来说,就是给定一张图片,比如一个球在斜坡上,PhysGen...新技术# PhysGen# 图生视频1年前05260
图像复制检测模型ICDiff:解决扩散模型生成图像的版权和原创性问题悉尼科技大学、百度和浙江大学的研究人员推出图像复制检测模型ICDiff,这是第一个专门针对扩散模型的ICD(图像复制检测)。为此,研究人员构建了一个扩散-复制(D-Rep)数据集,并相应地提出了一种新...新技术# ICDiff# PDF-Embedding# 图像复制检测1年前05810
阿里巴巴Wanx 团队推出新型多模态生成模型ACE:可以根据文本指令来执行复杂的图像编辑和生成任务阿里巴巴Wanx 团队推出新型多模态生成模型ACE,这个模型的核心功能是处理和生成图像,但它与传统的图像处理工具不同,因为它可以根据文本指令来执行复杂的图像编辑和生成任务。例如,你是一名摄影师,你拍摄...新技术# ACE# 阿里巴巴1年前06630
用于加速DiT模型的训练和推理过程的方法HarmoniCa商汤科技研究院、北京航空航天大学、莫纳什大学和香港科技大学推出一种用于加速DiT模型的训练和推理过程的方法HarmoniCa,通过基于Step-Wise去噪训练(SDT)和图像错误代理引导目标(IEP...新技术# DiT模型# HarmoniCa1年前05310
EmoKnob:允许在语音合成中对任意情感进行细粒度控制的框架哥伦比亚大学的研究人员推出一个允许在语音合成中对任意情感进行细粒度控制的框架EmoKnob,它用于提升语音克隆技术,只需少量示 范样本,允许用户在语音合成中精细控制情感及其强度。简单来说,EmoKno...新技术# EmoKnob# 语音克隆1年前07940
高效且精确的注意力机制量化方法SageAttention:加速大语言处理、图像生成和视频生成模型清华大学的研究人员推出一种高效且精确的注意力机制量化方法SageAttention,此方法的OPS(每秒操作数)性能分别比FlashAttention2和xformers提高了约2.1倍和2.7倍。S...新技术# SageAttention# 注意力机制1年前06600