AI音乐模型Stable Audio:结合文本提示和时间控制长音频生成Stability AI发布AI音乐模型Stable Audio,它专注于从文本提示生成高质量、可变长度的立体声音乐和音效。这个模型特别适用于需要快速生成长形式音频内容的场景,如音乐制作、游戏音效设计...新技术# AI音乐# Stability AI# Stable Audio2年前05990
个性化图像生成新方法InstantFamily:在零样本的情况下,根据多个身份标识(Multi-ID)生成个性化的图像韩国SK电信推出个性化图像生成新方法InstantFamily,它能够在零样本(zero-shot)的情况下,根据多个身份标识(Multi-ID)生成个性化的图像。这项技术特别适用于创建包含多个人物的...新技术# InstantFamily# 个性化图像生成2年前05980
新型3D重建模型GS-LRM:能够从少数几张2D图像中快速预测出高质量的3D高斯原始体Adobe和康奈尔大学的研究人员推出新型3D重建模型GS-LRM(Gaussian Splatting Large Reconstruction Model),这个模型能够从少数几张2D图像中快速...新技术# 3D重建模型# GS-LRM2年前05970
深度估算模型Depth Anything:让照片自动感知空间距离来自香港大学、TikTok、浙江实验室、浙江大学的研究人员推出了深度估算模型Depth Anything,它是一个用于单目深度估计(Monocular Depth Estimation, MDE)的实...新技术# Depth Anything# 深度估算模型2年前05970
新型单视图3D重建方法FDGaussian:能够从2D输入中提取出3D几何特征,从而生成一致的多视图图像来自复旦大学的研究团队推出新型单视图3D重建方法FDGaussian,它采用正交平面分解机制,能够从2D输入中提取出3D几何特征,从而生成一致的多视图图像。 项目主页 论文地址 想象一下,你只有一张物...新技术# 3D重建# FDGaussian2年前05960
新型高品质文本音频生成器EzAudio:将文本描述转换成相应的音频内容约翰·霍普金斯大学和腾讯人工智能实验室的研究人员推出一种新型的文本到音频(Text-to-Audio,简称T2A)生成技术EzAudio,这项技术的目标是将文本描述转换成相应的音频内容,比如将“一只狗...新技术# EzAudio# 文本音频生成器1年前05950
开源自回归图像生成模型Open-MAGVIT2 腾讯ARC 实验室、清华大学和南京大学推出开源自回归图像生成模型Open-MAGVIT2 ,它致力于推广自回归视觉生成模型的使用。自回归模型是一种人工智能技术,可以根据一系列给定的数据点预测下一个数据...新技术# Open-MAGVIT21年前05950
DiPIR:将虚拟对象以逼真的方式插入到真实世界场景的图片或视频中英伟达、多伦多大学和矢量研究所的研究人员推出DiPIR技术,它能够将虚拟对象以逼真的方式插入到真实世界场景的图片或视频中。这项技术的核心在于理解和模拟场景的光照、几何形状和材质,以及图像形成过程,从而...新技术# DiPIR1年前05950
图上下文感知扩散模型InstructG2I:根据多模态属性图(MMAGs)生成图像多模态属性图(MMAGs)作为一种强大的数据结构,能够以图的形式表示实体之间的关系,节点中包含图像和文本信息。尽管 MMAGs 在图像生成中具有多功能性,但它们受到的关注相对较少。这是因为 MMAGs...新技术# InstructG2I# 多模态属性图1年前05940
轨迹条件文本到4D生成方法TC4D:根据文本描述和一条轨迹生成动态的三维场景来自多伦多大学、Vector Institute、Snap、香港中文大学、斯坦福大学、香港大学、密歇根大学和 Google DeepMind的研究团队推出轨迹条件文本到4D生成方法TC4D(Traje...新技术# 4D# TC4D# 三维场景2年前05930
Midjourney 推出全新外部图像编辑功能、图像重新纹理化以及下一代AI审查系统由前 Magic Leap 工程师 David Holz 创立的 AI 图像生成初创公司Midjourney,昨晚宣布了一项令人瞩目的新功能——AI 图像编辑。这项功能不仅让现有的2000多万用户感到...教程# Midjourney# 图像编辑1年前05920
StereoCrafter框架:用于将单目(2D)视频转换为沉浸式立体 3D 视频,以满足人们对沉浸式数字体验的需求腾讯AI实验室和腾讯PCG ARC Lab的研究人员推出StereoCrafter框架,用于将单目视频转换为沉浸式立体 3D 视频,以满足人们对沉浸式数字体验的需求。该框架主要解决了传统 2D-to...新技术# StereoCrafter12个月前05910