运动引导扩散模型Pix2Gif:用于图像到GIF(视频)的生成微软印度研究院和微软雷蒙德研究院的研究人员推出运动引导扩散模型Pix2Gif,该模型可用于图像到GIF(视频)的生成。 项目主页 GitHub Demo 他们采取了与众不同的方法,将任务定位为受文本和...新技术# GIF# Pix2Gif2年前06900
3D重建和生成模型GRM:从稀疏视角的图像中快速重建出3D模型来自斯坦福大学、香港科技大学、上海人工智能实验室、 浙江大学和蚂蚁集团的研究团队推出新型大规模3D重建和生成模型GRM(Gaussian Reconstruction Model),GRM是一种基于t...新技术# 3D模型# GRM2年前06890
基于两阶段高斯溅射的3D模型DreamPolisher:基于文本描述生成三维(3D)对象来自牛津大学的研究人员推出DreamPolisher,它是一种基于文本描述生成三维(3D)对象的方法。这是一种基于两阶段高斯溅射的方法,该方法强制各视图之间的几何一致性。首先,通过几何优化对粗略的3D...新技术# 3D模型# DreamPolisher2年前06880
视频编码器VideoPrism:能够处理多种视频理解任务,如分类、定位、检索、字幕生成和问答来自谷歌的研究人员推出视频编码器VideoPrism,它是一个通用的视频理解模型,能够处理多种视频理解任务,如分类、定位、检索、字幕生成和问答(QA)。VideoPrism通过在一个单一的冻结模型上进...新技术# VideoPrism# 视频编码器# 谷歌6个月前06880
LayerDiffusion:可生成高质量的透明图像和图层Controlnet、Fooocus、Stable Diffusion WebUI Forge的开发者lllyasviel推出新的项目LayerDiffusion,它允许大规模预训练的潜在扩散模型(如...新技术# LayerDiffusion# 图层# 透明图像2年前06870
新型4D内容生成管道4Diffusion:创造全新的视角和动态场景,而不仅仅是对现有视频进行剪辑和调整北京航空航天大学、上海人工智能实验室和香港大学的研究人员推出新型4D内容生成管道4Diffusion,它能够从单目视频生成具有空间-时间一致性的四维内容。简单来说,4Diffusion就像一个高级的视...新技术# 4Diffusion# 4D模型2年前06850
图像编辑技术Editable Image Elements:允许用户对输入的图像进行空间编辑,同时保持图像内容的逼真度来自加州大学圣地亚哥分校和Adobe 研究中心的研究人员推出新的图像编辑技术Editable Image Elements for Controllable Synthesis,它允许用户对输入的...新技术# Editable Image Elements# 图像编辑2年前06850
无需训练的组合式文本到图像生成方法CompAgent来自清华大学、华为诺亚方舟实验室、香港大学的研究人员提出了一种无需训练的组合式文本到图像生成方法CompAgent,该方法利用大语言模型(LLM)智能体进行复杂文本提示的分析与规划,将文本分解为单个对...新技术# CompAgent# 华为诺亚方舟# 文生图2年前06830
新型图像匹配技术OmniGlue:首个以泛化为核心设计原则的可学习图像匹配器德克萨斯大学奥斯汀分校和谷歌的研究人员推出新型图像匹配技术OmniGlue,这是首个以泛化为核心设计原则的可学习图像匹配器。OmniGlue利用来自视觉基础模型的广泛知识来指导特征匹配过程,从而增强了...新技术# OmniGlue# 谷歌2年前06820
FreeNoise:通过噪声调度实现无需调参的长视频生成来自腾讯人工智能实验室、南洋理工大学、香港科技大学的研究人员提出了一种利用预训练的视频扩散模型生成高质量长视频的方法FreeNoise,它能够使模型在生成更长时间视频时保持内容的一致性,无需对模型进行...新技术# AI视频# FreeNoise# 噪声2年前06820
连续3D词(Continuous 3D Words):通过文本提示来精细控制图像生成过程中的多个属性来自牛津大学、Adobe Research的研究人员提出了一种“连续3D词(Continuous 3D Words)”的新方法,使得用户能够通过文本提示来精细控制图像生成过程中的多个属性,比如照明方向...新技术# AI绘画# Continuous 3D Words# 连续3D词2年前06810
腾讯优图推出RealTalk:用于生成逼真、实时的音频驱动人脸视频的框架腾讯优图实验室和南京大学的研究人员推出新技术RealTalk,它是一个用于生成逼真、实时的音频驱动人脸视频的框架。简单来说,RealTalk可以根据一个人的语音生成一个看起来非常真实的3D人脸动画,而...新技术# RealTalk# 南京大学# 腾讯优图1年前06800