文生视频模型VSTAR:解决现有开源T2V模型难以生成内容动态变化和较长视频的问题来自博世人工智能中心、曼海姆大学、马克斯·普朗克信息学研究所和图宾根大学的研究团队推出VSTAR,这是一种用于生成动态视频的文本到视频(T2V)合成技术。VSTAR的目标是解决现有开源T2V模型难以生...新技术# VSTAR# 文生视频模型2年前07010
新型图像编辑方法Guide-and-Rescale:能够在不破坏原始图像的基础上,对真实的照片进行各种编辑俄罗斯高等经济大学、斯科尔科沃科学技术研究所 和新南威尔士大学悉尼分校的研究人员推出新的图像编辑方法Guide-and-Rescale,此方法的核心是能够在不破坏原始图像的基础上,对真实的照片进行各种...新技术# Guide-and-Rescale# 图像编辑1年前07000
创新框架EMO:只需要提供一张静态照片和一段语音,就能生成口型匹配的视频阿里巴巴推出创新框架EMO,它是一个能够根据音频生成表情丰富的肖像视频的系统。想象一下,你只需要提供一张静态的照片和一段语音,EMO就能创造出一个视频,视频中的人物头像会根据语音的内容和情感变化做出相...新技术# EMO# 口型匹配2年前06990
阿里推出新型大型多模态模型ConvLLaVA:专门设计用于处理高分辨率的视觉数据清华大学和阿里巴巴的研究人员推出新型大型多模态模型ConvLLaVA,它专门设计用于处理高分辨率的视觉数据。多模态模型能够理解和处理多种类型的数据,比如文本、图像和视频,这使得它们在各种应用场景中都非...新技术# ConvLLaVA# 多模态模型# 阿里巴巴2年前06980
文本到图像合成框架PIXART-δ:0.5秒内生成1024×1024像素的图像来自华为诺亚方舟实验室、大连理工大学、香港大学、香港科技大学的研究人员推出了文本到图像合成框架PIXART-δ,这是去年发布的PIXART-α模型的一个升级版本。PIXART-α以其高效的训练过程和生...新技术# AI绘画# PIXART-α# PIXART-δ2年前06980
DreamReward:通过人类偏好反馈来提升从文本到3D内容生成的质量生数科技发布创新框架DreamReward,它专注于通过人类偏好反馈来提升从文本到3D内容生成(text-to-3D generation)的质量。它通过结合人类反馈和先进的机器学习技术,极大地提高了...新技术# 3D模型# DreamReward2年前06970
新型AI方法DIVA:使用扩散模型作为 CLIP 视觉辅助中国科学院自动化研究所、中国科学院大学人工智能学院、北京人工智能研究院 和北京交通大学的研究人员推出新型人工智能方法DIVA,它旨在提升一种流行的图像和语言联合预训练模型CLIP的视觉识别能力。CLI...新技术# CLIP 视觉辅助# DIVA1年前06950
谷歌推出新框架ImageInWords(IIW):创建准确且细节丰富的图像描述,以提高视觉-语言模型的训练效果Google Research、Google DeepMind和华盛顿大学的研究团队推出新框架ImageInWords(IIW),此框架旨在创建准确且细节丰富的图像描述,以提高视觉-语言模型(VLMs...新技术# IIW# ImageInWords# 数据集2年前06930
T-Stitch:加速预训练扩散模型采样过程来自莫纳什大学、英伟达、威斯康星大学麦迪逊分校、加州理工学院的研究人员推出T-Stitch,它是一种用于加速预训练扩散模型采样过程的方法。 项目主页 GitHub 扩散模型是一类在图像生成领域表现出色...新技术# T-Stitch# 扩散模型# 采样2年前06930
基于Kronecker积的新型适应模块DiffuseKronA:保持图像生成质量的同时,显著减少模型的参数数量来自印度信息技术研究所、Hugging Face、阳明交通大学、IBM 研究院的研究人员提出一种用于个性化扩散模型的参数高效微调方法DiffuseKronA,主要功能是在保持图像生成质量的同时,显著减...新技术# DiffuseKronA# 扩散模型2年前06910
多模态模型Transfusion:能够同时处理离散数据(如文本)和连续数据(如图像)Meta、Waymo和南加州大学的研究人员推出多模态模型Transfusion,它能够同时处理离散数据(如文本)和连续数据(如图像)。Transfusion的核心思想是将语言模型的下一个词预测(nex...新技术# Transfusion# 多模态模型1年前06900
深度模型DepthFM:从单张图像中快速估算深度信息来自慕尼黑大学的研究团队推出深度模型DepthFM,它是一个用于从单目(单个摄像头)图像中快速估算深度信息的系统。简单来说,DepthFM能够通过一张照片,推断出物体与摄像头之间的距离,这对于三维场景...新技术# DepthFM# 深度模型2年前06900