EmoKnob:允许在语音合成中对任意情感进行细粒度控制的框架哥伦比亚大学的研究人员推出一个允许在语音合成中对任意情感进行细粒度控制的框架EmoKnob,它用于提升语音克隆技术,只需少量示 范样本,允许用户在语音合成中精细控制情感及其强度。简单来说,EmoKno...新技术# EmoKnob# 语音克隆1年前07990
图像和视频生成框架StoryDiffusion:能够生成一系列内容一致的图像和视频来自南开大学和字节跳动的研究人员推出一种新的图像和视频生成框架StoryDiffusion,这项技术的核心在于它能够生成一系列内容一致的图像和视频,这对于讲述一个故事或者展示一个连贯的场景来说非常重要...新技术# StoryDiffusion# 图像生成# 视频生成2年前07970
虚拟服装试穿工具OOTDiffusion:革新你的虚拟试衣体验OOTDiffusion是一款开源虚拟服装试穿工具,它利用潜在扩散模型(latent diffusion models)的强大能力实现了前所未有的高精度和可控性试穿体验。 GitHub:https...新技术# OOTDiffusion# 虚拟服装2年前07960
Meta发布世界模型早期版本V-JEPA:无需人工标注或指导,自主学习视频中的视觉信息Meta今日推出V-JEPA(Video Joint-Embedding Predictive Architecture)模型,一种通过观看视频来教机器理解和模拟物理世界的方法,以迈向利用对世界的学习...新技术# Meta# V-JEPA# 世界模型2年前07920
AI视频生成新框架Motion-I2V:让用户通过简单的轨迹绘制或区域选择来控制生成的视频内容来自NVIDIA AI、香港中文大学、商汤科技、清华大学、CPII、上海人工智能实验室、Avolution AI的研究人员推出图像到视频生成(I2V)新框架Motion-I2V,它是一个用于将静态图片...新技术# AI视频生成# Motion-I2V# 清华大学2年前07900
高质量人类动作视频生成框架MimicMotion:依据任意运动指令生成高质感、任意长度的视频内容腾讯和上海交通大学的研究人员推出高质量人类动作视频生成框架MimicMotion,依据任意运动指令生成高质感、任意长度的视频内容。简单来说,MimicMotion是一个可以制作出逼真人类动作视频的智能...新技术# MimicMotion# 视频生成2年前07870
新型3D生成算法MicroDreamer:能够在大约20秒内生成高质量的3D模型,而无需任何3D数据来自中国人民大学、清华大学和快手的研究人员推出新型3D生成算法MicroDreamer,它能够在大约20秒内生成高质量的3D模型,而无需任何3D数据。这项技术基于一种称为“基于分数的迭代重建”(Sco...新技术# 3D生成算法# MicroDreamer2年前07850
全新生成模型StableIdentity:只需一张人脸照片,快速生成不同风格的人物照片、视频来自大连理工大学、ZMO AI的研究人员提出了一种全新的图像、视频和3D定制生成模型StableIdentity,它能够将任何人的面部特征稳定地融入到各种不同的场景中。这项技术的核心在于,它能够通过一...新技术# StableIdentity# 生成模型2年前07840
用于视频合成的交互式工具Image Conductor:让用户对视频内容中的相机运动和对象移动进行精细且准确的控制北京大学、腾讯PCG ARC实验室、南洋理工大学、 清华大学、澳门大学和深圳先进技术研究院的研究人员推出Image Conductor,它是一种用于视频合成的交互式工具,能够让用户对视频内容中的相机运...新技术# Image Conductor# 视频合成2年前07830
视频合成模型后续调优方法ExVideo:提升模型生成视频的长度和质量华东师范大学和阿里巴巴的研究人员推出新型视频合成模型扩展方法ExVideo,这种方法旨在通过参数高效的方式对现有的视频合成模型(Stable Video Diffusion)进行后期调整(post-t...新技术# ExVideo# SVD模型2年前07820
弱监督方法CatLIP:用于在互联网规模的图像-文本数据上预训练视觉模型苹果推出新颖的弱监督方法CatLIP(Categorical Loss for Image-text Pre-training),旨在提高图像和文本数据集上的视觉模型预训练效率,同时保持与现有的对比学...新技术# CatLIP# CLIP# 弱监督2年前07820
ToDo:为了提高高分辨率图像生成的效率而设计来自Leonardo AI的研究人员推出ToDo(Token Downsampling),它是为了提高高分辨率图像生成的效率而设计的。这种方法主要是为了解决图像扩散模型在处理大图像时面临的时间和内存限...新技术# ToDo# 扩散模型2年前07770