3D到3D生成方法ThemeStation:根据少量的示例生成具有一致主题的3D资源来自香港城市大学、上海AI实验室、南洋理工大学的研究团队推出3D到3D生成方法ThemeStation,它是一个能够根据少量的示例(exemplars)生成具有一致主题的3D资源的创新方法。其追求两个...新技术# 3D模型# ThemeStation2年前06360
视觉风格提示(Visual Style Prompting):不需要对模型进行微调的情况下,通过参考图像来生成具有特定风格的图像来自韩国延世大学和NAVER AI 实验室的研究团队推出“视觉风格提示(Visual Style Prompting)”,它能够在不需要对预训练模型进行微调的情况下,通过参考图像来生成具有特定风格的图...新技术# Visual Style Prompting# 视觉风格提示2年前06360
高效且精确的注意力机制量化方法SageAttention:加速大语言处理、图像生成和视频生成模型清华大学的研究人员推出一种高效且精确的注意力机制量化方法SageAttention,此方法的OPS(每秒操作数)性能分别比FlashAttention2和xformers提高了约2.1倍和2.7倍。S...新技术# SageAttention# 注意力机制1年前06340
字节跳动推出基于音频驱动人物肖像新框架Loopy:专门用于生成与音频同步的逼真人像视频字节跳动和浙江大学的研究人员推出新型人工智能模型Loopy,它专门用于生成与音频同步的逼真人像视频。Loopy的核心特点是完全基于音频信号来驱动人像动作,而不需要额外的空间信号来辅助控制动作,这使得生...新技术# Loopy# 人物# 字节跳动1年前06340
神经网络架构MVDiffusion++:用于从单个或少量图像中重建3D物体来自西蒙弗雷泽大学和Meta Reality Labs的研究人员推出神经网络架构MVDiffusion++,它用于从单个或少量图像中重建3D物体。这个模型能够在没有相机姿态信息的情况下,生成密集且高分...新技术# 3D# MVDiffusion++# 神经网络架构2年前06340
视频对象分割技术SMITE:解决视频内对象的分割问题,特别是在需要任意粒度(即对象可以被分割成不同数量的片段)的情况下视频对象分割是一项具有挑战性的任务,每个像素必须被准确标记,并且这些标签必须在帧之间保持一致。当分割具有任意粒度时,难度会进一步增加,这意味着段的数量可以任意变化,并且掩模仅基于一个或几个样本图像定义...新技术# SMITE# 视频对象分割1年前06330
ProCreate:改善基于扩散的图像生成模型的样本多样性和创造性,并防止对训练数据的直接复制纽约大学的研究人员推出创新方法ProCreate,旨在改善基于扩散的图像生成模型的样本多样性和创造性,并防止对训练数据的直接复制。简而言之,ProCreate能够在生成图像的过程中,确保新生成的图像既...新技术# ProCreate1年前06310
人像视频生成框架V-Express:平衡不同控制信号(如文本、音频、参考图像、姿态、深度图等)的强弱,以便在生成视频中实现更协调和有效的控制南京大学和腾讯人工智能实验室的研究人员推出人像视频生成框架V-Express,它用于生成高质量的人像视频。这项技术特别关注于如何平衡不同控制信号(如文本、音频、参考图像、姿态、深度图等)的强弱,以便在...新技术# V-Express# 人像视频2年前06310
Adobe推出Toffee:用于主题驱动的文本到图像生成的高效数据集构建方法Adobe Research和加州大学圣克鲁斯分校的研究人员推出Toffee系统,它是一个用于主题驱动的文本到图像生成的高效数据集构建方法。简单来说,Toffee能够创建大量的图像和文本对,这些图像能...新技术# Adobe Research# Toffee# 数据集2年前06290
新型框架Isotropic3D:根据单张参考图片的CLIP嵌入生成多视角一致且高质量的3D模型来自复旦、清华、同济的研究人员推出新型框架Isotropic3D,它能够根据单张参考图片的CLIP嵌入(embedding)生成多视角一致且高质量的3D内容。CLIP嵌入是一种能够捕捉图像语义信息的技...新技术# 3D模型# Isotropic3D2年前06290
VideoElevator:利用文生图模型来增强文生视频的质量和细节来自哈尔滨大学和清华大学的研究团队推出VideoElevator,利用文生图模型来增强文生视频的质量和细节,这个过程是无需训练的,可以直接插入现有的模型中使用,还能利用文生图模型来实现风格迁移,非常方...新技术# VideoElevator# 文生图模型# 文生视频2年前06290
阿里推出AI视频生成模型I2VGen-XL阿里旗下达摩院推出AI视频生成模型I2VGen-XL,可以根据用户输入的静态图像和文本生成目标接近、语义相同的视频,生成的视频具高清 (1280 * 720)、宽屏 (16:9)、时序连贯、质感好等特...新技术# AI视频# I2VGen-XL# 阿里2年前06290