基于文本的视频编辑模型Emu Video Edit (EVE)Meta推出基于文本的视频编辑模型Emu Video Edit (EVE),它能够在没有监督视频编辑数据的情况下,实现先进的视频编辑功能。 论文 EVE模型通过结合图像编辑适配器和视频生成适配器,并使...新技术# EVE# 视频编辑模型2年前05720
文本编码器Glyph-ByT5:为提高视觉文本渲染的准确性而设计来自微软亚洲研究院、清华大学、北京大学和澳大利亚国立大学的研究团队推出文本编码器Glyph-ByT5,它是为了提高视觉文本渲染的准确性而设计的。Glyph-ByT5通过微调一个字符感知的ByT5编码器...新技术# Glyph-ByT5# 文本编码器2年前06100
StreamMultiDiffusion:实时交互式图像生成和编辑的工具来自韩国首尔国立大学的团队发布新应用StreamMultiDiffusion,这是一种用于实时交互式图像生成和编辑的工具,这是将之前已发布的技术 MultiDiffusion + StreamDiff...新技术# StreamMultiDiffusion# 实时生图2年前09480
Follow-Your-Click:通过用户简单的点击和简短的动作提示来实现图像的局部动画化来自香港科大、腾讯浑源和清华大学的团队推出新颖框架Follow-Your-Click,它能够通过用户简单的点击和简短的动作提示来实现图像的局部动画化。 项目主页 GitHub 想象一下,你有一张静态图...新技术# Follow-Your-Click# 局部动画化2年前06720
视觉风格提示(Visual Style Prompting):不需要对模型进行微调的情况下,通过参考图像来生成具有特定风格的图像来自韩国延世大学和NAVER AI 实验室的研究团队推出“视觉风格提示(Visual Style Prompting)”,它能够在不需要对预训练模型进行微调的情况下,通过参考图像来生成具有特定风格的图...新技术# Visual Style Prompting# 视觉风格提示2年前06740
谷歌推出创新框架VLOGGER:只需要提供一张静态照片和一段语音,就能生成口型匹配的视频谷歌推出创新框架VLOGGER,它能够根据一段音频和一张人物的单张照片生成这个人说话和动作的逼真视频。想象一下,你只需提供一张你的照片和你的语音记录,VLOGGER就能制作出一个视频,在视频中你可以看...新技术# VLOGGER# 谷歌2年前05730
DragAnything:视频生成中任意对象的运动控制来自快手、浙江大学和新加坡国立大学的研究团队推出DragAnything,它是一种用于视频生成和控制的方法,它利用实体表示法来实现对视频生成中任意对象的运动控制。 项目主页 GitHub 论文 例如...新技术# DragAnything# 视频生成# 运动控制2年前06650
FaceChain-SuDe:提高个性化图像生成的属性相关性来自北京大学、阿里巴巴、清华大学和鹏程实验室的研究团队推出FaceChain-SuDe,这是一种用于个性化文本到图像生成的方法,旨在提高个性化图像生成(subject-driven generatio...新技术# FaceChain-SuDe# 个性化图像生成2年前05830
新型3D生成模型V3D:利用视频扩散模型的能力来创建高质量的三维对象和场景来自清华和生数科技的研究推出新型3D生成模型V3D,它利用视频扩散模型的能力来创建高质量的三维对象和场景。V3D的核心思想是将连续的多视角图像视为视频,从而利用预训练的视频扩散模型来生成围绕物体的36...新技术# 3D生成模型# V3D2年前05650
谷歌发布“多步一致性模型”(Multistep Consistency Models)谷歌发布新型生成模型“多步一致性模型”(Multistep Consistency Models),它在图像、视频和音频生成领域具有潜在的应用价值。这个模型是介于传统的“一致性模型”(Consiste...新技术# 多步一致性模型# 谷歌2年前05660
VideoElevator:利用文生图模型来增强文生视频的质量和细节来自哈尔滨大学和清华大学的研究团队推出VideoElevator,利用文生图模型来增强文生视频的质量和细节,这个过程是无需训练的,可以直接插入现有的模型中使用,还能利用文生图模型来实现风格迁移,非常方...新技术# VideoElevator# 文生图模型# 文生视频2年前06460
大语言模型适配器ELLA:提升了文生图模型处理复杂描述的能力腾讯推出大语言模型适配器(LLM Adapter)ELLA,无需 U-Net 或大语言模型训练,就可通过 ELLA ,为文生图模型增强文本对齐,解决大多数模型受限于 CLIP 本身对密集提示词的理解能...新技术# DPG-Bench# ELLA# TSC2年前01,0370