新型视频生成模型HPDM:通过分层处理和上下文融合技术,生成高分辨率视频Snap、阿卜杜拉国王科技大学和特伦托大学的研究人员推出新型视频生成模型Hierarchical Patch Diffusion Models(HPDM,分层补丁扩散模型),这个模型专门设计用于高分辨...新技术# HPDM# 分层补丁扩散模型# 视频生成2年前07350
FontStudio系统:为多语言字体生成文字特效,创造具有艺术感的字体效果微软亚洲研究院和利物浦大学推出FontStudio系统,它是一个基于现代扩散模型的文本到图像生成系统,专门用来创造具有艺术感的字体效果。例如,你想在电脑上设计一个独特的字体,比如让字母'A'看起来像一...新技术# FontStudio# 字体2年前08540
无需预先训练框架MotionClone:通过复制参考视频中的动作来指挥文本导向的视频生成中国科学技术大学、上海交通大学、香港中文大学和上海人工智能实验室的研究人员推出无需预先训练框架MotionClone,它能够实现一种无需训练的运动克隆,用于可控的视频生成。简单来说,这项技术可以让一个...新技术# MotionClone# 视频生成2年前04520
基于大语言模型的新型文本编码器LI-DiT:灵活地将尖端的大语言模型融入文本转图像生成模型商汤研究院、香港中文大学移动计算实验室和上海人工智能实验室的研究人员推出新型文本编码器LI-DiT(LLM-Infused Diffusion Transformer),旨在充分发挥大语言模型的潜力...新技术# LI-DiT# 文本编码器2年前01,1140
字节跳动推出新型视频生成技术CamTrol:为现有的视频扩散模型增添摄像机运动操控功能中国科学技术大学和字节跳动的研究人员推出新型视频生成技术CamTrol,这是一种无需训练的、强大的解决方案,可以为现有的视频扩散模型增添摄像机运动操控功能。简单来说,就是可以在不经过额外训练的情况下...新技术# CamTrol# 字节跳动# 视频生成2年前07670
新型文生图模型CountGen:根据文本提示准确地生成指定数量的对象巴伊兰大学、英伟达和特拉维夫大学的研究人员推出新型文生图模型CountGen,它能够根据文本提示准确地生成指定数量的对象。在以往的技术中,尽管文本到图像的扩散模型取得了巨大成功,但它们在控制生成图像中...新技术# CountGen# 文生图模型2年前05110
后训练压缩策略DiTFastAttn:压缩和加速DiT模型,缓解DiT的计算瓶颈问题来自清华大学、无问芯穹(Infinigence AI)、卡内基梅隆大学和上海交通大学的研究人员推出新技术DiTFastAttn,它专门用于压缩和加速一种称为Diffusion Transformers...新技术# DiTFastAttn# DiT模型2年前08950
基于定制化扩散模型权重的子空间weights2weights(w2w):能够支持从单一图像中提取视觉身份,编辑模型中编码的身份,以及采样新模型来编码多样化的人物实例加州大学伯克利分校、Snap和斯坦福大学的研究人员推出weights2weights(w2w),这是一个基于定制化扩散模型权重的子空间,能够支持从单一图像中提取视觉身份,编辑模型中编码的身份,以及采样...新技术# w2w# weights2weights# 子空间2年前05580
新型图像生成模型DiMR:通过多分辨率处理和时间依赖的层归一化技术,有效地提高了图像的质量和真实感,减少了失真字节跳动、约翰霍普金斯大学和威斯康星大学麦迪逊分校的研究人员推出新的图像生成模型DiMR(Distortion-reduced Multi-Resolution Diffusion Model),此模...新技术# DiMR# 图像生成2年前08770
大型重建模型Real3D:利用单视图真实世界图像进行3D重建德克萨斯大学奥斯汀分校的研究人员推出Real3D,它是首个能够使用单视图真实世界图像进行训练的大型重建模型(Large Reconstruction Model,简称LRM)。Real3D通过自训练框...新技术# 3D模型# Real3D2年前05870
新型图像生成模型EMMA:能够接受多模态提示,并生成高质量的图像南洋理工大学和腾讯的研究人员推出新型图像生成模型EMMA,它基于最先进的文本到图像(T2I)扩散模型ELLA,能够接受多模态提示(multi-modal prompts),并生成高质量的图像。简单来说...新技术# ELLA# EMMA# 图像生成2年前08500
基准测试CommonsensenT2I:用于评估文生图模型(T2I)生成符合现实生活常识的图像的能力宾夕法尼亚大学和加州大学圣塔芭芭拉分校的研究人员推出基准测试CommonsensenT2I,用于评估文生图模型(T2I)生成符合现实生活常识的图像的能力。简单来说,就是研究这些模型是否能够根据文字描述...新技术# CommonsensenT2I# 基准测试# 文生图模型2年前05560