新型视频生成模型HPDM:通过分层处理和上下文融合技术,生成高分辨率视频Snap、阿卜杜拉国王科技大学和特伦托大学的研究人员推出新型视频生成模型Hierarchical Patch Diffusion Models(HPDM,分层补丁扩散模型),这个模型专门设计用于高分辨...新技术# HPDM# 分层补丁扩散模型# 视频生成2年前07470
无需训练、基于轨迹的可控图像生成技术TraDiffusion:允许用户通过鼠标轨迹来轻松引导图像的生成,而无需进行额外的训练或微调厦门大学和中国科学院大学深圳先进技术研究院的研究人员推出新型图像生成技术TraDiffusion,这项技术的核心在于它允许用户通过鼠标轨迹来轻松引导图像的生成,而无需进行额外的训练或微调。简单来说,就...新技术# TraDiffusion# 图像生成1年前07450
OpenAI公开AI视频生成模型Sora:可创建长达 60 秒的视频OpenAI公开了AI视频生成(文生视频)模型Sora,它可以创建长达 60 秒的视频,其中包含高度详细的场景、复杂的摄像机运动和具有生动情感的多个角色。 官方介绍 以下是官方介绍全文翻译: 我们正在...新技术# AI视频生成模型# OpenAI# Sora2年前07440
LongAlign:改进文生图模型的长文本对齐文生图模型的快速发展使它们能够从给定的文本生成前所未有的结果。然而,随着文本输入变长,现有的编码方法如 CLIP 面临限制,并且将生成的图像与长文本对齐变得具有挑战性。为了解决这些问题,香港大学、新加...新技术# LongAlign# 文生图模型# 长文本对齐1年前07430
Meta推出新型框架OPT2I:通过优化文本提示(prompt)来提高文生图模型的图像与输入提示的一致性Meta推出新型框架OPT2I,它旨在通过优化文本提示(prompt)来提高文本到图像(T2I)生成模型的图像与输入提示的一致性。尽管现有的T2I模型能够生成高质量和逼真的图像,但它们在确保生成的图像...新技术# OPT2I# 提示词# 文生图模型2年前07430
建立在多模态大语言模型基础上的统一文本到图像生成和检索框架TIGeR来自新加坡国立大学 NExT++ 实验室、南洋理工大学、香港理工大学和哈尔滨工业大学(深圳)的研究人员推出一个统一的文本到图像生成和检索框架TIGeR,这个框架建立在多模态大语言模型(MLLMs)的基...新技术# TIGeR# 文生图2年前07420
深度模型DepthFM:从单张图像中快速估算深度信息来自慕尼黑大学的研究团队推出深度模型DepthFM,它是一个用于从单目(单个摄像头)图像中快速估算深度信息的系统。简单来说,DepthFM能够通过一张照片,推断出物体与摄像头之间的距离,这对于三维场景...新技术# DepthFM# 深度模型2年前07400
英伟达推出视频生成模型CMD:解决现有视频生成技术在处理高维视频数据时所面临的高内存和计算需求问题英伟达推出新型的视频生成模型内容-运动潜在扩散模型(Content-Motion Latent Diffusion Model,简称CMD),这个模型是为了解决现有视频生成技术在处理高维视频数据时所面...新技术# CMD# 英伟达2年前07380
去噪方法GeneOH Diffusion:解决手-物体交互(HOI)去噪的问题来自清华大学、上海人工智能实验室、上海启智研究院的研究人员推出GeneOH Diffusion,它旨在解决手-物体交互(HOI)去噪的问题。在手-物体交互中,我们经常需要准确地追踪手部动作,尤其是在游...新技术# GeneOH Diffusion2年前07350
图像编辑框架FlexEdit:用于灵活且可控地编辑图像中的物体来自VinAI Research和越南科技大学的研究人员推出图像编辑框架FlexEdit,它是一个基于扩散模型(Stable Diffusion)的图像编辑框架,专门设计用于灵活且可控地编辑图像中的物...新技术# FlexEdit# 图像编辑框架2年前07340
全新文生图框架RealCompo:结合SD1.5模型与GLIGEN模型的优势来提高生成图像的质量RealCompo是一个全新的文生图框架,它旨在解决当前文生图模型在处理多对象组合生成时遇到的困难,通过动态平衡真实性和组合性来提高生成图像的质量。 GitHub 论文 RealCompo利用了文本到...新技术# GLIGEN模型# RealCompo# 文生图框架2年前07320
单前向视频生成模型SF-V:通过一次前向传播快速生成高质量、运动连贯的视频Snap和罗格斯大学的研究人员推出新型单步视频生成模型SF-V,此模型的核心特点是能够通过一次前向传播(single forward pass)快速生成高质量、运动连贯的视频,这对于需要实时视频合成和...新技术# SF-V# 单前向视频生成模型2年前07310