新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

FreSca：用于增强扩散模型在图像编辑和图像理解任务中的性能

罗切斯特大学、Netflix Eyeline Studios和德克萨斯大学达拉斯分校的研究人员推出 FreSca，用于增强扩散模型（Diffusion Models）在图像编辑和图像理解任务中的性能...

12个月前

03110

视觉条件多视图扩散模型See3D：通过大规模互联网视频数据进行训练，从而实现开放世界的3D创作

近年来，3D生成模型在图像和视频领域取得了显著进展，但它们通常依赖于有限规模的3D“黄金标签”或2D扩散先验来进行3D内容创作。这种依赖性限制了模型的性能，因为现有的3D数据集规模较小且标注成本高昂...

新技术 # See3D # 多视图扩散模型

1年前

03110

图像编辑工具SwiftEdit：通过简单的文本提示实现快速的图像编辑

VinAI 研究中心、越南科技大学邮电研究所的研究人员推出图像编辑工具SwiftEdit，它能够通过简单的文本提示实现快速的图像编辑。SwiftEdit的核心优势在于其极速的编辑能力，能够在0.23秒...

新技术 # SwiftEdit # 图像编辑

1年前

03110

多模态音乐生成系统VMB：够从多种输入模态（如文本、图像和视频）中生成音乐

多模态音乐生成旨在从多种输入模态（如文本、视频和图像）中生成音乐。尽管现有方法通过使用通用嵌入空间进行多模态融合，在其他任务中表现出色，但在多模态音乐生成中仍面临以下挑战：数据稀缺：高质量的多模态音...

新技术 # VMB # 音乐生成

1年前

03080

StreamChat：增强大型多模态模型（LMMs）与流媒体视频内容的交互能力

香港中文大学、英伟达、上海人工智能实验室、InnoHK和香港理工大学的研究人员推出新型方法StreamChat，它旨在增强大型多模态模型（LMMs）与流媒体视频内容的交互能力。在流媒体交互场景中，现有...

新技术 # StreamChat # 多模态模型

1年前

03080

ObjCtrl-2.5D：用于图像到视频（I2V）生成中的训练无关对象控制技术

图像到视频（I2V）生成任务的目标是从单张图像生成一段连贯的视频，通常涉及对目标对象进行空间移动或变形。现有的方法大多依赖于2D轨迹来表示对象的运动，这虽然简单但存在局限性：无法捕捉用户意图：2D轨...

新技术 # ObjCtrl-2.5D # 图生视频

1年前

03080

Vid2World：将预训练的视频扩散模型转化为交互式世界模型

清华大学软件学院、清华大学交叉信息研究所和重庆大学计算机学院的研究人员推出 Vid2World，将预训练的视频扩散模型（Video Diffusion Models）转化为交互式世界模型（Intera...

新技术 # Vid2World # 交互式世界模型 # 视频扩散模型

10个月前

03070

基于扩散模型的视频修复方法DiffuEraser：分解视频修复任务为子问题并给出解决方案

阿里巴巴通义实验室的研究人员推出一种基于扩散模型的视频修复方法DiffuEraser，能够生成更详细、更连贯的结构，并通过引入先验信息和优化时间一致性来提升性能。比如，在一段视频中，如果某个物体被意外...

新技术 # DiffuEraser # 视频修复

1年前

03070

基于扩散模型的人类视频生成框架AnchorCrafter：用于创建高保真度的主播风格产品推广视频。

自动生成锚点风格的产品推广视频在在线商务、广告和消费者互动中展现出巨大的潜力。然而，尽管姿态引导的人类视频生成技术取得了显著进展，这一任务仍然充满挑战。特别是将人-物交互（Human-Object I...

新技术 # AnchorCrafter # 视频生成

1年前

03070

DreamActor-H1：字节跳动推出高保真人类-产品演示视频生成框架

在电商广告、虚拟试穿、交互式媒体等场景中，如何高效生成高质量的人类-产品演示视频，一直是视觉生成领域的重要挑战。近日，字节跳动 AI 实验室提出了一种全新的视频生成框架——DreamActor-H1...

新技术 # DreamActor-H1 # 字节跳动

9个月前

03060

西湖大学和浙江大学的研究人员推出统一框架UCGM：用于训练、采样和理解连续生成模型

西湖大学和浙江大学的研究人员推出统一框架UCGM，用于训练、采样和理解连续生成模型。UCGM通过一个统一的训练目标和采样算法，将多步生成模型（如扩散模型和流匹配模型）与少步生成模型（如一致性模型）结合...

新技术 # UCGM # 统一框架

10个月前

03060

通用的多模态运动生成模型LMM：统一并简化动画和视频制作中的多种运动生成任务，如文本生成运动、音乐生成舞蹈等

南洋理工大学和商汤科技的研究团队近期推出了一项革命性的技术——大运动模型（LMM），这是一个通用的多模态运动生成模型。LMM旨在统一并简化动画和视频制作中的多种运动生成任务，如文本生成运动、音乐生成舞...

新技术 # LMM # 多模态运动生成模型

1年前

03060

加载更多

FreSca：用于增强扩散模型在图像编辑和图像理解任务中的性能

视觉条件多视图扩散模型See3D：通过大规模互联网视频数据进行训练，从而实现开放世界的3D创作

图像编辑工具SwiftEdit：通过简单的文本提示实现快速的图像编辑

多模态音乐生成系统VMB：够从多种输入模态（如文本、图像和视频）中生成音乐

StreamChat：增强大型多模态模型（LMMs）与流媒体视频内容的交互能力

ObjCtrl-2.5D：用于图像到视频（I2V）生成中的训练无关对象控制技术

Vid2World：将预训练的视频扩散模型转化为交互式世界模型

基于扩散模型的视频修复方法DiffuEraser：分解视频修复任务为子问题并给出解决方案

基于扩散模型的人类视频生成框架AnchorCrafter：用于创建高保真度的主播风格产品推广视频。

DreamActor-H1：字节跳动推出高保真人类-产品演示视频生成框架

西湖大学和浙江大学的研究人员推出统一框架UCGM：用于训练、采样和理解连续生成模型

通用的多模态运动生成模型LMM：统一并简化动画和视频制作中的多种运动生成任务，如文本生成运动、音乐生成舞蹈等

OpenMAIC

新悟空

S.H.I.T

Meshy

360 安全龙虾

Joker of Academics（小丑学术期刊）

新技术

网址

OpenMAIC

新悟空

S.H.I.T

Meshy

360 安全龙虾

Joker of Academics（小丑学术期刊 ）

Joker of Academics（小丑学术期刊）