新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

Any2Caption：通过将多样化的输入条件（如文本、图像、视频、人体姿态、相机运动等）转化为结构化的详细字幕，从而实现可控的视频生成

快手和新加坡国立大学的研究人员推出新型框架 Any2Caption ，通过将多样化的输入条件（如文本、图像、视频、人体姿态、相机运动等）转化为结构化的详细字幕，从而实现可控的视频生成。这一框架的核心思...

新技术 # Any2Caption # 视频生成

12个月前

02960

多代理协作框架GENMAC：实现复杂的文本到视频生成，特别是针对组合性文本提示的生成

香港大学、清华大学和微软研究院的研究人员推出多代理协作框架GENMAC，旨在实现复杂的文本到视频生成，特别是针对组合性文本提示的生成。传统的文本到视频生成模型在处理复杂场景时常常面临挑战，例如多个对象...

新技术 # GENMAC # 文生视频

1年前

02960

Go-with-the-Flow：通过实时扭曲噪声实现对视频生成的运动控制

Netflix Eyeline Studios、Netflix、石溪大学、马里兰大学和斯坦福大学的研究人员推出一种简单高效的控制视频扩散模型运动模式的方法Go-with-the-Flow ，通过实时扭...

新技术 # Go-with-the-Flow

1年前

02950

新型Transformer框架Gaze-LLE：用于估计人在场景中注视的目标位置

佐治亚理工学院和伊利诺伊大学厄巴纳-香槟分校的研究人员推出新型Transformer框架，它用于估计人在场景中注视的目标位置。这项技术的核心在于预测一个人在观看什么，这需要对个体的外观和场景内容进行推...

新技术 # Gaze-LLE

1年前

02950

端到端的训练框架Mimir：通过大语言模型增强文本到视频生成

蚂蚁集团和清华大学的研究人员提出了Mimir，这是一个端到端的训练框架，旨在解决当前视频扩散模型在文本理解方面的不足，并充分利用大语言模型（LLMs）的强大文本处理能力。Mimir通过引入精心设计的标...

新技术 # Mimir # 大语言模型

1年前

02950

新型3D生成框架GaussianAnything：根据单视图图像或文本条件生成高质量且可编辑的3D模型

新加坡南洋理工大学、上海人工智能实验室和北京大学的研究人员推出新型3D生成框架GaussianAnything，它能够根据单视图图像或文本条件生成高质量且可编辑的3D模型。这个框架通过一个级联的3D扩...

新技术 # 3D生成框架 # GaussianAnything

1年前

02950

动态肖像生成框架FantasyTalking：从单张静态肖像图像生成逼真的、可动画化的动态肖像

阿里巴巴和北京邮电大学的研究人员推出动态肖像生成框架FantasyTalking，从单张静态肖像图像生成逼真的、可动画化的动态肖像，使其能够根据音频信号进行自然的表情、口型和肢体动作的生成。项目主页...

新技术 # FantasyTalking # 动态肖像

11个月前

02930

文本驱动的风格迁移方法StyleStudio：根据文本提示将特定风格的参考图像与目标内容图像结合起来

西湖大学 AGI 实验室、复旦大学、南洋理工大学和香港科技大学（广州）的研究人员推出文本驱动的风格迁移方法StyleStudio，它可以根据文本提示将特定风格的参考图像与目标内容图像结合起来。这种方法...

新技术 # StyleStudio # 风格迁移

1年前

02930

SPOTLIGHT：通过扩散模型实现对虚拟对象插入图像时的光影控制

拉瓦尔大学、Depix Technologies和芝加哥丰田技术学院的研究人员推出SPOTLIGHT，它用于通过扩散模型实现对虚拟对象插入图像时的光影控制。这种方法的核心在于，通过指定对象的期望阴影...

新技术 # SPOTLIGHT

1年前

02930

个性化图像生成的高效、轻量级框架DreamCache：在不需要额外微调的情况下，通过特征缓存实现快速的个性化图像生成

在数字内容创作日益丰富的今天，个性化图像生成技术正逐渐成为各行业创新的关键。这项技术依赖于文本到图像的生成模型，它们能够识别并捕捉参考对象的核心特征，从而在各种情境中实现可控的图像生成。然而，现有的方...

新技术 # DreamCache # 个性化图像生成

1年前

02930

新型多镜头视频生成框架VGoT：专门针对多镜头视频生成任务设计

香港科技大学、北京大学、香港大学、新加坡国立大学、中佛罗里达大学和Everlyn Al的研究人员推出新型多镜头视频生成框架VGoT，旨在解决从简短的用户输入脚本生成多镜头、电影风格视频的挑战，通过一个...

新技术 # VGoT # 多镜头视频

1年前

02910

RollingDepth：将单图像深度估计转化为高效的视频深度估计

随着大型基础模型的发展和合成训练数据的广泛应用，单图像深度估计技术取得了显著进展，这重新激发了研究者对视频深度估计的兴趣。然而，直接将单图像深度估计器应用于视频每一帧的方法存在明显缺陷，如时间连续性忽...

新技术 # RollingDepth # 视频深度

1年前

02910

加载更多

Any2Caption：通过将多样化的输入条件（如文本、图像、视频、人体姿态、相机运动等）转化为结构化的详细字幕，从而实现可控的视频生成

多代理协作框架GENMAC：实现复杂的文本到视频生成，特别是针对组合性文本提示的生成

Go-with-the-Flow：通过实时扭曲噪声实现对视频生成的运动控制

新型Transformer框架Gaze-LLE：用于估计人在场景中注视的目标位置

端到端的训练框架Mimir：通过大语言模型增强文本到视频生成

新型3D生成框架GaussianAnything：根据单视图图像或文本条件生成高质量且可编辑的3D模型

动态肖像生成框架FantasyTalking：从单张静态肖像图像生成逼真的、可动画化的动态肖像

文本驱动的风格迁移方法StyleStudio：根据文本提示将特定风格的参考图像与目标内容图像结合起来

SPOTLIGHT：通过扩散模型实现对虚拟对象插入图像时的光影控制

个性化图像生成的高效、轻量级框架DreamCache：在不需要额外微调的情况下，通过特征缓存实现快速的个性化图像生成

新型多镜头视频生成框架VGoT：专门针对多镜头视频生成任务设计

RollingDepth：将单图像深度估计转化为高效的视频深度估计

OpenMAIC

新悟空

S.H.I.T

Meshy

Joker of Academics（小丑学术期刊）

360 安全龙虾

新技术

网址

OpenMAIC

新悟空

S.H.I.T

Meshy

Joker of Academics（小丑学术期刊 ）

360 安全龙虾

Joker of Academics（小丑学术期刊）