新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

用于生成同步语音体态手势视频的框架 TANGO：把新的语音和已有的视频动作结合起来，生成高保真的、与语音同步的身体手势视频

东京大学和CyberAgent 人工智能实验室的研究人员推出了一个用于生成同步语音体态手势视频的框架 TANGO，它可以从一个几分钟长的参考视频（里面有一个说话者的身体动作）和目标语音音频出发，生...

新技术 # TANGO # 同步语音体态手势

1年前

04070

Fluid: 基于连续令牌和随机顺序生成的文生图模型

在视觉领域，自回归模型的扩展并没有像在大语言模型中那样取得显著的成功。为了探索这一问题，Google DeepMind 和麻省理工学院的研究人员进行了一项研究，重点探讨了两个关键因素：模型是使用离散还...

新技术 # Fluid:# 文生图模型

1年前

04640

图上下文感知扩散模型InstructG2I：根据多模态属性图（MMAGs）生成图像

多模态属性图（MMAGs）作为一种强大的数据结构，能够以图的形式表示实体之间的关系，节点中包含图像和文本信息。尽管 MMAGs 在图像生成中具有多功能性，但它们受到的关注相对较少。这是因为 MMAGs...

新技术 # InstructG2I # 多模态属性图

1年前

06120

图像编辑新方法DICE：用于改进离散扩散模型在可控编辑任务中的性能

罗格斯大学、麻省理工学院-IBM Watson AI 实验室、谷歌 DeepMind、NEC 美国实验室、纽约大学、沃尔玛全球科技公司、澳大利亚国立大学和麻省理工学院阿灵顿分校的研究人员推出图像编...

新技术 # DICE # 图像编辑

1年前

06030

FSC-CLIP：提升预训练视觉和语言模型（VLMs）在理解图像和文字组合任务上的能力，同时保持在多模态任务上的性能

韩国科学技术院、世宗大学和汉阳大学的研究人员推出FSC-CLIP，提升预训练视觉和语言模型（VLMs）在理解图像和文字组合任务上的能力，同时保持在多模态任务上的性能。简单来说，就是让计算机能够更好地理...

新技术 # FSC-CLIP # 多模态

1年前

05170

长视频生成新方法PA-VDM：现有的模型可以自然地扩展为自回归视频扩散模型，而无需改变架构

石溪大学和Adobe 研究中心的研究人员推出长视频生成新方法PA-VDM，它能够生成高质量的长视频。在解释这个主题时，我们可以把它想象成一个能够将静态图片或简短视频变成长篇电影的魔法盒子。项目主...

新技术 # PA-VDM # 长视频生成

1年前

06170

基于Transformer架构的新型图像生成模型DART：根据文本描述生成高质量的图像

苹果和香港中文大学的研究人员推出新型图像生成模型DART，这个模型的目标是让计算机能够根据文本描述生成高质量的图像。DART是一个基于Transformer架构的模型，它在非马尔可夫框架内统一了自回归...

新技术 # DART # Transformer架构 # 图像生成模型

1年前

06980

BroadWay：提升文生视频模型的质量，而且不需要额外的训练

上海交通大学、中国科学技术大学、香港中文大学和上海人工智能实验室的研究人员推出为BroadWay，它能够提升文生视频模型的质量，而且不需要额外的训练。这就像是给视频生成模型安装了一个“涡轮增压器”，让...

新技术 # BroadWay # 文生视频模型

1年前

07800

视频插值方法ViBiDSampler：专门用于在两个关键帧之间生成平滑且逼真的中间帧，从而创建流畅的视频过渡效果

韩国科学技术研究院推出视频插值方法ViBiDSampler，这种方法专门用于在两个关键帧之间生成平滑且逼真的中间帧，从而创建流畅的视频过渡效果。ViBiDSampler引入了一种新颖的双向采样策略，以...

新技术 # ViBiDSampler # 视频插值方法

1年前

04280

一种在推理阶段组合定制扩散模型的新方法TweedieMix：用于改进多概念融合在基于扩散的图像和视频生成中的应用

KRAFTON和韩国科学技术研究院AI研究生院的研究人员推出一种在推理阶段组合定制扩散模型的新方法TweedieMix，它用于改进多概念融合在基于扩散的图像和视频生成中的应用。简单来说，Tweedie...

新技术 # TweedieMix # 扩散模型

1年前

04780

字节推出TextToon：在实时环境中将真人的头像转换成卡通化的形象

罗切斯特大学和字节跳动的研究人员推出TextToon，它能够在实时环境中将真人的头像转换成卡通化的形象。就像魔法一样，这项技术可以把你从视频中的头像变成你想要的任何卡通风格，比如美国漫画风格、皮克斯动...

新技术 # TextToon # 字节跳动

1年前

05850

新型视频生成框架VideoGuide：改善视频生成模型在时间连续性方面的性能，同时保持甚至提高生成视频的图像质量

韩国科学技术研究院推出新型框架VideoGuide，它能够改善视频生成模型在时间连续性方面的性能，同时保持甚至提高生成视频的图像质量。这就意味着，使用VideoGuide，可以让现有的视频生成模型在不...

新技术 # VideoGuide # 视频生成框架

1年前

04270

加载更多