新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

新型图像生成模型Hourglass Diffusion Transformer（HDiT）

Stability AI、慕尼黑大学和Birchlabs的开发人员提出了一种名为Hourglass Diffusion Transformer（HDiT）的新型图像生成模型，该模型在保持高分辨率图像合...

2年前

09980

零样本视频恢复DiffIR2VR-Zero：将低质量的视频转换成高质量的视频

阳明交通大学、东京大学和联发科的研究人员推出DiffIR2VR-Zero，它能够实现零样本（zero-shot）视频恢复。零样本意味着这种方法不需要针对特定任务进行训练，就能将低质量的视频转换成高质量...

新技术 # DiffIR2VR-Zero # 视频恢复

2年前

09860

大语言模型适配器ELLA：提升了文生图模型处理复杂描述的能力

腾讯推出大语言模型适配器（LLM Adapter）ELLA，无需 U-Net 或大语言模型训练，就可通过 ELLA ，为文生图模型增强文本对齐，解决大多数模型受限于 CLIP 本身对密集提示词的理解能...

新技术 # DPG-Bench # ELLA # TSC

2年前

09860

英伟达推出新型文生图模型BlobGEN：基于blob（斑点）的文本到图像扩散模型

英伟达推出新型文生图模型BlobGEN，这个模型的核心思想是将场景分解为视觉原语——被称为密集的blob（斑点）表示——这些表示包含了场景的细粒度细节，同时具备模块化、易于理解和构建的特点。例如，一个...

新技术 # BlobGEN # 文生图模型 # 英伟达

2年前

09840

高效灵活的对象检测工具YOLO-World

来自腾讯AI实验室、华中科技大学EIC学院的研究人员推出高效实时开放词汇对象检测框架YOLO-World，旨在通过视觉语言模型和大规模数据集的预训练，增强YOLO（You Only Look Once...

新技术 # YOLO-World # 对象检测工具 # 腾讯AI实验室

2年前

09760

基于人类与场景互动数据集Trumans开发的动作生成模型

来自北京大学人工智能研究院、BIGAI通用人工智能国家重点实验室、北京大学CFCS计算机学院和北京理工大学的研究团队创建一个详细的人类与场景互动数据集trumans，并开发出一种先进的动作生成模型，为...

新技术 # Trumans # 动作生成模型

2年前

09730

腾讯音乐娱乐推出开源虚拟人视频生成框架MusePose

腾讯音乐娱乐旗下天琴实验室推出开源虚拟人视频生成框架MusePose，MusePose 是 Muse 开源系列的最后一个组件，与 MuseV 和 MuseTalk 一起，标志着向构建端到端虚拟人物生成...

新技术 # MusePose # 虚拟人

2年前

09670

视觉语言模型CoLLaVO：提高视觉语言模型在零样本视觉语言任务中的性能

韩国研究人员推出视觉语言模型CoLLaVO（Crayon Large Language and Vision mOdel），此模型旨在通过增强对象级别的图像理解能力，提高视觉语言模型（VLMs）在零样...

新技术 # CoLLaVO # 视觉语言模型

2年前

09590

自级联扩散模型Self-Cascade：快速适应高分辨率的图像和视频生成

来自南洋理工大学、腾讯AI实验室、香港科技大学和克莱姆森大学的研究人员提出了一种名为自级联扩散模型（Self-Cascade Diffusion Model）的新方法，该方法利用了低分辨率模型的丰富知...

新技术 # Self-Cascade # 自级联扩散模型

2年前

09580

英伟达推出新型大语言模型嵌入模型NV-Embed：专门设计用于提高文本嵌入任务的性能

英伟达推出新型大语言模型嵌入模型NV-Embed，NV-Embed专门设计用于提高文本嵌入任务的性能，它在多种文本嵌入任务上的表现开始超越了基于BERT或T5的嵌入模型，包括基于密集向量的检索。NV...

新技术 # NV-Embed # 嵌入模型

2年前

09560

StreamMultiDiffusion：实时交互式图像生成和编辑的工具

来自韩国首尔国立大学的团队发布新应用StreamMultiDiffusion，这是一种用于实时交互式图像生成和编辑的工具，这是将之前已发布的技术 MultiDiffusion + StreamDiff...

新技术 # StreamMultiDiffusion # 实时生图

2年前

09400

创新框架UniAnimate：用于生成高质量、时间连贯的人类图像动画视频

华中科技大学、阿里巴巴和中国科学技术大学的研究人员推出创新框架UniAnimate，它专门用于生成高质量、时间连贯的人类图像动画视频。UniAnimate通过结合统一的视频扩散模型、统一的噪声输入和...

新技术 # UniAnimate # 视频扩散模型

2年前

09370

加载更多