新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

DistriFusion：加速高分辨率扩散模型的并行推理算法

来自麻省理工学院、普林斯顿大学、Lepton AI 和英伟达的研究人员推出DistriFusion，这是一种用于加速高分辨率扩散模型（diffusion models）的并行推理算法。项目主页 G...

新技术 # DistriFusion # 高分辨率扩散模型

2年前

06170

基于优化框架的跨模态视频-音频生成方法Seeing and Hearing：能够同时生成视频和音频内容

香港科技大学和腾讯 PCG ARC 实验室推出基于优化框架的跨模态视频-音频生成方法Seeing and Hearing，它能够同时生成视频和音频内容。方法的主要创新点在于，通过预训练的多模态模型(如...

新技术 # Seeing and Hearing # 优化框架 # 跨模态视频-音频生成方法

2年前

06590

基于Kronecker积的新型适应模块DiffuseKronA：保持图像生成质量的同时，显著减少模型的参数数量

来自印度信息技术研究所、Hugging Face、阳明交通大学、IBM 研究院的研究人员提出一种用于个性化扩散模型的参数高效微调方法DiffuseKronA，主要功能是在保持图像生成质量的同时，显著减...

新技术 # DiffuseKronA # 扩散模型

2年前

07300

创新框架EMO：只需要提供一张静态照片和一段语音，就能生成口型匹配的视频

阿里巴巴推出创新框架EMO，它是一个能够根据音频生成表情丰富的肖像视频的系统。想象一下，你只需要提供一张静态的照片和一段语音，EMO就能创造出一个视频，视频中的人物头像会根据语音的内容和情感变化做出相...

新技术 # EMO # 口型匹配

2年前

07180

Multi-LoRA Composition：不经过训练直接融合多个 Lora 不损失效果

来自伊利诺伊大学香槟分校和微软公司的研究人员公开了多LoRA组合来生成图像的项目。简单来说，LoRA是一种可以让文本生成图像模型更准确地呈现特定元素（如独特的字符、风格或服装）的技术。论文探讨了如何更...

新技术 # Lora # Multi-LoRA Composition

2年前

08790

新框架VSP-LLM：通过观察视频中人的嘴型来理解和翻译说话内容

这篇论文介绍了一个名为VSP-LLM（Visual Speech Processing incorporated with LLMs）的新框架，它结合了视觉语音处理和大语言模型（LLMs），以提高视觉...

新技术 # VSP-LLM # 大语言模型 # 视觉语音翻译

2年前

07010

数据生成管道Gen4Gen：创建高质量的个性化图像和文本描述

来自加州大学伯克利分校、牛津大学、哈佛大学、卡耐基梅隆大学、香港大学、加州大学戴维斯分校的研究人员推出数据生成管道Gen4Gen，它用于创建一个名为MyCanvas的数据集，旨在提高文本到图像扩散模型...

新技术 # Gen4Gen # 数据生成管道

2年前

04720

创新人工智能系统Genie：从单一图像提示生成无限种可玩（即可通过行动控制的）游戏场景

来自不列颠哥伦比亚大学和Google DeepMind研究人员提出创新人工智能系统Genie，它能够从互联网上的未标记视频数据中学习，生成可交互的虚拟环境。Genie的核心功能是将文本、合成图像、照片...

新技术 # Genie # Google DeepMind

1年前

05300

T-Stitch：加速预训练扩散模型采样过程

来自莫纳什大学、英伟达、威斯康星大学麦迪逊分校、加州理工学院的研究人员推出T-Stitch，它是一种用于加速预训练扩散模型采样过程的方法。项目主页 GitHub 扩散模型是一类在图像生成领域表现出色...

新技术 # T-Stitch # 扩散模型 # 采样

2年前

07080

3D重建技术MVD2：针对多视角扩散图像进行高效的三维形状重建

来自清华大学和微软亚洲研究院的研究人员推出新型3D重建技术MVD2，它专门针对多视角扩散（Multiview Diffusion，简称MVD）图像进行高效的三维形状重建。论文地址 MVD是一种新兴的...

新技术 # 3D重建技术 # MVD2

2年前

05810

子对象级图像标记化：用于计算机视觉模型的图像处理

来自香港科技大学与小冰AI的研究人员推出名为“子对象级图像标记化”（subobject-level image tokenization）的新方法，这是一种用于计算机视觉模型的图像处理技术。这种方法受...

新技术 # 子对象级图像标记化

2年前

06150

多视角图像编辑技术QNeRF：多视角图像编辑的一致性和质量

特拉维夫大学、英伟达和卡内基梅隆大学的研究人员推出新型多视角图像编辑技术QNeRF（Query Neural Radiance Field），这项技术旨在解决在对同一场景从多个视角拍摄的图像集进行编辑...

新技术 # QNeRF # 多视角图像编辑

2年前

05710

加载更多