新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

神经网络架构MVDiffusion++：用于从单个或少量图像中重建3D物体

来自西蒙弗雷泽大学和Meta Reality Labs的研究人员推出神经网络架构MVDiffusion++，它用于从单个或少量图像中重建3D物体。这个模型能够在没有相机姿态信息的情况下，生成密集且高分...

新技术 # 3D # MVDiffusion++# 神经网络架构

2年前

06520

视频字幕生成模型Video ReCap：能为长达数小时的视频生成多层次的字幕

来自北卡罗来纳大学教堂山分校和 Meta AI的研究人员推出视频字幕生成模型Video ReCap，它能够为长达数小时的视频生成多层次的字幕。这个模型的设计受到了人类行为层次结构的启发，人类行为通常...

新技术 # Video ReCap # 视频字幕生成模型

2年前

05290

视频编码器VideoPrism：能够处理多种视频理解任务，如分类、定位、检索、字幕生成和问答

来自谷歌的研究人员推出视频编码器VideoPrism，它是一个通用的视频理解模型，能够处理多种视频理解任务，如分类、定位、检索、字幕生成和问答（QA）。VideoPrism通过在一个单一的冻结模型上进...

新技术 # VideoPrism # 视频编码器 # 谷歌

9个月前

07040

新型神经网络渲染技术Joint-TensoRF：使用2D图像作为监督，实现相机姿态和场景几何的精细调整

来自中国台湾阳明交通大学的研究人员推出新型神经网络渲染技术Joint-TensoRF，提高神经渲染中相机姿态和场景几何表示的联合优化性能，特别是在处理复杂场景时的鲁棒性，这对于许多3D视觉和图形应用领...

新技术 # Joint-TensoRF # 神经网络渲染

2年前

05810

FlashTex：使用LightControlNet实现快速可重新照明的网格纹理生成

来自Roblox、卡内基梅隆大学、斯坦福大学的研究人员推出FlashTex技术，它能够快速地为3D模型生成可重新照明（relittable）的纹理。这项技术的核心在于，它可以根据用户提供的文字提示，自...

新技术 # 3D模型 # FlashTex

2年前

05550

虚拟服装试穿工具OOTDiffusion：革新你的虚拟试衣体验

OOTDiffusion是一款开源虚拟服装试穿工具，它利用潜在扩散模型（latent diffusion models）的强大能力实现了前所未有的高精度和可控性试穿体验。 GitHub：https...

新技术 # OOTDiffusion # 虚拟服装

2年前

08180

Binary Opacity Grids：从多视角图像重建三角网格，生成高质量的视图合成

来自的谷歌的研究人员推出名为“Binary Opacity Grids”的新方法，它用于从多视角图像重建三角网格，并能够捕捉到精细的几何细节，如叶子、树枝和草地等。这种方法在保持低计算成本的同时，能够...

新技术 # 3D # Binary Opacity Grids

2年前

07270

新型图像生成模型FiT:基于Transformer架构，可以生成无限制分辨率和长宽比的图像

FiT（Flexible Vision Transformer）是一款新型图像生成模型，基于Transformer架构，旨在生成具有无限制分辨率和长宽比的图像。 GitHub 论文模型传统的图像生...

新技术 # FiT # Transformer # 图像生成模型

2年前

08290

文生图模型GLIGEN：用于将Stable Diffusion模型扩展为可定制模型

威斯康星大学麦迪逊分校、哥伦比亚大学和微软的研究人员推出的GLIGEN模型，用于将Stable Diffusion模型扩展为可定制的模型。这个模型的核心目标是让计算机能够根据文本描述生成图像，并且能够...

新技术 # GLIGEN # Stable Diffusion # 文生图模型

2年前

09510

AI视频编辑工具LAVE：利用大语言模型（LLMs）来辅助用户进行视频编辑

来自加州大学圣地亚哥分校和Meta的研究人员推出AI视频编辑工具LAVE（LLM-Powered Agent Assistance and Language Augmentation for Vide...

新技术 # AI视频编辑 # LAVE

2年前

08920

视觉-语言适配器PaLM2-VAdapter：将传统的视觉编码器和大语言模型结合起来

PaLM2-VAdapter模型的主要目的是更有效地连接视觉编码器和大语言模型，以提高它们之间的协同工作效果。论文它能够有效地将传统的视觉编码器（vision encoders）和大语言模型（LL...

新技术 # PaLM2-VAdapter # 大语言模型 # 视觉编码器

2年前

08950

GaussianObject框架：仅用四张图片就重建出高质量的3D物体

来自上海交大、华为、多伦多大学的研究人员推出GaussianObject框架，它能够仅用四张图片就重建出高质量的3D物体。这个框架利用了高斯溅射（Gaussian Splatting）技术，通过在稀疏...

新技术 # GaussianObject # 高斯溅射

2年前

01,1590

加载更多