最新发布 - SD百科 - 第40页

视频编码器VideoPrism：能够处理多种视频理解任务，如分类、定位、检索、字幕生成和问答

视频编码器VideoPrism：能够处理多种视频理解任务，如分类、定位、检索、字幕生成和问答

来自谷歌的研究人员推出视频编码器VideoPrism，它是一个通用的视频理解模型，能够...

2024-02-21 274

新型神经网络渲染技术Joint-TensoRF：使用2D图像作为监督，实现相机姿态和场景几何的精细调整

新型神经网络渲染技术Joint-TensoRF：使用2D图像作为监督，实现相机姿态和场景几何的精细调整

来自中国台湾阳明交通大学的研究人员推出新型神经网络渲染技术Joint-TensoRF，提...

2024-02-21 181

FlashTex：使用LightControlNet实现快速可重新照明的网格纹理生成

FlashTex：使用LightControlNet实现快速可重新照明的网格纹理生成

来自Roblox、卡内基梅隆大学、斯坦福大学的研究人员推出FlashTex技术，它能够快速...

2024-02-21 177

虚拟服装试穿工具OOTDiffusion：革新你的虚拟试衣体验

虚拟服装试穿工具OOTDiffusion：革新你的虚拟试衣体验

OOTDiffusion是一款开源虚拟服装试穿工具，它利用潜在扩散模型（latent diffusio...

2024-02-21 337

Binary Opacity Grids：从多视角图像重建三角网格，生成高质量的视图合成

Binary Opacity Grids：从多视角图像重建三角网格，生成高质量的视图合成

来自的谷歌的研究人员推出名为“Binary Opacity Grids”的新方法，它用于从多视角图...

2024-02-20 331

新型图像生成模型FiT:基于Transformer架构，可以生成无限制分辨率和长宽比的图像

新型图像生成模型FiT:基于Transformer架构，可以生成无限制分辨率和长宽比的图像

FiT（Flexible Vision Transformer）是一款新型图像生成模型，基于Transformer架...

2024-02-20 371

文生图模型GLIGEN：用于将Stable Diffusion模型扩展为可定制模型

文生图模型GLIGEN：用于将Stable Diffusion模型扩展为可定制模型

威斯康星大学麦迪逊分校、哥伦比亚大学和微软的研究人员推出的GLIGEN模型，用于将...

2024-02-20 279

AI视频编辑工具LAVE：利用大语言模型（LLMs）来辅助用户进行视频编辑

AI视频编辑工具LAVE：利用大语言模型（LLMs）来辅助用户进行视频编辑

来自加州大学圣地亚哥分校和Meta的研究人员推出AI视频编辑工具LAVE（LLM-Powered ...

2024-02-19 419

视觉-语言适配器PaLM2-VAdapter：将传统的视觉编码器和大语言模型结合起来

视觉-语言适配器PaLM2-VAdapter：将传统的视觉编码器和大语言模型结合起来

PaLM2-VAdapter模型的主要目的是更有效地连接视觉编码器和大语言模型，以提高它们...

2024-02-19 412

GaussianObject框架：仅用四张图片就重建出高质量的3D物体

GaussianObject框架：仅用四张图片就重建出高质量的3D物体

来自上海交大、华为、多伦多大学的研究人员推出GaussianObject框架，它能够仅用四...

2024-02-19 416

自级联扩散模型Self-Cascade：快速适应高分辨率的图像和视频生成

自级联扩散模型Self-Cascade：快速适应高分辨率的图像和视频生成

来自南洋理工大学、腾讯AI实验室、香港科技大学和克莱姆森大学的研究人员提出了一...

2024-02-19 428

谷歌ImageFX：将用户输入的描述性语言或关键词迅速转化高品质图片

谷歌ImageFX：将用户输入的描述性语言或关键词迅速转化高品质图片

我们之前介绍了谷歌旗下的最新图像生成模型Imagen2，其中提到了ImageFX。ImageFX...

2024-02-19 189

升级VIP
全屏浏览
夜间模式
返回顶部