虚拟服装试穿工具OOTDiffusion:革新你的虚拟试衣体验OOTDiffusion是一款开源虚拟服装试穿工具,它利用潜在扩散模型(latent diffusion models)的强大能力实现了前所未有的高精度和可控性试穿体验。 GitHub:https...新技术# OOTDiffusion# 虚拟服装2年前07760
Binary Opacity Grids:从多视角图像重建三角网格,生成高质量的视图合成来自的谷歌的研究人员推出名为“Binary Opacity Grids”的新方法,它用于从多视角图像重建三角网格,并能够捕捉到精细的几何细节,如叶子、树枝和草地等。这种方法在保持低计算成本的同时,能够...新技术# 3D# Binary Opacity Grids2年前07180
新型图像生成模型FiT:基于Transformer架构,可以生成无限制分辨率和长宽比的图像FiT(Flexible Vision Transformer)是一款新型图像生成模型,基于Transformer架构,旨在生成具有无限制分辨率和长宽比的图像。 GitHub 论文 模型 传统的图像生...新技术# FiT# Transformer# 图像生成模型2年前08200
文生图模型GLIGEN:用于将Stable Diffusion模型扩展为可定制模型威斯康星大学麦迪逊分校、哥伦比亚大学和微软的研究人员推出的GLIGEN模型,用于将Stable Diffusion模型扩展为可定制的模型。这个模型的核心目标是让计算机能够根据文本描述生成图像,并且能够...新技术# GLIGEN# Stable Diffusion# 文生图模型2年前08690
AI视频编辑工具LAVE:利用大语言模型(LLMs)来辅助用户进行视频编辑来自加州大学圣地亚哥分校和Meta的研究人员推出AI视频编辑工具LAVE(LLM-Powered Agent Assistance and Language Augmentation for Vide...新技术# AI视频编辑# LAVE2年前08800
视觉-语言适配器PaLM2-VAdapter:将传统的视觉编码器和大语言模型结合起来PaLM2-VAdapter模型的主要目的是更有效地连接视觉编码器和大语言模型,以提高它们之间的协同工作效果。 论文 它能够有效地将传统的视觉编码器(vision encoders)和大语言模型(LL...新技术# PaLM2-VAdapter# 大语言模型# 视觉编码器2年前08830
GaussianObject框架:仅用四张图片就重建出高质量的3D物体来自上海交大、华为、多伦多大学的研究人员推出GaussianObject框架,它能够仅用四张图片就重建出高质量的3D物体。这个框架利用了高斯溅射(Gaussian Splatting)技术,通过在稀疏...新技术# GaussianObject# 高斯溅射2年前01,1200
自级联扩散模型Self-Cascade:快速适应高分辨率的图像和视频生成来自南洋理工大学、腾讯AI实验室、香港科技大学和克莱姆森大学的研究人员提出了一种名为自级联扩散模型(Self-Cascade Diffusion Model)的新方法,该方法利用了低分辨率模型的丰富知...新技术# Self-Cascade# 自级联扩散模型2年前09350
Stable Diffusion WebUI Forge:大幅优化低显存显卡的显存占用和推理速度Controlnet与Fooocus的开发者lllyasviel,近期又推出了基于 Stable Diffusion WebUI的Stable Diffusion WebUI Forge,新的 UI ...百科# AI绘画# Stable Diffusion WebUI# Stable Diffusion WebUI Forge2年前01,9060
一种新颖的模型微调方法DoRA:比LoRA更精细、更全面的微调策略DoRA(Weight-Decomposed Low-Rank Adaptation)是一种用于微调(fine-tuning)大型预训练模型的新方法。DoRA的核心思想是将预训练模型的权重分解为两个部...新技术# DoRA# Lora# 模型微调2年前01,2650
新型文生图模型的微调算法SPIN-DiffusionSPIN-Diffusion是一种新型文生图模型的微调算法。这个算法特别适用于那些只有单个图像与文本提示(prompt)相关联的数据集,它通过一种自我博弈(self-play)的机制,让模型不断地与自...新技术# SPIN-Diffusion# 文生图模型2年前08530
Meta发布世界模型早期版本V-JEPA:无需人工标注或指导,自主学习视频中的视觉信息Meta今日推出V-JEPA(Video Joint-Embedding Predictive Architecture)模型,一种通过观看视频来教机器理解和模拟物理世界的方法,以迈向利用对世界的学习...新技术# Meta# V-JEPA# 世界模型2年前07890