新型视频人脸超分辨率技术KEEP:让模糊不清的人脸视频变得清晰 南洋理工大学 S-Lab推出一种新型视频人脸超分辨率技术KEEP,也就是让模糊不清的人脸视频变得清晰。例如,你手里有一些老旧电影的片段,或者监控摄像头拍到的模糊人脸,这项技术能够让这些人脸在视频中变得... 新技术# KEEP# 视频人脸超分辨率 6个月前09770
2DGS:从多视角图像重建和渲染三维场景 来自上海科技大学和图宾根大学的研究团队推出2D Gaussian Splatting(2DGS),它是一种用于从多视角图像重建和渲染三维场景的方法。 项目主页 论文 2DGS的核心思想是将3D体积简化... 新技术# 2DGS# 3D模型# 三维场景 11个月前09450
一种新颖的模型微调方法DoRA:比LoRA更精细、更全面的微调策略 DoRA(Weight-Decomposed Low-Rank Adaptation)是一种用于微调(fine-tuning)大型预训练模型的新方法。DoRA的核心思想是将预训练模型的权重分解为两个部... 新技术# DoRA# Lora# 模型微调 1年前09040
字节跳动推出PuLID:用于个性化文本到图像的生成 字节跳动推出PuLID,它用于个性化文本到图像(Text-to-Image,简称T2I)的生成。PuLID的全称是“Pure and Lightning ID customization”,即纯粹和闪... 新技术# PuLID# 个性化图像生成# 字节跳动 10个月前08710
新型SD加速模型PCM:解决在高分辨率、文本条件图像生成中的一些现有问题而设计 香港中文大学、 Avolution AI 、Hedra、上海人工智能实验室、商汤和斯坦福大学的研究人员推出新的SD加速模型PCM(Phased Consistency Model,分阶段一致性模型),... 新技术# LCM# PCM# SD模型 9个月前08300
基于大语言模型的新型文本编码器LI-DiT:灵活地将尖端的大语言模型融入文本转图像生成模型 商汤研究院、香港中文大学移动计算实验室和上海人工智能实验室的研究人员推出新型文本编码器LI-DiT(LLM-Infused Diffusion Transformer),旨在充分发挥大语言模型的潜力。... 新技术# LI-DiT# 文本编码器 8个月前08020
新型图像上采样模型Inf-DiT:高效地对任何分辨率的图像进行上采样,即提高图像的分辨率而不失细节 清华大学与智谱AI的研究人员推出新型图像上采样模型Inf-DiT,它能够高效地对任何分辨率的图像进行上采样,即提高图像的分辨率而不失细节。在图像处理领域,上采样是一个重要的技术,它可以用于放大图像而不... 新技术# Inf-DiT# 图像上采样模型 10个月前07810
视频扩画方法MOTIA:根据视频内容自动学习并生成新的内容,适用于多种视频处理和创作的场景 来自香港中文大学、Avolution AI、上海人工智能实验室和商汤科技研究院的研究团队推出视频扩画方法MOTIA(Mastering Video Outpainting Through Input-... 新技术# MOTIA# 视频扩画 11个月前07780
GaussianObject框架:仅用四张图片就重建出高质量的3D物体 来自上海交大、华为、多伦多大学的研究人员推出GaussianObject框架,它能够仅用四张图片就重建出高质量的3D物体。这个框架利用了高斯溅射(Gaussian Splatting)技术,通过在稀疏... 新技术# GaussianObject# 高斯溅射 1年前07640
attribute-control:对文生图模型生成的图像中的特定属性进行精细控制 来自慕尼黑工业大学的研究人员推出attribute-control,它能够对文本到图像(T2I)模型生成的图像中的特定属性进行精细控制。 项目主页 GitHub Demo 开发团队发现,在常用的基于t... 新技术# attribute-control# 文生图模型# 精细控制 11个月前07450
英伟达推出新型大语言模型嵌入模型NV-Embed:专门设计用于提高文本嵌入任务的性能 英伟达推出新型大语言模型嵌入模型NV-Embed,NV-Embed专门设计用于提高文本嵌入任务的性能,它在多种文本嵌入任务上的表现开始超越了基于BERT或T5的嵌入模型,包括基于密集向量的检索。NV-... 新技术# NV-Embed# 嵌入模型 9个月前07420
新型视频生成技术“CVD(协作视频扩散)”:生成从多个不同摄像机轨迹视角下观察同一场景的一致性视频 斯坦福大学和香港中文大学的研究人员推出新型视频生成技术“协作视频扩散”(Collaborative Video Diffusion,简称CVD),这项技术的核心目标是能够生成从多个不同摄像机轨迹视角下... 新技术# CVD# 协作视频扩散# 视频生成 9个月前07240