新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

新型高分辨率图像到3D生成框架Hi3D：将单张2D图片转换成具有高分辨率纹理细节的3D模型

复旦大学计算机学院、新加坡管理大学和智象未来的研究人员推出新型高分辨率图像到3D生成框架Hi3D，Hi3D 的目标是将单张2D图片转换成具有高分辨率纹理细节的3D模型。这就像给一个平面的照片施魔法，让...

新技术 # 3D # 3D模型 # Hi3D

2年前

05130

新型高效微调方法SaRA：用于提升预训练扩散模型（SD 1.5、SD 2.0和SD 3.0）在新任务上的表现

上海交通大学和腾讯优图实验室的研究人员推出新型高效微调方法SaRA，用于提升预训练扩散模型在新任务上的表现。扩散模型是一种强大的生成模型，能够生成图像、视频和3D模型等。但这些模型通常需要大量的参数...

新技术 # SaRA # 微调模型

2年前

05730

开源自回归图像生成模型Open-MAGVIT2

腾讯ARC 实验室、清华大学和南京大学推出开源自回归图像生成模型Open-MAGVIT2 ，它致力于推广自回归视觉生成模型的使用。自回归模型是一种人工智能技术，可以根据一系列给定的数据点预测下一个数据...

新技术 # Open-MAGVIT2

2年前

06050

新型AI模型PT-DiT：针对文本到任意任务（如文本到图像、文本到视频等）的高效能扩散变换器

中山大学 & 360人工智能研究院的研究人员推出一种新的人工智能模型PT-DiT，它是一种针对文本到任意任务（如文本到图像、文本到视频等）的高效能扩散变换器。这个模型特别关注于提高计算效率，减...

新技术 # PT-DiT # Qihoo-T2X

2年前

06180

新型图像编辑方法Guide-and-Rescale：能够在不破坏原始图像的基础上，对真实的照片进行各种编辑

俄罗斯高等经济大学、斯科尔科沃科学技术研究所和新南威尔士大学悉尼分校的研究人员推出新的图像编辑方法Guide-and-Rescale，此方法的核心是能够在不破坏原始图像的基础上，对真实的照片进行各种...

新技术 # Guide-and-Rescale # 图像编辑

2年前

07270

基于大语言模型的框架GenAgent：用于自动生成复杂的工作流程，以构建协作式人工智能系统

上海人工智能实验室推出一个基于大语言模型的框架GenAgent，用于自动生成复杂的工作流程，以构建协作式人工智能（AI）系统，相比单一的大型模型，GenAgent提供了更大的灵活性和可扩展性。这种系统...

新技术 # GenAgent

2年前

01,0870

字节跳动推出基于音频驱动人物肖像新框架Loopy：专门用于生成与音频同步的逼真人像视频

字节跳动和浙江大学的研究人员推出新型人工智能模型Loopy，它专门用于生成与音频同步的逼真人像视频。Loopy的核心特点是完全基于音频信号来驱动人像动作，而不需要额外的空间信号来辅助控制动作，这使得生...

新技术 # Loopy # 人物 # 字节跳动

2年前

06420

无需训练的图像编辑技术DiffUHaul：专门用于在图像中无缝移动物体

英伟达研究中心、耶路撒冷希伯来大学、特拉维夫大学和赖希曼大学的研究人员推出一种无需训练的图像编辑技术DiffUHaul，专门用于在图像中无缝移动物体。例如，你有一张图片，里面有一只猫和一块岩石，你想要...

新技术 # DiffUHaul # 图像编辑

2年前

06890

新型视频扩展方法Follow-Your-Canvas：能够将现有视频的内容扩展到更高的分辨率，并在扩展区域生成丰富的新内容

腾讯混元、香港科技大学、中国科学技术大学和清华大学的研究人员推出新型视频扩展方法Follow-Your-Canvas，它能够将现有视频的内容扩展到更高的分辨率，并在扩展区域生成丰富的新内容。这种方法特...

新技术 # Follow-Your-Canvas # 视频扩展

2年前

05190

新型SD模型压缩方法VQDM：通过向量量化技术，能够将大型的文本到图像扩散模型压缩到较低比特位表示，同时保持图像生成的高质量

Yandex 研究、HSE 大学、Skoltech、MIPT、Neural Magic和IST 奥地利的研究人员推出新型文本到图像扩散模型压缩方法VQDM，通过向量量化（Vector Quantiza...

新技术 # VQDM # 模型压缩

2年前

07240

新型图像生成蒸馏模型LinFusion：利用文本提示生成高分辨率的图像

新加坡国立大学学习与视觉实验室的研究人员推出新型图像生成模型LinFusion，它能够利用文本提示生成高分辨率的图像。LinFusion的核心在于它采用了一种新颖的线性注意力机制，这使得它在处理大量像...

新技术 # LinFusion # 蒸馏模型

2年前

08300

新型视频深度估计方法DepthCrafter：为开放世界（即不受限制、多样化的现实世界场景）的视频生成时间上连贯、细节丰富的深度序列

腾讯人工智能实验室、香港科技大学和腾讯 PCG ARC 实验室的研究人员推出新型视频深度估计方法DepthCrafter，能够为开放世界（即不受限制、多样化的现实世界场景）的视频生成时间上连贯、细节丰...

新技术 # DepthCrafter # 视频深度估计

2年前

08400

加载更多