新型3D生成算法MicroDreamer:能够在大约20秒内生成高质量的3D模型,而无需任何3D数据来自中国人民大学、清华大学和快手的研究人员推出新型3D生成算法MicroDreamer,它能够在大约20秒内生成高质量的3D模型,而无需任何3D数据。这项技术基于一种称为“基于分数的迭代重建”(Sco...新技术# 3D生成算法# MicroDreamer2年前07830
3D场景生成技术Invisible Stitch:生成平滑且连贯的3D场景,通过深度修复来改善场景的几何一致性牛津大学的研究人员推出一种新的3D场景生成技术Invisible Stitch,这项技术的目标是生成平滑且连贯的3D场景,特别是通过深度修复(depth inpainting)来改善场景的几何一致性...新技术# 3D场景生成# Invisible Stitch2年前05180
运动潜在一致性模型MotionLCM:能够实时控制人体动作的生成来自清华大学和上海人工智能实验室的研究人员推出运动潜在一致性模型MotionLCM,它能够实时控制人体动作的生成。这个框架通过一种称为“潜在一致性模型”(Motion Latent Consisten...新技术# MotionLCM# 运动潜在一致性模型2年前06150
新型框架Lightplane:用于处理3D神经场的高度可扩展的组件密歇根大学和Meta的研究人员推出新型框架Lightplane,它包含两个高度可扩展的组件:Lightplane Renderer和Lightplane Splatter。这两个组件专门用于处理3D神...新技术# 3D场景模型# Lightplane# Lightplane Renderer2年前06610
MaPa:根据文本描述为3D模型生成逼真的材质来自浙江大学、蚂蚁集团和深圳大学的研究人员推出MaPa,它能够根据文本描述为3D模型生成逼真的材质。与传统的纹理贴图不同,MaPa通过生成程序化的材质图(material graphs)来表示3D模型...新技术# 3D模型# MaPa2年前08560
视觉模型PLLaVA:能够理解视频中的内容,包括动作、场景、人物穿着等,并能够生成详细描述这些内容的字幕来自新加坡国立大学、纽约大学和字节跳动的研究人员推出用于视频密集字幕生成的先进模型PLLaVA(Pooling LLaVA),此模型的主要功能是能够理解视频中的内容,包括动作、场景、人物穿着等,并能够...新技术# PLLaVA# 视觉模型2年前05010
通用反馈学习架构ID-Aligner:用于提升文本到图像生成任务中的身份保持性能来自中山大学和字节跳动的研究人员推出通用反馈学习架构ID-Aligner,它用于提升文本到图像生成(Text-to-Image Generation)任务中的身份保持(Identity-Preserv...新技术# ID-Aligner# 人物特征# 文生图2年前07970
字节跳动推出PuLID:用于个性化文本到图像的生成字节跳动推出PuLID,它用于个性化文本到图像(Text-to-Image,简称T2I)的生成。PuLID的全称是“Pure and Lightning ID customization”,即纯粹和闪...新技术# PuLID# 个性化图像生成# 字节跳动2年前01,2710
视频运动迁移模型MotionMaster:在不需要训练的情况下,实现视频中相机运动的转移来自上海交通大学、腾讯优图实验室和哈尔滨工业大学的研究人员推出一个无需训练的视频运动迁移模型MotionMaster,它能够在不需要训练的情况下,实现视频中相机运动的转移。这意味着你可以将一个视频中的...新技术# MotionMaster# 视频运动迁移模型2年前05450
图像编辑技术Editable Image Elements:允许用户对输入的图像进行空间编辑,同时保持图像内容的逼真度来自加州大学圣地亚哥分校和Adobe 研究中心的研究人员推出新的图像编辑技术Editable Image Elements for Controllable Synthesis,它允许用户对输入的...新技术# Editable Image Elements# 图像编辑2年前06890
新颖图像和视频处理框架MaGGIe:用于实现人类图像的精确分割,从图像和视频中提取人物前景来自马里兰大学和Adobe的研究人员推出新的图像和视频处理技术MaGGIe(Masked Guided Gradual Human Instance Matting),它用于实现人类图像的精确分割...新技术# MaGGIe# 图像分割# 抠图2年前05920
弱监督方法CatLIP:用于在互联网规模的图像-文本数据上预训练视觉模型苹果推出新颖的弱监督方法CatLIP(Categorical Loss for Image-text Pre-training),旨在提高图像和文本数据集上的视觉模型预训练效率,同时保持与现有的对比学...新技术# CatLIP# CLIP# 弱监督2年前07790