新型图像分割模型EVF-SAM:利用多模态提示(即图像和文本),结合视觉-语言模型来生成指代提示,并借助SAM模型完成分割任务华中科技大学和vivo AI 实验室的研究人员推出新型图像分割模型EVF-SAM,EVF-SAM的核心特点是它能够理解文本提示,并根据这些提示对图像中的对象进行精确分割。这项技术对于那些需要根据用户描...新技术# EVF-SAM# 图像分割模型2年前01,1560
用于生成长视频的模型FreeLong:在不增加额外训练成本的情况下,让现有的短视频生成模型处理更长的视频内容悉尼科技大学和浙江大学的研究人员推出一种用于生成长视频的模型FreeLong,它可以在不增加额外训练成本的情况下,让现有的短视频生成模型处理更长的视频内容,同时保持或提升视频的质量。FreeLong是...新技术# FreeLong# 视频生成模型2年前01,1450
Qwen-Image 使用指南:如何用提示词与参数生成高质量图像在闭源图像模型主导的今天,阿里巴巴推出的 Qwen-Image 成为一股清流——它不仅性能强大,更以 Apache 2.0 开源协议发布,允许企业、开发者和创作者自由使用、修改和部署。 这一特性使其迅...教程# Qwen-Image# 提示词6个月前01,1410
GaussianObject框架:仅用四张图片就重建出高质量的3D物体来自上海交大、华为、多伦多大学的研究人员推出GaussianObject框架,它能够仅用四张图片就重建出高质量的3D物体。这个框架利用了高斯溅射(Gaussian Splatting)技术,通过在稀疏...新技术# GaussianObject# 高斯溅射2年前01,1350
基于大语言模型的新型文本编码器LI-DiT:灵活地将尖端的大语言模型融入文本转图像生成模型商汤研究院、香港中文大学移动计算实验室和上海人工智能实验室的研究人员推出新型文本编码器LI-DiT(LLM-Infused Diffusion Transformer),旨在充分发挥大语言模型的潜力...新技术# LI-DiT# 文本编码器2年前01,1220
ConsistentID:生成个性化人像图像时保持高度的面部身份(ID)一致性来自 中山大学深圳校区、中山大学珠海校区、联想研究院和阿联酋起源人工智能研究院推出ConsistentID,它能够在生成个性化人像图像时保持高度的面部身份(ID)一致性。ConsistentID的核心...新技术# ConsistentID# 个性化人像2年前01,1210
基于 SEED-X 的新型多模态大语言模型SEED-Story:根据用户提供的文本和图片生成长篇的图文故事香港科技大学(广州)、腾讯、香港中文大学和香港科技大学的研究人员推出新型多模态大语言模型SEED-Story,它能够根据用户提供的文本和图片生成长篇的多模态故事。这些故事不仅包含丰富的叙事文本,还包括...新技术# SEED-Story# 图文故事# 多模态大语言模型2年前01,0900
视频编辑方法I2VEdit:利用了图生视频模型,通过用户编辑视频的第一帧来引导整个视频的生成南洋理工大学、商汤科技和上海人工智能实验室的研究人员推出视频编辑方法I2VEdit,它利用了图像到视频的扩散模型,通过用户编辑视频的第一帧来引导整个视频的生成。这种方法的创新之处在于,它能够根据用户对...百科# I2VEdit# 视频编辑2年前01,0890
attribute-control:对文生图模型生成的图像中的特定属性进行精细控制来自慕尼黑工业大学的研究人员推出attribute-control,它能够对文本到图像(T2I)模型生成的图像中的特定属性进行精细控制。 项目主页 GitHub Demo 开发团队发现,在常用的基于t...新技术# attribute-control# 文生图模型# 精细控制2年前01,0710
新型实时端到端目标检测系统YOLOv10:快速地识别图像中的多个对象,并且告诉用户这些对象的具体位置清华大学的研究人员推出新型实时端到端目标检测系统YOLOv10,目标检测是计算机视觉领域的一个重要任务,它的目的是识别出图像中的对象,并确定它们的位置。例如,你在玩一个视频游戏,需要快速识别并射击屏幕...新技术# YOLOv10# 清华大学# 目标检测2年前01,0680
新型图像到3D框架Unique3D:从单视图图像高效生成高质量的3D网格模型清华大学和AVAR的研究人员推出新型图像到3D框架Unique3D,它能够从单视图图像高效生成高质量的3D网格模型。Unique3D的核心优势在于它能够在短时间内生成高保真度、细节丰富且具有强泛化能力...新技术# 3D网格模型# Unique3D2年前01,0630
CFG改进版CFG++:帮助生成与文本描述相匹配的图像韩国科学技术院推出新型的图像生成和编辑技术CFG++,这是针对“分类器自由引导”(Classifier-free Guidance,简称CFG)的改进版。CFG是一种在现代文本引导的图像生成模型中使用...百科# CFG++# 韩国科学技术院2年前01,0540