新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

3D场景编辑方法ReplaceAnything3D（RAM3D）：通过文本提示在3D场景中替换特定的物体

来自Meta、伦敦大学的研究人员推出一种基于文本引导的3D场景编辑方法ReplaceAnything3D（RAM3D），它允许用户通过文本提示在3D场景中替换特定的物体。这种方法结合了预训练的文本引导...

2年前

06130

谷歌研究团队推出专为移动设备打造的文生图模型MobileDiffusion

谷歌的研究团队推出了新的文生图模型MobileDiffusion，它能够在手机上几乎瞬间（亚秒级）生成高质量的图片。该模型在架构和采样技术方面进行广泛优化，在iPhone 15 Pro上，Mobile...

新技术 # MobileDiffusion # 安卓 # 扩散模型

2年前

07940

全新生成模型StableIdentity：只需一张人脸照片，快速生成不同风格的人物照片、视频

来自大连理工大学、ZMO AI的研究人员提出了一种全新的图像、视频和3D定制生成模型StableIdentity，它能够将任何人的面部特征稳定地融入到各种不同的场景中。这项技术的核心在于，它能够通过一...

新技术 # StableIdentity # 生成模型

2年前

07920

高效灵活的对象检测工具YOLO-World

来自腾讯AI实验室、华中科技大学EIC学院的研究人员推出高效实时开放词汇对象检测框架YOLO-World，旨在通过视觉语言模型和大规模数据集的预训练，增强YOLO（You Only Look Once...

新技术 # YOLO-World # 对象检测工具 # 腾讯AI实验室

2年前

01,0520

新型图像编辑框架SEELE：图像主体重新定位

来自复旦大学的研究人员推出了一种新型图像编辑框架SEELE（SEgment-gEnerate-and-bLEnd），它专注于在图像中重新定位指定的对象（即“主体”），同时保持图像的整体质量。项目主页...

新技术 # SEELE # 图像编辑

2年前

06170

3D场景生成技术BlockFusion：基于扩散模型的方法来创建和扩展3D场景

来自腾讯、东京大学、澳大利亚国立大学、上海交通大学的研究人员推出新型3D场景生成技术BlockFusion，它使用基于扩散模型的方法来创建和扩展3D场景。论文 BlockFusion的核心思想是将3...

新技术 # 3D场景生成 # BlockFusion

2年前

07620

新型图像生成技术StrokeNUWA：利用大语言模型生成矢量图形

StrokeNUWA是一种新型图像生成技术，用于仅通过大语言模型（LLM）生成矢量图形，无需依赖专门的视觉模块。论文该方法的关键创新在于利用矢量图形固有的视觉语义，将矢量图形编码为"笔画"标记，这...

新技术 # LLM # StrokeNUWA # 大语言模型

2年前

06580

通义千问视觉理解模型 Qwen-VL升级版：Qwen-VL-Plus、Qwen-VL-Max

阿里云宣布通义千问视觉理解模型 Qwen-VL 再次升级，继 Plus 版本之后推出 Max 版本，升级版模型拥有更强的视觉推理能力和中文理解能力，能够根据图片识人、答题、创作、写代码，并在多个权威测...

新技术 # Qwen-VL-Max # Qwen-VL-Plus # 视觉理解模型

2年前

09330

AI视频生成新框架Motion-I2V：让用户通过简单的轨迹绘制或区域选择来控制生成的视频内容

来自NVIDIA AI、香港中文大学、商汤科技、清华大学、CPII、上海人工智能实验室、Avolution AI的研究人员推出图像到视频生成（I2V）新框架Motion-I2V，它是一个用于将静态图片...

新技术 # AI视频生成 # Motion-I2V # 清华大学

2年前

08670

无需训练的组合式文本到图像生成方法CompAgent

来自清华大学、华为诺亚方舟实验室、香港大学的研究人员提出了一种无需训练的组合式文本到图像生成方法CompAgent，该方法利用大语言模型(LLM)智能体进行复杂文本提示的分析与规划，将文本分解为单个对...

新技术 # CompAgent # 华为诺亚方舟 # 文生图

2年前

06940

单样本文生图模型的微调方法：解决泛化性和真实性问题

来自腾讯的研究人员提出了一种面向对象的单样本文生图模型的微调方法Object-Driven One-Shot Fine-tuning of Text-to-Image Diffusion with P...

新技术 # Lora # 微调 # 文生图

2年前

07140

新型视觉模型训练方法SynCLR：完全从生成模型中学习，不需要任何真实数据

来自谷歌和MIT的研究人员提出一种新型视觉模型训练方法SynCLR，它完全从生成模型中学习，而不需要任何真实数据。 GitHub 论文 SynCLR的核心思想是利用大语言模型（LLMs）生成大量的图像...

新技术 # SynCLR # 大模型 # 大语言模型

2年前

06260

加载更多