百科 | 第186页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

3D场景编辑方法ReplaceAnything3D（RAM3D）：通过文本提示在3D场景中替换特定的物体

来自Meta、伦敦大学的研究人员推出一种基于文本引导的3D场景编辑方法ReplaceAnything3D（RAM3D），它允许用户通过文本提示在3D场景中替换特定的物体。这种方法结合了预训练的文本引导...

2年前

05940

谷歌研究团队推出专为移动设备打造的文生图模型MobileDiffusion

谷歌的研究团队推出了新的文生图模型MobileDiffusion，它能够在手机上几乎瞬间（亚秒级）生成高质量的图片。该模型在架构和采样技术方面进行广泛优化，在iPhone 15 Pro上，Mobile...

新技术 # MobileDiffusion # 安卓 # 扩散模型

2年前

07560

英伟达GeForce RTX 4080 SUPER

英伟达在今年在CES 2024上发布的三张RTX 40系列SUPER显卡中的最后一张，也是规格最高的一张——RTX 4080 SUPER正式发售，它直接顶替RTX 4080，与AMD的旗舰显卡竞争，不...

硬件 # GeForce RTX 4080 SUPER # 显卡 # 英伟达

2年前

09150

全新生成模型StableIdentity：只需一张人脸照片，快速生成不同风格的人物照片、视频

来自大连理工大学、ZMO AI的研究人员提出了一种全新的图像、视频和3D定制生成模型StableIdentity，它能够将任何人的面部特征稳定地融入到各种不同的场景中。这项技术的核心在于，它能够通过一...

新技术 # StableIdentity # 生成模型

2年前

07790

高效灵活的对象检测工具YOLO-World

来自腾讯AI实验室、华中科技大学EIC学院的研究人员推出高效实时开放词汇对象检测框架YOLO-World，旨在通过视觉语言模型和大规模数据集的预训练，增强YOLO（You Only Look Once...

新技术 # YOLO-World # 对象检测工具 # 腾讯AI实验室

2年前

09590

新型图像编辑框架SEELE：图像主体重新定位

来自复旦大学的研究人员推出了一种新型图像编辑框架SEELE（SEgment-gEnerate-and-bLEnd），它专注于在图像中重新定位指定的对象（即“主体”），同时保持图像的整体质量。项目主页...

新技术 # SEELE # 图像编辑

2年前

06130

3D场景生成技术BlockFusion：基于扩散模型的方法来创建和扩展3D场景

来自腾讯、东京大学、澳大利亚国立大学、上海交通大学的研究人员推出新型3D场景生成技术BlockFusion，它使用基于扩散模型的方法来创建和扩展3D场景。论文 BlockFusion的核心思想是将3...

新技术 # 3D场景生成 # BlockFusion

2年前

07490

新型图像生成技术StrokeNUWA：利用大语言模型生成矢量图形

StrokeNUWA是一种新型图像生成技术，用于仅通过大语言模型（LLM）生成矢量图形，无需依赖专门的视觉模块。论文该方法的关键创新在于利用矢量图形固有的视觉语义，将矢量图形编码为"笔画"标记，这...

新技术 # LLM # StrokeNUWA # 大语言模型

2年前

06530

通义千问视觉理解模型 Qwen-VL升级版：Qwen-VL-Plus、Qwen-VL-Max

阿里云宣布通义千问视觉理解模型 Qwen-VL 再次升级，继 Plus 版本之后推出 Max 版本，升级版模型拥有更强的视觉推理能力和中文理解能力，能够根据图片识人、答题、创作、写代码，并在多个权威测...

新技术 # Qwen-VL-Max # Qwen-VL-Plus # 视觉理解模型

2年前

08240

AI视频生成新框架Motion-I2V：让用户通过简单的轨迹绘制或区域选择来控制生成的视频内容

来自NVIDIA AI、香港中文大学、商汤科技、清华大学、CPII、上海人工智能实验室、Avolution AI的研究人员推出图像到视频生成（I2V）新框架Motion-I2V，它是一个用于将静态图片...

新技术 # AI视频生成 # Motion-I2V # 清华大学

2年前

07750

无需训练的组合式文本到图像生成方法CompAgent

来自清华大学、华为诺亚方舟实验室、香港大学的研究人员提出了一种无需训练的组合式文本到图像生成方法CompAgent，该方法利用大语言模型(LLM)智能体进行复杂文本提示的分析与规划，将文本分解为单个对...

新技术 # CompAgent # 华为诺亚方舟 # 文生图

2年前

06840

单样本文生图模型的微调方法：解决泛化性和真实性问题

来自腾讯的研究人员提出了一种面向对象的单样本文生图模型的微调方法Object-Driven One-Shot Fine-tuning of Text-to-Image Diffusion with P...

新技术 # Lora # 微调 # 文生图

2年前

07050

加载更多

百科