百科 | 第3页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

Qwen-Image 使用指南：如何用提示词与参数生成高质量图像

在闭源图像模型主导的今天，阿里巴巴推出的 Qwen-Image 成为一股清流——它不仅性能强大，更以 Apache 2.0 开源协议发布，允许企业、开发者和创作者自由使用、修改和部署。这一特性使其迅...

教程 # Qwen-Image # 提示词

8个月前

01,3090

新型图像上采样模型Inf-DiT：高效地对任何分辨率的图像进行上采样，即提高图像的分辨率而不失细节

清华大学与智谱AI的研究人员推出新型图像上采样模型Inf-DiT，它能够高效地对任何分辨率的图像进行上采样，即提高图像的分辨率而不失细节。在图像处理领域，上采样是一个重要的技术，它可以用于放大图像而不...

新技术 # Inf-DiT # 图像上采样模型

2年前

01,2850

视频扩画方法MOTIA：根据视频内容自动学习并生成新的内容，适用于多种视频处理和创作的场景

来自香港中文大学、Avolution AI、上海人工智能实验室和商汤科技研究院的研究团队推出视频扩画方法MOTIA（Mastering Video Outpainting Through Input...

新技术 # MOTIA # 视频扩画

2年前

01,2750

用于生成长视频的模型FreeLong：在不增加额外训练成本的情况下，让现有的短视频生成模型处理更长的视频内容

悉尼科技大学和浙江大学的研究人员推出一种用于生成长视频的模型FreeLong，它可以在不增加额外训练成本的情况下，让现有的短视频生成模型处理更长的视频内容，同时保持或提升视频的质量。FreeLong是...

新技术 # FreeLong # 视频生成模型

2年前

01,2500

新型图像分割模型EVF-SAM：利用多模态提示（即图像和文本），结合视觉-语言模型来生成指代提示，并借助SAM模型完成分割任务

华中科技大学和vivo AI 实验室的研究人员推出新型图像分割模型EVF-SAM，EVF-SAM的核心特点是它能够理解文本提示，并根据这些提示对图像中的对象进行精确分割。这项技术对于那些需要根据用户描...

新技术 # EVF-SAM # 图像分割模型

2年前

01,1940

Stable Diffusion 采样器工作原理、特点及如何选择？

当我们使用Stable Diffusion(稳定扩散)技术生成图片时，其首先会创建一张带有噪声的图像。然后，通过我们设定的一连串步骤，它逐渐去除图像中的噪声。这个过程就像是从一块毛坯的白色大理石开始...

科普 # DDIM # Euler # sampler

2年前

01,1890

GaussianObject框架：仅用四张图片就重建出高质量的3D物体

来自上海交大、华为、多伦多大学的研究人员推出GaussianObject框架，它能够仅用四张图片就重建出高质量的3D物体。这个框架利用了高斯溅射（Gaussian Splatting）技术，通过在稀疏...

新技术 # GaussianObject # 高斯溅射

2年前

01,1740

ConsistentID：生成个性化人像图像时保持高度的面部身份（ID）一致性

来自中山大学深圳校区、中山大学珠海校区、联想研究院和阿联酋起源人工智能研究院推出ConsistentID，它能够在生成个性化人像图像时保持高度的面部身份（ID）一致性。ConsistentID的核心...

新技术 # ConsistentID # 个性化人像

2年前

01,1700

索尼推出音频-视觉生成模型Visual Echoes：根据一张图片生成与之相对应的音频，或者反过来，根据一段音频生成匹配的图片

索尼推出新型音频-视觉生成模型Visual Echoes，这个模型能够根据一张图片生成与之相对应的音频，或者反过来，根据一段音频生成匹配的图片。这种技术在多模态生成领域具有很大的潜力，因为它能够将视觉...

新技术 # Visual Echoes # 音频-视觉生成模型

2年前

01,1610

基于 SEED-X 的新型多模态大语言模型SEED-Story：根据用户提供的文本和图片生成长篇的图文故事

香港科技大学（广州）、腾讯、香港中文大学和香港科技大学的研究人员推出新型多模态大语言模型SEED-Story，它能够根据用户提供的文本和图片生成长篇的多模态故事。这些故事不仅包含丰富的叙事文本，还包括...

新技术 # SEED-Story # 图文故事 # 多模态大语言模型

2年前

01,1600

CFG改进版CFG++：帮助生成与文本描述相匹配的图像

韩国科学技术院推出新型的图像生成和编辑技术CFG++，这是针对“分类器自由引导”（Classifier-free Guidance，简称CFG）的改进版。CFG是一种在现代文本引导的图像生成模型中使用...

百科 # CFG++# 韩国科学技术院

2年前

01,1450

基于大语言模型的新型文本编码器LI-DiT：灵活地将尖端的大语言模型融入文本转图像生成模型

商汤研究院、香港中文大学移动计算实验室和上海人工智能实验室的研究人员推出新型文本编码器LI-DiT（LLM-Infused Diffusion Transformer），旨在充分发挥大语言模型的潜力...

新技术 # LI-DiT # 文本编码器

2年前

01,1430

加载更多

百科