百科 | 第11页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

清华大学和新畅元科技推出Human4DiT：能够根据单幅图像及任意视点生成高质量、时空连贯的人类视频

清华大学和新畅元科技推出新技术Human4DiT，它是一种用于生成高质量、时空一致的人类视频的4D扩散变换器（4D Diffusion Transformer）。这项技术可以从单张图片生成逼真的人类动...

2年前

08880

新型图像生成模型EMMA：能够接受多模态提示，并生成高质量的图像

南洋理工大学和腾讯的研究人员推出新型图像生成模型EMMA，它基于最先进的文本到图像（T2I）扩散模型ELLA，能够接受多模态提示（multi-modal prompts），并生成高质量的图像。简单来说...

新技术 # ELLA # EMMA # 图像生成

2年前

08850

FontStudio系统：为多语言字体生成文字特效，创造具有艺术感的字体效果

微软亚洲研究院和利物浦大学推出FontStudio系统，它是一个基于现代扩散模型的文本到图像生成系统，专门用来创造具有艺术感的字体效果。例如，你想在电脑上设计一个独特的字体，比如让字母'A'看起来像一...

新技术 # FontStudio # 字体

2年前

08840

新型图像压缩技术CMC（模态压缩）：利用大型多模态模型来实现图像到文本再到图像的转换，从而在保持图像质量的同时，大幅度减小图像的大小

上海交通大学和南洋理工大学的研究人员推出一种新型的图像压缩技术“跨模态压缩”（Cross Modality Compression，简称CMC）。这项技术的核心思想是利用大型多模态模型（Large M...

新技术 # CMC # CMC-Bench # 图像压缩

2年前

08840

IDEA研究院推出先进开集目标检测模型系列Grounding DINO 1.5：推动开放集对象检测技术的边界

IDEA研究院（粤港澳大湾区数字经济研究院）推出先进模型系列Grounding DINO 1.5，旨在推动开放集对象检测技术的边界。开放集对象检测是一种计算机视觉任务，它要求模型能够识别图像中的对象...

新技术 # Grounding DINO 1.5 # 开集目标检测模型

2年前

08840

字节跳动推出新型视频生成技术CamTrol：为现有的视频扩散模型增添摄像机运动操控功能

中国科学技术大学和字节跳动的研究人员推出新型视频生成技术CamTrol，这是一种无需训练的、强大的解决方案，可以为现有的视频扩散模型增添摄像机运动操控功能。简单来说，就是可以在不经过额外训练的情况下...

新技术 # CamTrol # 字节跳动 # 视频生成

2年前

08830

先进的视频深度估计方法ChronoDepth：通过结合视频生成模型的先验知识，有效地提高了深度估计的准确性和时间一致性

浙江大学、博洛尼亚大学、蚂蚁集团和Rock Universe的研究人员推出一种先进的视频深度估计方法ChronoDepth，它通过结合视频生成模型的先验知识，有效地提高了深度估计的准确性和时间一致性...

新技术 # ChronoDepth # 视频深度

2年前

08810

LaVi-Bridge：将不同的语言模型和生成视觉模型结合起来，用于文生图

来自香港大学、香港中文大学、香港科技大学的研究团队推出LaVi-Bridge，它能够将不同的语言模型和生成视觉模型结合起来，用于文本到图像的生成任务。通过利用LoRA和适配器技术，LaVi-Bridg...

新技术 # LaVi-Bridge # 文生图

2年前

08800

Multi-LoRA Composition：不经过训练直接融合多个 Lora 不损失效果

来自伊利诺伊大学香槟分校和微软公司的研究人员公开了多LoRA组合来生成图像的项目。简单来说，LoRA是一种可以让文本生成图像模型更准确地呈现特定元素（如独特的字符、风格或服装）的技术。论文探讨了如何更...

新技术 # Lora # Multi-LoRA Composition

2年前

08800

神经网络扩散（Neural Network Diffusion）：利用扩散模型来生成高性能的神经网络参数

来自新加坡国立大学、Meta AI和加州大学伯克利分校的研究人员提出了一种名为“神经网络扩散（Neural Network Diffusion）”的新型方法，它利用扩散模型（diffusion mod...

新技术 # Neural Network Diffusion # 神经网络扩散

2年前

08800

【3月4日·SD早报】多款ComfyUI插件发布，欧美漫画风模型

软件及插件更新汇总 1、FastSD CPU 1.0.0 beta 26发布 FastSD CPU是专为在CPU环境下运行Stable Diffusion模型设计的工具，它充分利用OpenVINO技术...

早报 # ComfyUI SUPIR # DeforumationQT # FastSD CPU

2年前

08790

AI视频生成新框架Motion-I2V：让用户通过简单的轨迹绘制或区域选择来控制生成的视频内容

来自NVIDIA AI、香港中文大学、商汤科技、清华大学、CPII、上海人工智能实验室、Avolution AI的研究人员推出图像到视频生成（I2V）新框架Motion-I2V，它是一个用于将静态图片...

新技术 # AI视频生成 # Motion-I2V # 清华大学

2年前

08780

加载更多

百科

清华大学和新畅元科技推出Human4DiT：能够根据单幅图像及任意视点生成高质量、时空连贯的人类视频

新型图像生成模型EMMA：能够接受多模态提示，并生成高质量的图像

FontStudio系统：为多语言字体生成文字特效，创造具有艺术感的字体效果

新型图像压缩技术CMC（模态压缩）：利用大型多模态模型来实现图像到文本再到图像的转换，从而在保持图像质量的同时，大幅度减小图像的大小

IDEA研究院推出先进开集目标检测模型系列Grounding DINO 1.5：推动开放集对象检测技术的边界

字节跳动推出新型视频生成技术CamTrol：为现有的视频扩散模型增添摄像机运动操控功能

先进的视频深度估计方法ChronoDepth：通过结合视频生成模型的先验知识，有效地提高了深度估计的准确性和时间一致性

LaVi-Bridge：将不同的语言模型和生成视觉模型结合起来，用于文生图

Multi-LoRA Composition：不经过训练直接融合多个 Lora 不损失效果

神经网络扩散（Neural Network Diffusion）：利用扩散模型来生成高性能的神经网络参数

【3月4日·SD早报】多款ComfyUI插件发布，欧美漫画风模型

AI视频生成新框架Motion-I2V：让用户通过简单的轨迹绘制或区域选择来控制生成的视频内容

S.H.I.T

ITELLOU

BuildCores

Meshy

TapNow

RunningHub

百科

网址

S.H.I.T

ITELLOU

BuildCores

Meshy

TapNow

RunningHub