百科 | 第29页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

基于端到端训练的风格迁移模型CSGO：根据用户提供的文本描述和风格图像，生成具有特定风格的内容图像

InstantX Team、南京理工大学、北京航空航天大学和北京大学的研究人员推出一种基于端到端训练的风格迁移模型CSGO，它是一个用于文本到图像生成的风格迁移模型。简单来说，CSGO能够根据用户提供...

新技术 # CSGO # 风格迁移模型

2年前

06590

多模态大语言模型Groma：具备精细化和定位化的视觉感知能力

来自香港大学和字节跳动的研究人员推出多模态大语言模型Groma，它具备精细化和定位化的视觉感知能力。Groma不仅能够理解整个图像的内容，还能处理区域级别的任务，比如区域字幕（region capti...

新技术 # Groma # 多模态大语言模型

2年前

06590

多内容数据集ImagiNet：为了提高合成图像检测的泛化能力而设计

保加利亚大特尔诺沃自然科学与数学高中、索非亚大学、保加利亚普罗夫迪夫数学高中和斯坦福大学的研究人员推出多内容数据集ImagiNet，它是为了提高合成图像检测的泛化能力而设计的。合成图像是由计算机生成的...

新技术 # ImagiNet # 数据集

2年前

06570

新型框架CSD：理解和从图像中提取风格描述符，可以实现对图像风格的检索、归因和匹配

来自纽约大学、埃利斯研究所、马里兰大学帕克分校的研究人员推出新型框架CSD，旨在理解和从图像中提取风格描述符，可以实现对图像风格的检索、归因和匹配，特别适用于Stable Diffusion模型。 G...

新技术 # CSD # 图像风格

2年前

06570

创新电影制作框架DreamCinema：利用AI技术简化了电影创作过程，使得个人也能轻松成为电影制作人

清华大学推出创新电影制作框架DreamCinema，它利用AI技术简化了电影创作过程，使得个人也能轻松成为电影制作人。在这个数字化媒体蓬勃发展的时代，人们对于创造个性化、高质量的电影级视频有着广泛需求...

新技术 # DreamCinema # 电影

2年前

06560

神经网络架构MVDiffusion++：用于从单个或少量图像中重建3D物体

来自西蒙弗雷泽大学和Meta Reality Labs的研究人员推出神经网络架构MVDiffusion++，它用于从单个或少量图像中重建3D物体。这个模型能够在没有相机姿态信息的情况下，生成密集且高分...

新技术 # 3D # MVDiffusion++# 神经网络架构

2年前

06560

新型文本到图像生成框架InstantStyle：在生成图像时保持一致的风格

InstantX团队推出新型文本到图像生成框架InstantStyle，它专注于在生成图像时保持一致的风格。它通过简化风格迁移的过程，使得普通用户和专业人士都能够轻松地创造具有一致风格的图像。项目主...

新技术 # InstantStyle # 风格

2年前

06540

RF-Solver和RF-Edit：提高校正流模型在图像和视频编辑中的反演精度

基于校正流的DiT模型，如FLUX和OpenSora，在图像和视频生成领域展示了卓越的性能。然而，这些模型在反演过程中存在不准确的问题，这限制了它们在图像和视频编辑等下游任务中的有效性。为了解决这一问...

新技术 # RF-Edit # RF-Solver

1年前

06520

IPAdapter-Instruct：在处理基于图像的条件化时，能够更精确地理解用户的意图

Unity推出IPAdapter-Instruct，它是一种用于图像生成的新技术，特别是在处理基于图像的条件化时，能够更精确地理解用户的意图。简单来说，这个模型可以让用户通过添加指令性提示（Instr...

新技术 # IPAdapter-Instruct

2年前

06510

新型框架Uni3C：通过3D增强技术实现对视频生成中相机和人体运动的精确控制

阿里达摩院、复旦大学和湖畔实验室的研究人员推出新型框架Uni3C，旨在通过3D增强技术实现对视频生成中相机和人体运动的精确控制。Uni3C通过将相机控制和人体运动控制统一到一个框架中，解决了现有方法中...

新技术 # Uni3C # 人体运动 # 视频生成

12个月前

06500

扩散模型中“幻觉”（hallucinations）现象：生成了一些在训练数据中从未出现过的样本

卡内基梅隆大学和DatalogyAI的研究人员发布论文探讨扩散模型（diffusion models）中“幻觉”（hallucinations）现象，即模型生成了一些在训练数据中从未出现过的样本。这种...

新技术 # 幻觉 # 扩散模型

2年前

06500

阿里发布 Wan2.2-I2V-Flash：更快、更稳、更可控的图生视频模型

阿里通义大模型团队宣布，Wan2.2-I2V-Flash 正式上线。这款轻量级图生视频（Image-to-Video）模型，在保持高画质与强控制力的同时，实现了生成速度与性价比的显著跃升。它不是对前...

早报 # Wan2.2-I2V-Flash

8个月前

06480

加载更多

百科