模型 | 第80页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型

排序

发布更新浏览点赞

MagicTailor框架：让用户对生成的图像中的特定视觉元素进行精确控制

近年来，文本到图像（T2I）扩散模型取得了显著进展，能够从简单的文本提示中生成高质量的图像。然而，这些模型在精确控制特定视觉概念生成方面仍然面临挑战。现有的方法可以通过参考图像学习复制给定的概念，但缺...

图像模型 # MagicTailor # 图像定制

11个月前

05590

文字处理能力出众！Playground推出最新文生图模型Playground v3

Playground 推出了Playground v3（PGv3），这是Playground最新的文本到图像模型，在多个测试基准上达到了最先进的（SoTA）性能，在图形设计能力上表现出色，并引入了新的...

图像模型 # Playground v3 # 文生图模型

11个月前

04410

非自回归 MIM 文生图合成模型Meissonic：生成高质量、高分辨率的图像

随着大语言模型（LLMs）在自然语言处理任务中的显著进步，研究人员开始探索类似的文本到图像合成方法。与此同时，扩散模型已经成为视觉生成的主流方法。然而，由于语言和视觉任务之间存在显著的操作差异，开发统...

图像模型 # Meissonic # 文生图合成模型

11个月前

03850

新型图像抠图方法SEMat：能够在复杂的自然场景中实现更精确的前景对象抠图

近年来，交互式分割模型（如 SAM）在图像分割任务中取得了显著进展。然而，这些模型在应用于交互式抠图任务时面临挑战，尤其是在处理复杂和遮挡场景时。现有的方法通常在合成数据上训练模型，但这些模型难以泛化...

图像模型 # SEMat # 图像抠图

11个月前

06070

深度求索推出新颖自回归框架 Janus：具有图像生成功能的 13 亿多模态模型

多模态AI模型是能够理解和生成视觉内容的强大工具。然而，现有方法通常使用单一视觉编码器来处理这两项任务，这导致了由于理解和生成在本质上不同的需求而表现不佳。理解需要高层次的语义抽象，而生成则关注局部细...

多模态模型 # Janus # 多模态模型

11个月前

09060

新型文生图框架SANA：能够高效地生成高达4096×4096分辨率的高清晰度图像

英伟达、麻省理工学院和清华大学的研究人员推出新型文本到图像生成框架SANA，它能够高效地生成高达4096×4096分辨率的高清晰度图像。SANA的核心优势在于它不仅生成的图像质量高，而且与文本的匹配度...

图像模型 # SANA # 文生图框架

11个月前

07790

Jasper研究团队推出适用于FLUX.1-dev 的新型 Upscaler、深度和法线贴图 ControlNet模型

在FLUX.1-dev取代SDXL和SD3成为开源社区最爱的文生图开源模型，各种周边模型也是层出不穷，今天给大家分享近期推出的适用于 FLUX.1-dev 的新型 Upscaler、深度和法线贴图 ...

Flux衍生 # ControlNet模型 # FLUX.1-dev

11个月前

05040

阿里国际推出多模态大语言模型 Ovis1.6-Gemma2-9B：能够同时处理和理解文本和视觉信息

Ovis1.6-Gemma2-9B是阿里国际推出的一款多模态大语言模型，Ovis是一种新颖的多模态大语言模型（MLLM）架构，旨在结构化地对齐视觉和文本嵌入。Ovis1.6-Gemma2-9B基于O...

多模态模型 # Ovis1.6-Gemma2-9B # 多模态大语言模型

11个月前

05410

新型多模态原生模型Aria：专门设计来处理和理解多种类型的信息（文本、代码、图像和视频）

Rhymes AI推出新型多模态原生模型Aria，这是一个开源的混合专家（MoE）模型，ARIA专门设计来处理和理解多种类型的信息，比如文本、代码、图像和视频，而且它能够像人类一样，不需要特别区分这些...

多模态模型 # Aria # Rhymes AI # 多模态模型

11个月前

05430

用于长篇故事视觉化的迭代框架Story-Adapter：根据长篇故事的文字描述生成一系列既连贯又具有丰富细节的图像

加州大学圣克鲁斯分校、杭州电子科技大学和新加坡理工学院的研究人员推出一个用于长篇故事视觉化的迭代框架Story-Adapter，Story-Adapter能够根据长篇故事的文字描述生成一系列既连贯又具...

图像模型 # Story-Adapter # 长篇故事视觉化

11个月前

09260

IterComp：为了解决文本到图像生成中的复杂和组合问题而设计的新框架

清华大学、北京大学、LibAI Lab、中国科学技术大学、牛津大学和普林斯顿大学的研究人员推出AI绘画新框架IterComp，它是为了解决文本到图像生成中的复杂和组合问题而设计的。简单来说，就是当你给...

图像模型 # IterComp # 文本到图像

11个月前

06350

新型视频生成模型Pyramidal Flow：提高视频生成的效率，同时保持生成视频的高质量

北京大学、快手科技和北京邮电大学的研究人员推出新型视频生成模型Pyramidal Flow，这个模型的目的是提高视频生成的效率，同时保持生成视频的高质量。可以想象一下，你想制作一个视频，里面有一只小猫...

视频模型 # Pyramidal Flow # 视频生成模型

11个月前

04810

加载更多

模型

MagicTailor框架：让用户对生成的图像中的特定视觉元素进行精确控制

文字处理能力出众！Playground推出最新文生图模型Playground v3

非自回归 MIM 文生图合成模型Meissonic：生成高质量、高分辨率的图像

新型图像抠图方法SEMat：能够在复杂的自然场景中实现更精确的前景对象抠图

深度求索推出新颖自回归框架 Janus：具有图像生成功能的 13 亿多模态模型

新型文生图框架SANA：能够高效地生成高达4096×4096分辨率的高清晰度图像

Jasper研究团队推出适用于FLUX.1-dev 的新型 Upscaler、深度和法线贴图 ControlNet模型

阿里国际推出多模态大语言模型 Ovis1.6-Gemma2-9B：能够同时处理和理解文本和视觉信息

新型多模态原生模型Aria：专门设计来处理和理解多种类型的信息（文本、代码、图像和视频）

用于长篇故事视觉化的迭代框架Story-Adapter：根据长篇故事的文字描述生成一系列既连贯又具有丰富细节的图像

IterComp：为了解决文本到图像生成中的复杂和组合问题而设计的新框架

新型视频生成模型Pyramidal Flow：提高视频生成的效率，同时保持生成视频的高质量

CutCut

Fogsight (雾象)

Higgsfield AI

Zoom Earth

NotebookLM

alphaXiv

模型

网址

CutCut

Fogsight (雾象)

Higgsfield AI

Zoom Earth

NotebookLM

alphaXiv