模型 | 第12页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

面壁智能发布 MiniCPM-V 4.5：8B 参数模型实现多模态能力新突破

面壁智能正式推出其最新视觉语言模型 MiniCPM-V 4.5，这是 MiniCPM-V 系列中性能最强、功能最全面的版本。该模型在保持 80 亿参数规模的前提下，实现了在视觉理解、视频处理、文档解析...

5个月前

05460

Ultra3D：一种高效且高保真的稀疏体素3D生成框架

在生成式 AI 向三维空间延伸的进程中，高质量、高分辨率的3D内容生成已成为核心挑战。尽管基于稀疏体素的方法在几何细节建模方面表现出色，但其普遍采用的双阶段扩散架构常因注意力机制的二次计算复杂度而面临...

3D模型 # 3D生成框架 # Ultra3D

6个月前

05450

Meta AI 发布 DINOv3：无需微调、无需标注的下一代视觉模型

Meta AI 正式推出 DINOv3 —— 一项在计算机视觉领域具有里程碑意义的自监督学习模型。它不仅刷新了密集预测任务的性能上限，更首次证明：一个通用、冻结的视觉骨干，可以在无需微调的情况下，在多...

图像模型 # DINOv3 # 视觉模型

6个月前

05430

阿里国际推出多模态大语言模型 Ovis1.6-Gemma2-9B：能够同时处理和理解文本和视觉信息

Ovis1.6-Gemma2-9B是阿里国际推出的一款多模态大语言模型，Ovis是一种新颖的多模态大语言模型（MLLM）架构，旨在结构化地对齐视觉和文本嵌入。Ovis1.6-Gemma2-9B基于O...

多模态模型 # Ovis1.6-Gemma2-9B # 多模态大语言模型

12个月前

05430

新型多模态原生模型Aria：专门设计来处理和理解多种类型的信息（文本、代码、图像和视频）

Rhymes AI推出新型多模态原生模型Aria，这是一个开源的混合专家（MoE）模型，ARIA专门设计来处理和理解多种类型的信息，比如文本、代码、图像和视频，而且它能够像人类一样，不需要特别区分这些...

多模态模型 # Aria # Rhymes AI # 多模态模型

12个月前

05430

PUSA V1.0：以500 美元成本超越 WAN-I2V-14B 的高效视频生成模型

由香港城市大学、华为研究院、腾讯、岭南大学等机构联合提出，PUSA V1.0 是一个基于矢量化时间步适应（VTA）的新型视频扩散模型，实现了极低资源消耗下的高质量视频生成能力。项目主页：https...

视频模型 # PUSA V1.0 # WAN-I2V-14B # 视频生成模型

7个月前

05390

Stability AI推出新型3D内容生成工具Stable Video 3D：基于单张图片，生成该物体的多视角视频和3D模型

Stability AI在3月18日推出了一个基于Stable Video Diffusion技术的生成模型Stable Video 3D（SV3D），首次将视频扩散模型应用到3D生成领域，只需要一张...

3D模型 # 3D模型 # Stability AI # Stable Video 3D

12个月前

05380

黑森林实验室联合 KREA AI 发布 FLUX.1 Krea [dev]：实现更真实、更自然的图像生成

黑森林实验室（Black Forest Labs, BFL）与创意 AI 平台 KREA AI 正式宣布推出 FLUX.1 Krea [dev] —— 一个全新的开源文本到图像生成模型，也是 Krea...

图像模型 # FLUX.1 Krea [dev]# 图像生成 # 黑森林实验室

6个月前

05350

基于Flux模型的创新角色生成框架InstantCharacter：单张图像生成高质量角色图像

腾讯混元团队与InstantX团队近日联合推出了一种全新的角色定制方法——InstantCharacter。这一方法无需调优，仅通过单张图像即可实现高保真、文本可控且角色一致的图像生成，支持多种下游任...

图像模型 # FLUX模型 # InstantCharacter # InstantX

10个月前

05340

JoyCaption：从零开始构建的免费、开放且未经审查的视觉语言模型

JoyCaption，一个从零开始构建的免费、开放且未经审查的视觉语言模型（VLM），旨在助力社区训练SD或Flux模型。它不仅免费开放，还提供训练脚本和丰富的构建细节，就像bigASP一样。 Dem...

多模态模型 # JoyCaption # 视觉语言模型

12个月前

05330

面壁智能推出开源多模态大语言模型MiniCPM-V 2.6：可以在手机上运行与GPT-4V水平相当的任务

面壁智能昨日开源了 MiniCPM-V 2.6 模型，官方表示将端侧 AI 多模态能力拉升至全面对标 GPT-4V 水平。MiniCPM-V是面向图文理解的端侧多模态大模型系列。该系列模型接受图像和文...

多模态模型 # MiniCPM-V 2.6 # 面壁智能

12个月前

05330

浙江大学与哈佛大学联合推出高效图像编辑框架In-Context Edit：用自然语言指令轻松实现图像修改

浙江大学和哈佛大学的研究人员联合推出了ICEdit（In-Context Edit），这是一个高效且强大的基于指令的图像编辑框架。与传统方法相比，ICEdit 仅需 1% 的可训练参数（2 亿）和 ...

图像模型 # FLUX # ICEdit # In-Context Edit

9个月前

05320

加载更多

模型

面壁智能发布 MiniCPM-V 4.5：8B 参数模型实现多模态能力新突破

Ultra3D：一种高效且高保真的稀疏体素3D生成框架

Meta AI 发布 DINOv3：无需微调、无需标注的下一代视觉模型

阿里国际推出多模态大语言模型 Ovis1.6-Gemma2-9B：能够同时处理和理解文本和视觉信息

新型多模态原生模型Aria：专门设计来处理和理解多种类型的信息（文本、代码、图像和视频）

PUSA V1.0：以500 美元成本超越 WAN-I2V-14B 的高效视频生成模型

Stability AI推出新型3D内容生成工具Stable Video 3D：基于单张图片，生成该物体的多视角视频和3D模型

黑森林实验室联合 KREA AI 发布 FLUX.1 Krea [dev]：实现更真实、更自然的图像生成

基于Flux模型的创新角色生成框架InstantCharacter：单张图像生成高质量角色图像

JoyCaption：从零开始构建的免费、开放且未经审查的视觉语言模型

面壁智能推出开源多模态大语言模型MiniCPM-V 2.6：可以在手机上运行与GPT-4V水平相当的任务

浙江大学与哈佛大学联合推出高效图像编辑框架In-Context Edit：用自然语言指令轻松实现图像修改

新QoderWork

Clawdbot/Moltbot

CutCut

ITELLOU

Situation Monitor

中国科技云数据胶囊

模型

网址

新QoderWork

Clawdbot/Moltbot

CutCut

ITELLOU

Situation Monitor

中国科技云数据胶囊