多模态模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

字节跳动推出多模态文档图像解析模型Dolphin

在复杂文档图像理解和结构化提取任务中，如何准确识别并组织交织的文本段落、公式、表格和图像，一直是业界的技术难点。 GitHub：https://github.com/bytedance/Dolphin...

7个月前

03770

谷歌推出开源医疗 AI 模型系列MedGemma及轻量级图像编码器 MedSigLIP

谷歌近日宣布推出其最新的开源医疗 AI 模型系列——MedGemma，并同时发布了轻量级图像编码器 MedSigLIP。这是继健康 AI 开发者基础（HAI-DEF）项目之后，谷歌在医疗 AI 领域迈...

多模态模型 # MedGemma # MedSigLIP # 谷歌

7个月前

01520

昆仑万维天工项目组推出多模态推理模型 Skywork-R1V3-38B

昆仑万维天工项目组近日发布了 Skywork-R1V3-38B，这是其开源视觉-语言模型（VLM）系列 Skywork-R1V 的最新迭代版本，也是目前该系列中性能最强的多模态推理模型。基于 Inte...

多模态模型 # Skywork-R1V3-38B # 多模态推理模型 # 昆仑万维

7个月前

02190

智谱AI联合清华推出新一代视觉语言推理模型开源 GLM-4.1V-9B-Thinking

随着智能任务日益复杂，视觉语言大模型（VLM）正从基础的多模态感知迈向更高层次的推理能力提升。为了应对这一趋势，智谱AI 与清华大学联合推出了新一代 VLM 开源模型 —— GLM-4.1V-9B-T...

多模态模型 # GLM-4.1V-9B-Thinking # 智谱AI

7个月前

02850

快手 Keye 团队发布 Kwai Keye-VL ：专注短视频理解的多模态大模型

快手 Keye 团队近日推出了一款全新的多模态大型语言模型（MLLM）——Kwai Keye-VL。该模型拥有 80 亿参数，专注于提升对短视频的理解能力，同时保持强大的通用视觉-语言能力。 GitH...

多模态模型 # Kwai Keye-VL # 多模态大模型 # 快手

7个月前

02410

阿里 Qwen 项目组正式推出全新多模态模型Qwen VLo

随着多模态大模型的不断发展，我们对技术边界的认知也在持续被刷新。从最初的 QwenVL 到如今的 Qwen2.5 VL，我们在提升模型图像理解能力方面不断取得进步。项目主页：https://qwen...

多模态模型 # Qwen VLo # Qwen 项目组 # 阿里巴巴

7个月前

02040

Jina AI推出文本嵌入模型Jina Embeddings v4：多模态多语言检索的通用嵌入模型

Jina AI正式发布 jina-embeddings-v4 —— 一款全新的38亿参数通用嵌入模型，支持文本与图像输入，适用于多种检索任务。该模型在多个基准测试中表现优异，特别是在处理表格、图表等视...

多模态模型 # Jina AI # Jina Embeddings v4 # 文本嵌入模型

7个月前

03000

复旦联合团队发布首个统一多模态奖励模型UNIFIEDREWARD：图像视频都能评，还能优化视觉生成

近日，由复旦大学、上海创新创意设计研究院、上海人工智能实验室和上海人工智能科学院组成的研究团队，正式发布了全球首个支持图像与视频理解与生成任务评估的统一奖励模型 —— UNIFIEDREWARD。项...

多模态模型 # UNIFIEDREWARD # 统一多模态奖励模型

7个月前

03540

Kimi-VL-A3B-Thinking-2506 正式上线：更强推理、更高分辨率、支持视频理解

两个月前，月之暗面推出了首个开源多模态推理模型 Kimi-VL-A3B-Thinking，如今他们正式推出其升级版本 Kimi-VL-A3B-Thinking-2506。模型：https://hug...

多模态模型 # Kimi-VL-A3B-Thinking-2506 # 多模态推理模型 # 月之暗面

7个月前

03560

EmoNet：迈向真正“有情感”的AI，LAION开源新一代情感智能模型

人工智能的发展正进入一个全新的阶段：从理解语言到理解情绪。尽管AI在语言处理、推理能力等方面取得了显著进展，但在情感智能（Affective Intelligence）这一维度上，仍然存在巨大空白。 ...

多模态模型 # EmoNet # LAION AI # 情感智能模型

7个月前

02820

Nanonets 推出 Nanonets-OCR-s：首个面向 LLM 的结构化 OCR 模型

近日，Nanonets 宣布推出一款全新的 OCR 模型 Nanonets-OCR-s ——这是一款专为大语言模型（LLMs）设计的图像转 Markdown 工具，具备强大的文档理解与结构化输出能力...

多模态模型 # Nanonets-OCR-s # OCR 模型

8个月前

02790

Holo1：HCompany开源高性能视觉-语言模型，赋能Surfer-H代理实现精准网页交互

Holo1 是由 HCompany 开发的一款专为网络代理系统设计的动作视觉-语言模型（VLM），作为 Surfer-H 网络代理的核心组件之一，它具备像人类用户一样与网页界面交互的能力。模型：h...

多模态模型 # Holo1 # 视觉-语言模型

8个月前

02960

加载更多

字节跳动推出多模态文档图像解析模型Dolphin

谷歌推出开源医疗 AI 模型系列MedGemma及轻量级图像编码器 MedSigLIP

昆仑万维天工项目组推出多模态推理模型 Skywork-R1V3-38B

智谱AI联合清华推出新一代视觉语言推理模型开源 GLM-4.1V-9B-Thinking

快手 Keye 团队发布 Kwai Keye-VL ：专注短视频理解的多模态大模型

阿里 Qwen 项目组正式推出全新多模态模型Qwen VLo

Jina AI推出文本嵌入模型Jina Embeddings v4：多模态多语言检索的通用嵌入模型

复旦联合团队发布首个统一多模态奖励模型UNIFIEDREWARD：图像视频都能评，还能优化视觉生成

Kimi-VL-A3B-Thinking-2506 正式上线：更强推理、更高分辨率、支持视频理解

EmoNet：迈向真正“有情感”的AI，LAION开源新一代情感智能模型

Nanonets 推出 Nanonets-OCR-s：首个面向 LLM 的结构化 OCR 模型

Holo1：HCompany开源高性能视觉-语言模型，赋能Surfer-H代理实现精准网页交互

新QoderWork

Clawdbot/Moltbot

Situation Monitor

Higgsfield AI

CutCut

ITELLOU

多模态模型

网址

新QoderWork

Clawdbot/Moltbot

Situation Monitor

Higgsfield AI

CutCut

ITELLOU