多模态模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

东京大学推出基准测试MangaVQA和多模态漫画理解模型MangaLMM

东京大学的研究人员推出一个名为 MangaVQA 的基准测试和一个名为 MangaLMM 的专门模型，用于多模态漫画理解。漫画（Manga）是一种将图像和文本以复杂方式结合的叙事形式，理解漫画需要同时...

8个月前

01590

字节跳动Seed团队发布新一代机器人操作大模型Seed GR-3

字节跳动Seed团队近日推出一款面向复杂操作任务的大规模机器人模型——Seed GR-3（Generalist Robot Model-3）。该模型具备良好的泛化能力，支持长序列任务执行与多模态指令理...

多模态模型 # Seed GR-3 # 字节跳动

8个月前

01930

蚂蚁集团发布 M2-Reasoning-7B：通用与空间推理能力领先的多模态大模型

蚂蚁集团 inclusionAI 项目组正式发布 M2-Reasoning-7B，一个在通用推理与空间推理领域表现卓越的多模态大语言模型（MLLM）。该模型基于 70 亿参数架构，通过创新的数据生成...

多模态模型 # M2-Reasoning-7B # 多模态大模型 # 蚂蚁集团

8个月前

01970

ColPali：基于视觉语言模型的新型高效文档检索系统

由 Illuin科技、Equall.ai、巴黎-萨克雷大学和苏黎世联邦理工学院联合提出，ColPali 是一种基于视觉语言模型（VLMs）的文档检索模型，能够直接从文档图像中提取信息，实现快速、准确...

多模态模型 # ColPali # 文档检索

8个月前

01400

ColQwen2.5-Omni：首个支持视觉+音频检索的ColBERT风格模型

ColQwen2.5-Omni 是基于 Qwen2.5-Omni-3B-Instruct 的新一代多模态检索模型。该模型采用 ColBERT 策略，支持从图像、音频等多模态内容中高效检索信息，是目前首...

多模态模型 # ColQwen2.5-Omni

8个月前

01720

Open-Vision-Reasoner（OVR）：基于语言认知迁移的多模态视觉推理新范式

大语言模型（LLMs）之所以具备强大的推理能力，关键在于其通过可验证奖励机制的强化学习所涌现的认知行为。那么，是否可以将这一原则迁移至多模态大语言模型（MLLMs），从而解锁其高级视觉推理能力？本研...

多模态模型 # Open-Vision-Reasoner # 多模态大语言模型

8个月前

03350

NeuralOS：用神经生成模型模拟操作系统图形界面

滑铁卢大学与加拿大国家研究院的研究团队提出了一项极具前瞻性的项目：NeuralOS —— 一个通过神经生成模型模拟操作系统图形用户界面（GUI）的框架。项目主页：https://neural-os...

多模态模型 # NeuralOS # 操作系统

8个月前

0850

PyVision：基于动态工具生成的多模态智能视觉推理框架

随着大语言模型（LLMs）的发展，我们正进入一个代理式人工智能（Agent AI）时代。这些模型不仅能够生成文本，还能进行任务规划、逻辑推理，并调用外部工具来扩展能力边界。但真正的前沿在于：不是仅仅...

多模态模型 # PyVision # 多模态智能视觉推理

8个月前

02240

谷歌推出开源医疗 AI 模型系列MedGemma及轻量级图像编码器 MedSigLIP

谷歌近日宣布推出其最新的开源医疗 AI 模型系列——MedGemma，并同时发布了轻量级图像编码器 MedSigLIP。这是继健康 AI 开发者基础（HAI-DEF）项目之后，谷歌在医疗 AI 领域迈...

多模态模型 # MedGemma # MedSigLIP # 谷歌

8个月前

01570

昆仑万维天工项目组推出多模态推理模型 Skywork-R1V3-38B

昆仑万维天工项目组近日发布了 Skywork-R1V3-38B，这是其开源视觉-语言模型（VLM）系列 Skywork-R1V 的最新迭代版本，也是目前该系列中性能最强的多模态推理模型。基于 Inte...

多模态模型 # Skywork-R1V3-38B # 多模态推理模型 # 昆仑万维

8个月前

02400

智谱AI联合清华推出新一代视觉语言推理模型开源 GLM-4.1V-9B-Thinking

随着智能任务日益复杂，视觉语言大模型（VLM）正从基础的多模态感知迈向更高层次的推理能力提升。为了应对这一趋势，智谱AI 与清华大学联合推出了新一代 VLM 开源模型 —— GLM-4.1V-9B-T...

多模态模型 # GLM-4.1V-9B-Thinking # 智谱AI

9个月前

03120

快手 Keye 团队发布 Kwai Keye-VL ：专注短视频理解的多模态大模型

快手 Keye 团队近日推出了一款全新的多模态大型语言模型（MLLM）——Kwai Keye-VL。该模型拥有 80 亿参数，专注于提升对短视频的理解能力，同时保持强大的通用视觉-语言能力。 GitH...

多模态模型 # Kwai Keye-VL # 多模态大模型 # 快手

9个月前

02990

加载更多

东京大学推出基准测试MangaVQA和多模态漫画理解模型MangaLMM

字节跳动Seed团队发布新一代机器人操作大模型Seed GR-3

蚂蚁集团发布 M2-Reasoning-7B：通用与空间推理能力领先的多模态大模型

ColPali：基于视觉语言模型的新型高效文档检索系统

ColQwen2.5-Omni：首个支持视觉+音频检索的ColBERT风格模型

Open-Vision-Reasoner（OVR）：基于语言认知迁移的多模态视觉推理新范式

NeuralOS：用神经生成模型模拟操作系统图形界面

PyVision：基于动态工具生成的多模态智能视觉推理框架

谷歌推出开源医疗 AI 模型系列MedGemma及轻量级图像编码器 MedSigLIP

昆仑万维天工项目组推出多模态推理模型 Skywork-R1V3-38B

智谱AI联合清华推出新一代视觉语言推理模型开源 GLM-4.1V-9B-Thinking

快手 Keye 团队发布 Kwai Keye-VL ：专注短视频理解的多模态大模型

S.H.I.T

新悟空

ArkClaw

Joker of Academics（小丑学术期刊）

新360 安全龙虾

QClaw

多模态模型

网址

S.H.I.T

新悟空

ArkClaw

Joker of Academics（小丑学术期刊 ）

新360 安全龙虾

QClaw

Joker of Academics（小丑学术期刊）