多模态模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

面壁智能发布高效多模态模型 MiniCPM-V 4.0：4B 模型，超越 GPT-4.1-mini

面壁智能正式推出 MiniCPM-V 4.0 —— MiniCPM-V 系列中最新的高效多模态模型，参数总量仅 4.1B，却在图像理解能力上实现显著突破。 GitHub：https://github...

6个月前

01700

Cohere 推出 Command A Vision：专为企业打造的高效多模态 AI

今天，AI 不再只是“读文字”的工具。越来越多的企业需要系统能“看懂”图像——从产品手册、工程图纸到财务报表、现场照片。为此，Cohere 正式发布 Command A Vision —— 一款专为...

多模态模型 # Cohere # Command A Vision

6个月前

01170

腾讯ARC实验室发布 ARC-Hunyuan-Video-7B：专为短视频理解而生的多模态模型

在微信视频号、TikTok 等平台上，每天有数亿条用户生成的短视频被上传。这些视频内容多样、节奏快、信息密度高，往往融合了画面、语音、音效、文字甚至情绪表达。如何让AI真正“理解”这些视频，而不仅仅是...

多模态模型 # ARC-Hunyuan-Video-7B # 多模态模型 # 腾讯ARC实验室

6个月前

04890

蚂蚁集团发布Ming-lite-omni v1.5：全模态能力的全面升级

由蚂蚁集团旗下的百灵大模型（Ling）团队研发的全模态大模型 Ming-lite-omni v1.5 正式发布。作为对初代模型的全面升级，v1.5 版本在图像、文本、视频、语音等多种模态的理解与生...

多模态模型 # Ming-lite-omni v1.5 # 蚂蚁集团

6个月前

03060

东京大学推出基准测试MangaVQA和多模态漫画理解模型MangaLMM

东京大学的研究人员推出一个名为 MangaVQA 的基准测试和一个名为 MangaLMM 的专门模型，用于多模态漫画理解。漫画（Manga）是一种将图像和文本以复杂方式结合的叙事形式，理解漫画需要同时...

多模态模型 # MangaLMM # MangaVQA # 东京大学

6个月前

01410

字节跳动Seed团队发布新一代机器人操作大模型Seed GR-3

字节跳动Seed团队近日推出一款面向复杂操作任务的大规模机器人模型——Seed GR-3（Generalist Robot Model-3）。该模型具备良好的泛化能力，支持长序列任务执行与多模态指令理...

多模态模型 # Seed GR-3 # 字节跳动

6个月前

01650

蚂蚁集团发布 M2-Reasoning-7B：通用与空间推理能力领先的多模态大模型

蚂蚁集团 inclusionAI 项目组正式发布 M2-Reasoning-7B，一个在通用推理与空间推理领域表现卓越的多模态大语言模型（MLLM）。该模型基于 70 亿参数架构，通过创新的数据生成...

多模态模型 # M2-Reasoning-7B # 多模态大模型 # 蚂蚁集团

7个月前

01750

ColPali：基于视觉语言模型的新型高效文档检索系统

由 Illuin科技、Equall.ai、巴黎-萨克雷大学和苏黎世联邦理工学院联合提出，ColPali 是一种基于视觉语言模型（VLMs）的文档检索模型，能够直接从文档图像中提取信息，实现快速、准确...

多模态模型 # ColPali # 文档检索

7个月前

01310

ColQwen2.5-Omni：首个支持视觉+音频检索的ColBERT风格模型

ColQwen2.5-Omni 是基于 Qwen2.5-Omni-3B-Instruct 的新一代多模态检索模型。该模型采用 ColBERT 策略，支持从图像、音频等多模态内容中高效检索信息，是目前首...

多模态模型 # ColQwen2.5-Omni

7个月前

01560

Open-Vision-Reasoner（OVR）：基于语言认知迁移的多模态视觉推理新范式

大语言模型（LLMs）之所以具备强大的推理能力，关键在于其通过可验证奖励机制的强化学习所涌现的认知行为。那么，是否可以将这一原则迁移至多模态大语言模型（MLLMs），从而解锁其高级视觉推理能力？本研...

多模态模型 # Open-Vision-Reasoner # 多模态大语言模型

7个月前

02750

NeuralOS：用神经生成模型模拟操作系统图形界面

滑铁卢大学与加拿大国家研究院的研究团队提出了一项极具前瞻性的项目：NeuralOS —— 一个通过神经生成模型模拟操作系统图形用户界面（GUI）的框架。项目主页：https://neural-os...

多模态模型 # NeuralOS # 操作系统

7个月前

0810

PyVision：基于动态工具生成的多模态智能视觉推理框架

随着大语言模型（LLMs）的发展，我们正进入一个代理式人工智能（Agent AI）时代。这些模型不仅能够生成文本，还能进行任务规划、逻辑推理，并调用外部工具来扩展能力边界。但真正的前沿在于：不是仅仅...

多模态模型 # PyVision # 多模态智能视觉推理

7个月前

02130

加载更多

面壁智能发布高效多模态模型 MiniCPM-V 4.0：4B 模型，超越 GPT-4.1-mini

Cohere 推出 Command A Vision：专为企业打造的高效多模态 AI

腾讯ARC实验室发布 ARC-Hunyuan-Video-7B：专为短视频理解而生的多模态模型

蚂蚁集团发布Ming-lite-omni v1.5：全模态能力的全面升级

东京大学推出基准测试MangaVQA和多模态漫画理解模型MangaLMM

字节跳动Seed团队发布新一代机器人操作大模型Seed GR-3

蚂蚁集团发布 M2-Reasoning-7B：通用与空间推理能力领先的多模态大模型

ColPali：基于视觉语言模型的新型高效文档检索系统

ColQwen2.5-Omni：首个支持视觉+音频检索的ColBERT风格模型

Open-Vision-Reasoner（OVR）：基于语言认知迁移的多模态视觉推理新范式

NeuralOS：用神经生成模型模拟操作系统图形界面

PyVision：基于动态工具生成的多模态智能视觉推理框架

Clawdbot/Moltbot

新QoderWork

Situation Monitor

Higgsfield AI

CutCut

ITELLOU

多模态模型

网址

Clawdbot/Moltbot

新QoderWork

Situation Monitor

Higgsfield AI

CutCut

ITELLOU