多模态模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

阿里通义实验室推出多模态深度研究智能体WebWatcher：通过结合视觉和语言推理能力，解决复杂的多模态信息检索问题

阿里通义实验室推出多模态深度研究智能体WebWatcher，通过结合视觉和语言推理能力，解决复杂的多模态信息检索问题。 GitHub：https://github.com/Alibaba-NLP/We...

多模态模型 # WebWatcher # 多模态深度研究智能体

6个月前

02400

英伟达发布 Cosmos-Predict2：打造物理AI的世界基础模型

在物理AI（Physical AI）系统的开发中，模拟真实世界的动态变化至关重要。为此，英伟达推出了 Cosmos-Predict2，作为其 Cosmos 世界模型的最新演进版本，专为生成具有物理感...

多模态模型 # Cosmos-Predict2 # 世界基础模型 # 英伟达

8个月前

02400

多模态模型RoboBrain：让机器人从抽象指令到具体操作的多模态大脑

近年来，多模态大语言模型（MLLMs）在多种场景中展现了卓越的能力，但在机器人领域，尤其是在长时段复杂操作任务中，其表现仍存在显著局限性。这些局限主要源于当前 MLLMs 缺乏三种关键能力：规划能力...

多模态模型 # RoboBrain # 多模态模型 # 机器人

9个月前

02400

华科大联合金山办公推出文档解析新模型MonkeyOCR

近日，华中科技大学与金山办公联合研究团队发布了一款全新的文档解析模型 —— MonkeyOCR。该模型通过引入“结构-识别-关系”（Structure-Recognition-Relation, SR...

多模态模型 # MonkeyOCR # 文档解析

8个月前

02380

谷歌推出PaliGemma 2 Mix：在混合视觉语言任务上进行微调的视觉语言模型版本，涵盖 OCR、长短字幕等多种任务

去年 12 月5日，谷歌发布了 PaliGemma 2，这是一个基于 SigLIP 和 Gemma 2 的新型预训练视觉语言模型（VLM）系列。这些模型提供了三种不同的尺寸（3B、10B、28B）和三...

多模态模型 # PaliGemma 2 Mix # 视觉语言模型 # 谷歌

12个月前

02370

新型统一多模态模型家族 BLIP3-o：同时支持图像理解和图像生成任务

Salesforce、马里兰大学、弗吉尼亚理工大学、纽约大学、华盛顿大学和加州大学戴维斯分校的研究人员推出新型统一多模态模型家族 BLIP3-o ，同时支持图像理解和图像生成任务。多模态模型是指能够处...

多模态模型 # BLIP3-o # 多模态模型

9个月前

02330

基于多模态大语言模型的高性能UI智能体UI-Venus

蚂蚁集团推出基于多模态大语言模型（MLLM）的高性能UI智能体（UI Agent）UI-Venus，它仅以屏幕截图作为输入，通过强化微调（Reinforcement Fine-Tune, RFT）技术...

多模态模型 # UI-Venus # UI智能体

6个月前

02320

Cohere 推出多语言多模态视觉模型 Aya Vision：集成了语言和视觉功能，并支持多达 23 种语言的输入

加拿大 AI 初创公司 Cohere 于 2019 年成立，专注于为企业提供 AI 解决方案。尽管在与 OpenAI 和 Anthropic 等美国巨头的竞争中市场份额有限，且面临来自中国开源竞争对手...

多模态模型 # Aya Vision # Cohere # 多模态视觉模型

11个月前

02240

Mistral AI 发布 Magistral Small 1.2：支持视觉输入的小型高效开源推理模型

法国AI初创公司 Mistral AI 本周正式发布并开源其小型语言模型的新版本 —— Magistral Small 1.2。该模型在前代基础上全面升级，不仅提升了数学与编程任务的基准表现，还首次引...

多模态模型 # Magistral Small 1.2 # Mistral AI

4个月前

02230

阿里通义实验室开源R1-Omni：用强化学习解锁全模态大模型的新潜力

随着DeepSeek R1的发布，强化学习在大模型领域的潜力得到了进一步挖掘。Reinforcement Learning with Verifiable Reward（RLVR）方法为多模态任务提供...

多模态模型 # R1-Omni # 全模态大模型 # 强化学习

11个月前

02200

昆仑万维天工项目组推出多模态推理模型 Skywork-R1V3-38B

昆仑万维天工项目组近日发布了 Skywork-R1V3-38B，这是其开源视觉-语言模型（VLM）系列 Skywork-R1V 的最新迭代版本，也是目前该系列中性能最强的多模态推理模型。基于 Inte...

多模态模型 # Skywork-R1V3-38B # 多模态推理模型 # 昆仑万维

7个月前

02190

Nanonets开源OCR2系列模型：图像转结构化Markdown+视觉问答双核心

Nanonets 正式发布并开源了 OCR2 系列模型，包含 Nanonets-OCR2-Plus、Nanonets-OCR2-3B 与 Nanonets-OCR2-1.5B-exp 三个版本。作为一...

多模态模型 # Nanonets-OCR2 # Qwen2-VL

3个月前

02150

加载更多

阿里通义实验室推出多模态深度研究智能体WebWatcher：通过结合视觉和语言推理能力，解决复杂的多模态信息检索问题

英伟达发布 Cosmos-Predict2：打造物理AI的世界基础模型

多模态模型RoboBrain：让机器人从抽象指令到具体操作的多模态大脑

华科大联合金山办公推出文档解析新模型MonkeyOCR

谷歌推出PaliGemma 2 Mix：在混合视觉语言任务上进行微调的视觉语言模型版本，涵盖 OCR、长短字幕等多种任务

新型统一多模态模型家族 BLIP3-o：同时支持图像理解和图像生成任务

基于多模态大语言模型的高性能UI智能体UI-Venus

Cohere 推出多语言多模态视觉模型 Aya Vision：集成了语言和视觉功能，并支持多达 23 种语言的输入

Mistral AI 发布 Magistral Small 1.2：支持视觉输入的小型高效开源推理模型

阿里通义实验室开源R1-Omni：用强化学习解锁全模态大模型的新潜力

昆仑万维天工项目组推出多模态推理模型 Skywork-R1V3-38B

Nanonets开源OCR2系列模型：图像转结构化Markdown+视觉问答双核心

新QoderWork

Clawdbot/Moltbot

Situation Monitor

ITELLOU

CutCut

中国科技云数据胶囊

多模态模型

网址

新QoderWork

Clawdbot/Moltbot

Situation Monitor

ITELLOU

CutCut

中国科技云数据胶囊