多模态模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

谷歌发布医学多模态开源模型MedGemma：支持图像与文本理解，支持X光CT分析

谷歌近日推出了一款面向医疗领域的开源模型系列 —— MedGemma，该模型基于 Gemma 3 构建，在医学图像识别与文本理解方面表现出色，标志着医疗 AI 在开源方向上的重要进展。 MedGemm...

9个月前

02050

蚂蚁集团开源全新统一多模态大模型 Ming-Lite-Omni：支持图像、文本、音频、视频

近日，蚂蚁集团旗下的百灵大模型（Ling）团队正式宣布开源其最新推出的统一多模态大模型 —— Ming-Lite-Omni。这是一款基于 Ling 系列轻量模型构建的 MoE 架构全模态 AI 模...

多模态模型 # Ming-Lite-Omni # 多模态大模型 # 蚂蚁集团

10个月前

03360

MiniMax推出视觉三重统一强化学习（RL）系统 V-Triune ：使视觉语言模型能够在单一训练流程中联合学习视觉推理和感知任务

MiniMax推出视觉三重统一强化学习（RL）系统 V-Triune ，使视觉语言模型能够在单一训练流程中联合学习视觉推理和感知任务。该系统通过整合三个互补组件——样本级数据格式化（Sample-Le...

多模态模型 # MiniMax # V-Triune # 视觉语言模型

10个月前

04910

天工AI推出Matrix-Game：首个支持可控交互式游戏世界生成的170亿参数基础模型

昆仑万维旗下天工AI团队正式发布了其最新研究成果——Matrix-Game，这是一个面向游戏世界的可交互视频生成基础模型，专为 Minecraft 及类似开放世界设计，具备精确控制角色动作、视角变换和...

多模态模型 # Matrix-Game # 游戏世界生成

10个月前

03500

新型多模态扩散基础模型MMaDA：通过统一的扩散架构和训练策略，在多种领域（如文本推理、多模态理解和文本到图像生成）中实现卓越性能

普林斯顿大学、北京大学、清华大学和字节跳动的研究人员推出新型多模态扩散基础模型MMaDA系列，该模型通过统一的扩散架构和训练策略，在多种领域（如文本推理、多模态理解和文本到图像生成）中实现卓越性能。 ...

多模态模型 # MMaDA # 多模态扩散基础模型

10个月前

04850

过程奖励模型WEB-SHEPHERD ：专门用于评估网络导航任务中的智能代理行为

延世大学和卡内基梅隆大学的研究人员推出一个名为 WEB-SHEPHERD 的过程奖励模型（PRM），专门用于评估网络导航任务中的智能代理行为。网络导航是一个复杂的领域，需要智能代理能够进行长期的序列决...

多模态模型 # WEB-SHEPHERD # 过程奖励模型

10个月前

02180

字节跳动推出多模态文档图像解析模型Dolphin

在复杂文档图像理解和结构化提取任务中，如何准确识别并组织交织的文本段落、公式、表格和图像，一直是业界的技术难点。 GitHub：https://github.com/bytedance/Dolphin...

多模态模型 # Dolphin # 多模态模型 # 字节跳动

8个月前

03920

新型统一多模态模型家族 BLIP3-o：同时支持图像理解和图像生成任务

Salesforce、马里兰大学、弗吉尼亚理工大学、纽约大学、华盛顿大学和加州大学戴维斯分校的研究人员推出新型统一多模态模型家族 BLIP3-o ，同时支持图像理解和图像生成任务。多模态模型是指能够处...

多模态模型 # BLIP3-o # 多模态模型

10个月前

02440

天工AI推出用于多模态理解和推理任务的多模态奖励模型Skywork-VL Reward

天工AI（Skywork AI）推出一个用于多模态理解和推理任务的多模态奖励模型Skywork-VL Reward，此模型是基于Qwen2.5-VL-7B-Instruct训练，Skywork-VL ...

多模态模型 # Skywork-VL Reward # 多模态奖励模型 # 天工AI

10个月前

03780

苹果推出高效视觉语言模型FastVLM：通过优化视觉编码器来提高模型在处理高分辨率图像任务时的效率和性能

苹果推出一种高效视觉语言模型FastVLM，旨在通过优化视觉编码器（Vision Encoder）来提高模型在处理高分辨率图像任务时的效率和性能。FastVLM的核心是其创新的视觉编码器 FastVi...

多模态模型 # FastVLM # 苹果 # 视觉语言模型

10个月前

02790

字节跳动推出专注于提升多模态理解与推理能力的视觉-语言基础模型Seed1.5-VL

字节跳动正式推出 Seed1.5-VL，这是一款专注于提升多模态理解与推理能力的视觉-语言基础模型。Seed1.5-VL 不仅在视觉和视频理解任务中表现出色，还在智能体相关任务及复杂推理挑战中展现了卓...

多模态模型 # Seed1.5-VL # 字节跳动 # 视觉-语言基础模型

10个月前

05030

基于MiniCPM-V构建的开源端侧智能体大模型AgentCPM-GUI：，接受手机屏幕图像作为输入，自动执行用户提出的任务

AgentCPM-GUI是由清华大学THUNLP实验室与面壁智能团队联合开发的开源端侧智能体大模型，基于MiniCPM-V构建，总参数量8B，接受手机屏幕图像作为输入，自动执行用户提出的任务。 Git...

多模态模型 # AgentCPM-GUI # MiniCPM-V # 智能体大模型

10个月前

03600

加载更多

谷歌发布医学多模态开源模型MedGemma：支持图像与文本理解，支持X光CT分析

蚂蚁集团开源全新统一多模态大模型 Ming-Lite-Omni：支持图像、文本、音频、视频

MiniMax推出视觉三重统一强化学习（RL）系统 V-Triune ：使视觉语言模型能够在单一训练流程中联合学习视觉推理和感知任务

天工AI推出Matrix-Game：首个支持可控交互式游戏世界生成的170亿参数基础模型

新型多模态扩散基础模型MMaDA：通过统一的扩散架构和训练策略，在多种领域（如文本推理、多模态理解和文本到图像生成）中实现卓越性能

过程奖励模型WEB-SHEPHERD ：专门用于评估网络导航任务中的智能代理行为

字节跳动推出多模态文档图像解析模型Dolphin

新型统一多模态模型家族 BLIP3-o：同时支持图像理解和图像生成任务

天工AI推出用于多模态理解和推理任务的多模态奖励模型Skywork-VL Reward

苹果推出高效视觉语言模型FastVLM：通过优化视觉编码器来提高模型在处理高分辨率图像任务时的效率和性能

字节跳动推出专注于提升多模态理解与推理能力的视觉-语言基础模型Seed1.5-VL

基于MiniCPM-V构建的开源端侧智能体大模型AgentCPM-GUI：，接受手机屏幕图像作为输入，自动执行用户提出的任务

S.H.I.T

WorkBuddy

QClaw

新ArkClaw

新AutoClaw

Joker of Academics（小丑学术期刊）

多模态模型

网址

S.H.I.T

WorkBuddy

QClaw

新ArkClaw

新AutoClaw

Joker of Academics（小丑学术期刊 ）

Joker of Academics（小丑学术期刊）