多模态模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

浙大 × 通义实验室提出 UI-S1：用“半在线”训练让 MLLM 更懂图形界面

在手机上完成一连串操作——比如从微信复制一段文字，粘贴到备忘录，再分享给钉钉好友——对人类来说是日常小事。但对 AI 来说，这是一次复杂的多步决策挑战。近年来，基于多模态大语言模型（MLLM）的 G...

多模态模型 # UI-S1 # 多模态大语言模型

6个月前

02960

宇树科技开源 UnifoLM-WMA-0：面向通用机器人的世界模型–动作架构

宇树科技（Unitree）近日宣布开源其全新的机器人学习框架 —— UnifoLM-WMA-0，一个专为通用机器人学习设计的世界模型–动作（World Model–Action）架构。该模型跨越多种机...

多模态模型 # UnifoLM-WMA-0 # 宇树科技

6个月前

01520

北邮、浙大等团队联合提出视觉-语言-动作模型 VLA-Adapter：用轻量桥接实现高效机器人控制

在当前机器人智能领域，视觉-语言-动作（Vision-Language-Action, VLA）模型正成为连接感知与行为的核心技术。这类模型能让机器人“听懂指令”、“看懂场景”，并自主执行任务，例如...

多模态模型 # VLA-Adapter # 视觉-语言-动作模型

6个月前

03550

字节跳动 & 港大推出 Mini-o3：可扩展多轮推理的开源视觉智能体

字节跳动与香港大学联合发布 Mini-o3 ——一个具备强大图像理解与长程多轮交互能力的开源多模态模型。该模型能够生成类似 OpenAI o3 风格的代理行为轨迹，在复杂视觉搜索任务中实现数十轮持续推...

多模态模型 # Mini-o3 # 视觉智能体

6个月前

02080

POINTS-Reader：无需蒸馏、端到端的轻量级文档视觉语言模型

腾讯、上海交通大学与清华大学联合推出 POINTS-Reader —— WePOINTS 家族最新成员，一款专为文档图像转文本设计的轻量级视觉-语言模型（VLM）。 GitHub：https://gi...

多模态模型 # POINTS-Reader # 文档视觉语言模型

6个月前

02180

CDMs：让机器人“看清”三维世界，实现从仿真到现实的无缝迁移

在机器人技能学习中，视觉感知是决策与操作的基础。然而，当前大多数方法依赖2D彩色图像作为输入——这种模式虽能捕捉纹理和颜色，却难以准确理解物体的距离、大小、形状等关键几何信息。相比之下，人类在与环境...

多模态模型 # CDMs # 机器人

6个月前

0930

OpenVision 2：更高效、更对齐的生成式视觉编码器

在多模态大模型（MLLM）快速发展的今天，一个核心问题日益凸显：预训练视觉编码器的训练方式是否真的适配下游任务？传统方法依赖图像-文本对比学习（如 CLIP），但这类模型在接入 LLM 进行微调时...

多模态模型 # OpenVision 2 # 视觉编码器

6个月前

01720

快手 Keye 团队发布Keye-VL-1.5 ：支持 128K 上下文的视频理解大模型

在多模态大模型的竞争中，视频理解正成为下一个关键战场。相比图像，视频包含更丰富的时空信息——动作的起止、事件的因果、场景的演变。要让AI真正“看懂”一段视频，不仅需要识别画面内容，还要理解时间逻辑与行...

多模态模型 # Keye-VL-1.5 # 快手 # 视频理解大模型

6个月前

0730

MetaFold：用语言指导机器人叠衣服，还能通用于不同衣物

让机器人叠衣服，听起来简单，做起来极难。布料柔软、易变形，同一件T恤每次摆放的形态都不同。这种高度的可变性使得机器人难以像抓取刚性物体那样，靠预设动作完成操作。更别说还要应对不同款式——无袖、短袖...

多模态模型 # MetaFold

6个月前

01010

蚂蚁集团开源医学智能体MedResearcher-R1：以知识引导技术破解领域AI推理难题

蚂蚁集团正式开源医学智能体 MedResearcher-R1，同时对外公开模型及合成数据生成方法。这一智能体聚焦医学领域AI推理的核心痛点，通过“知识图谱构建-轨迹生成-评估验证”的全流程框架，为领域...

多模态模型 # MedResearcher-R1 # 医学智能体 # 蚂蚁集团

6个月前

0830

苹果发布 MobileCLIP2：更小、更快、更高效的移动端多模态模型

苹果近期推出了新一代轻量级图像-文本模型家族 —— MobileCLIP2，在保持高精度的同时，显著降低模型体积与推理延迟，专为移动设备上的实时多模态理解任务而设计。 GitHub：https://g...

多模态模型 # MobileCLIP2 # 图像-文本模型 # 苹果

6个月前

0800

苹果推出视觉语言模型FastVLM：用更少的视觉 Token，更快理解高分辨率图像

苹果近期发布了 FastVLM系列视觉语言模型，并首次引入其自研混合视觉编码器 FastViTHD。该模型解决当前多模态系统在处理高分辨率图像时面临的效率瓶颈，尤其在移动端和实时交互场景中展现出显著优...

多模态模型 # FastVLM # 苹果 # 视觉语言模型

6个月前

0890

加载更多

浙大 × 通义实验室提出 UI-S1：用“半在线”训练让 MLLM 更懂图形界面

宇树科技开源 UnifoLM-WMA-0：面向通用机器人的世界模型–动作架构

北邮、浙大等团队联合提出视觉-语言-动作模型 VLA-Adapter：用轻量桥接实现高效机器人控制

字节跳动 & 港大推出 Mini-o3：可扩展多轮推理的开源视觉智能体

POINTS-Reader：无需蒸馏、端到端的轻量级文档视觉语言模型

CDMs：让机器人“看清”三维世界，实现从仿真到现实的无缝迁移

OpenVision 2：更高效、更对齐的生成式视觉编码器

快手 Keye 团队发布Keye-VL-1.5 ：支持 128K 上下文的视频理解大模型

MetaFold：用语言指导机器人叠衣服，还能通用于不同衣物

蚂蚁集团开源医学智能体MedResearcher-R1：以知识引导技术破解领域AI推理难题

苹果发布 MobileCLIP2：更小、更快、更高效的移动端多模态模型

苹果推出视觉语言模型FastVLM：用更少的视觉 Token，更快理解高分辨率图像

S.H.I.T

新WorkBuddy

新QClaw

新ArkClaw

新AutoClaw

CoPaw

多模态模型

网址

S.H.I.T

新WorkBuddy

新QClaw

新ArkClaw

新AutoClaw

CoPaw