SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    多模态模型

    共 225 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    浙大 × 通义实验室提出 UI-S1:用“半在线”训练让 MLLM 更懂图形界面

    浙大 × 通义实验室提出 UI-S1:用“半在线”训练让 MLLM 更懂图形界面

    在手机上完成一连串操作——比如从微信复制一段文字,粘贴到备忘录,再分享给钉钉好友——对人类来说是日常小事。但对 AI 来说,这是一次复杂的多步决策挑战。 近年来,基于多模态大语言模型(MLLM)的 G...
    多模态模型# UI-S1# 多模态大语言模型
    6个月前
    02960
    宇树科技开源 UnifoLM-WMA-0:面向通用机器人的世界模型–动作架构

    宇树科技开源 UnifoLM-WMA-0:面向通用机器人的世界模型–动作架构

    宇树科技(Unitree)近日宣布开源其全新的机器人学习框架 —— UnifoLM-WMA-0,一个专为通用机器人学习设计的世界模型–动作(World Model–Action)架构。该模型跨越多种机...
    多模态模型# UnifoLM-WMA-0# 宇树科技
    6个月前
    01520
    北邮、浙大等团队联合提出视觉-语言-动作模型 VLA-Adapter:用轻量桥接实现高效机器人控制

    北邮、浙大等团队联合提出视觉-语言-动作模型 VLA-Adapter:用轻量桥接实现高效机器人控制

    在当前机器人智能领域,视觉-语言-动作(Vision-Language-Action, VLA)模型正成为连接感知与行为的核心技术。这类模型能让机器人“听懂指令”、“看懂场景”,并自主执行任务,例如...
    多模态模型# VLA-Adapter# 视觉-语言-动作模型
    6个月前
    03550
    字节跳动 & 港大推出 Mini-o3:可扩展多轮推理的开源视觉智能体

    字节跳动 & 港大推出 Mini-o3:可扩展多轮推理的开源视觉智能体

    字节跳动与香港大学联合发布 Mini-o3 ——一个具备强大图像理解与长程多轮交互能力的开源多模态模型。该模型能够生成类似 OpenAI o3 风格的代理行为轨迹,在复杂视觉搜索任务中实现数十轮持续推...
    多模态模型# Mini-o3# 视觉智能体
    6个月前
    02080
    POINTS-Reader:无需蒸馏、端到端的轻量级文档视觉语言模型

    POINTS-Reader:无需蒸馏、端到端的轻量级文档视觉语言模型

    腾讯、上海交通大学与清华大学联合推出 POINTS-Reader —— WePOINTS 家族最新成员,一款专为文档图像转文本设计的轻量级视觉-语言模型(VLM)。 GitHub:https://gi...
    多模态模型# POINTS-Reader# 文档视觉语言模型
    6个月前
    02180
    CDMs:让机器人“看清”三维世界,实现从仿真到现实的无缝迁移

    CDMs:让机器人“看清”三维世界,实现从仿真到现实的无缝迁移

    在机器人技能学习中,视觉感知是决策与操作的基础。然而,当前大多数方法依赖2D彩色图像作为输入——这种模式虽能捕捉纹理和颜色,却难以准确理解物体的距离、大小、形状等关键几何信息。 相比之下,人类在与环境...
    多模态模型# CDMs# 机器人
    6个月前
    0930
    OpenVision 2:更高效、更对齐的生成式视觉编码器

    OpenVision 2:更高效、更对齐的生成式视觉编码器

    在多模态大模型(MLLM)快速发展的今天,一个核心问题日益凸显:预训练视觉编码器的训练方式是否真的适配下游任务? 传统方法依赖图像-文本对比学习(如 CLIP),但这类模型在接入 LLM 进行微调时...
    多模态模型# OpenVision 2# 视觉编码器
    6个月前
    01720
    快手 Keye 团队发布Keye-VL-1.5 :支持 128K 上下文的视频理解大模型

    快手 Keye 团队发布Keye-VL-1.5 :支持 128K 上下文的视频理解大模型

    在多模态大模型的竞争中,视频理解正成为下一个关键战场。相比图像,视频包含更丰富的时空信息——动作的起止、事件的因果、场景的演变。要让AI真正“看懂”一段视频,不仅需要识别画面内容,还要理解时间逻辑与行...
    多模态模型# Keye-VL-1.5# 快手# 视频理解大模型
    6个月前
    0730
    MetaFold:用语言指导机器人叠衣服,还能通用于不同衣物

    MetaFold:用语言指导机器人叠衣服,还能通用于不同衣物

    让机器人叠衣服,听起来简单,做起来极难。 布料柔软、易变形,同一件T恤每次摆放的形态都不同。这种高度的可变性使得机器人难以像抓取刚性物体那样,靠预设动作完成操作。更别说还要应对不同款式——无袖、短袖...
    多模态模型# MetaFold
    6个月前
    01010
    蚂蚁集团开源医学智能体MedResearcher-R1:以知识引导技术破解领域AI推理难题

    蚂蚁集团开源医学智能体MedResearcher-R1:以知识引导技术破解领域AI推理难题

    蚂蚁集团正式开源医学智能体 MedResearcher-R1,同时对外公开模型及合成数据生成方法。这一智能体聚焦医学领域AI推理的核心痛点,通过“知识图谱构建-轨迹生成-评估验证”的全流程框架,为领域...
    多模态模型# MedResearcher-R1# 医学智能体# 蚂蚁集团
    6个月前
    0830
    苹果发布 MobileCLIP2:更小、更快、更高效的移动端多模态模型

    苹果发布 MobileCLIP2:更小、更快、更高效的移动端多模态模型

    苹果近期推出了新一代轻量级图像-文本模型家族 —— MobileCLIP2,在保持高精度的同时,显著降低模型体积与推理延迟,专为移动设备上的实时多模态理解任务而设计。 GitHub:https://g...
    多模态模型# MobileCLIP2# 图像-文本模型# 苹果
    6个月前
    0800
    苹果推出视觉语言模型FastVLM:用更少的视觉 Token,更快理解高分辨率图像

    苹果推出视觉语言模型FastVLM:用更少的视觉 Token,更快理解高分辨率图像

    苹果近期发布了 FastVLM系列视觉语言模型,并首次引入其自研混合视觉编码器 FastViTHD。该模型解决当前多模态系统在处理高分辨率图像时面临的效率瓶颈,尤其在移动端和实时交互场景中展现出显著优...
    多模态模型# FastVLM# 苹果# 视觉语言模型
    6个月前
    0890
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    WorkBuddy

    新WorkBuddy

    WorkBuddy 是 AI 原生的桌面智能体工作台,以自然语言驱动办公自动化,一句指令即可完成数据处理、内容创作与深度分析,直接验收可交付结果,重塑职场效率标准。
    QClaw

    新QClaw

    腾讯推出QClaw ,这是基于 OpenClaw 进行深度产品化封装的“官方一键安装包”。它的目标非常明确:让强大的 AI Agent 能力,像安装普通软件一样简单,并直接融入中国人的国民级应用——微信和 QQ。
    ArkClaw

    新ArkClaw

    字节旗下火山引擎正式上线 ArkClaw, 开箱即用的云上 SaaS 版 OpenClaw。无需任何复杂配置,打开网页即可使用 7×24 小时在线的 AI 助手。
    AutoClaw

    新AutoClaw

    智谱 AI 正式推出 AutoClaw —— 一款基于 OpenClaw深度定制的本地版 AI 智能体平台。它不仅内置了智谱最新内测模型 Pony-Alpha-2,更集成了强大的 AutoGLM Browser-Use 能力,实现了从“对话”到“复杂任务执行”的无缝闭环。
    CoPaw

    CoPaw

    阿里云旗下阿里桌面 Agent 工具 CoPaw 正式开源,CoPaw 原生支持钉钉、飞书、QQ、Discord、iMessage 等聊天软件和平台,内置了多种 Skills,用户可一键本地部署也可通过阿里云计算巢和魔搭社区创空间实现一键云端部署,并调用千问系列等主流模型,是业界部署门槛最低的 Agent 工具之一。
    查看完整榜单