SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    多模态模型

    共 208 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    TNG科技微调 olmOCR推出olmOCR-7B-faithful:更忠实的 OCR 模型,适用于业务场景中的全面信息提取

    TNG科技微调 olmOCR推出olmOCR-7B-faithful:更忠实的 OCR 模型,适用于业务场景中的全面信息提取

    光学字符识别(OCR)技术在文档数字化和信息提取领域扮演着重要角色。然而,传统的基于流水线的 OCR 系统虽然功能强大,却常常因无法处理复杂布局而受到限制。最近,艾伦人工智能研究所推出的 olmOCR...
    多模态模型# olmOCR# olmOCR-7B-faithful
    9个月前
    02140
    PyVision:基于动态工具生成的多模态智能视觉推理框架

    PyVision:基于动态工具生成的多模态智能视觉推理框架

    随着大语言模型(LLMs)的发展,我们正进入一个代理式人工智能(Agent AI)时代。这些模型不仅能够生成文本,还能进行任务规划、逻辑推理,并调用外部工具来扩展能力边界。 但真正的前沿在于:不是仅仅...
    多模态模型# PyVision# 多模态智能视觉推理
    7个月前
    02130
    Meta推出基于视频训练的“世界模型”V-JEPA 2:AI“世界模型”迈出理解物理世界的重要一步

    Meta推出基于视频训练的“世界模型”V-JEPA 2:AI“世界模型”迈出理解物理世界的重要一步

    Meta 发布了其最新 AI 研究成果 —— V-JEPA 2,一个基于视频训练的“世界模型”,旨在帮助 AI 更好地理解现实世界的物理规律,并用于机器人控制、任务规划等复杂场景。 项目主页:http...
    多模态模型# Meta# V-JEPA 2# 世界模型
    8个月前
    02130
    过程奖励模型WEB-SHEPHERD :专门用于评估网络导航任务中的智能代理行为

    过程奖励模型WEB-SHEPHERD :专门用于评估网络导航任务中的智能代理行为

    延世大学和卡内基梅隆大学的研究人员推出一个名为 WEB-SHEPHERD 的过程奖励模型(PRM),专门用于评估网络导航任务中的智能代理行为。网络导航是一个复杂的领域,需要智能代理能够进行长期的序列决...
    多模态模型# WEB-SHEPHERD# 过程奖励模型
    8个月前
    02130
    字节跳动推出多模态模型Vidi:专门用于视频理解和编辑

    字节跳动推出多模态模型Vidi:专门用于视频理解和编辑

    字节跳动推出多模态模型Vidi,专门用于视频理解和编辑。Vidi 的主要目标是支持高质量、大规模视频内容的创作,通过处理原始输入材料(如未编辑的视频片段)和编辑组件(如视觉效果),帮助用户更高效地完成...
    多模态模型# Vidi# 多模态模型# 字节跳动
    9个月前
    02130
    阿里 Qwen 项目组正式推出全新多模态模型Qwen VLo

    阿里 Qwen 项目组正式推出全新多模态模型Qwen VLo

    随着多模态大模型的不断发展,我们对技术边界的认知也在持续被刷新。从最初的 QwenVL 到如今的 Qwen2.5 VL,我们在提升模型图像理解能力方面不断取得进步。 项目主页:https://qwen...
    多模态模型# Qwen VLo# Qwen 项目组# 阿里巴巴
    7个月前
    02040
    谷歌发布医学多模态开源模型MedGemma:支持图像与文本理解,支持X光CT分析

    谷歌发布医学多模态开源模型MedGemma:支持图像与文本理解,支持X光CT分析

    谷歌近日推出了一款面向医疗领域的开源模型系列 —— MedGemma,该模型基于 Gemma 3 构建,在医学图像识别与文本理解方面表现出色,标志着医疗 AI 在开源方向上的重要进展。 MedGemm...
    多模态模型# MedGemma# 医学多模态开源模型# 谷歌
    8个月前
    02020
    让大模型真正“看懂”界面:InfiGUI-G1提升 GUI 操作中的语义理解能力

    让大模型真正“看懂”界面:InfiGUI-G1提升 GUI 操作中的语义理解能力

    在图形用户界面(GUI)自动化任务中,让多模态大语言模型(MLLM)准确执行自然语言指令,远不只是“点击坐标”那么简单。真正的挑战在于:既要精准定位界面上的元素(空间对齐),又要正确理解指令背后的意图...
    多模态模型# InfiGUI-G1
    6个月前
    02010
    端到端的 VLA 模型InstructVLA:让机器人真正“听懂”指令并准确执行

    端到端的 VLA 模型InstructVLA:让机器人真正“听懂”指令并准确执行

    要让机器人走进真实世界,完成诸如“把苹果放进桌上的红碗”这样的任务,仅靠预设程序远远不够。它必须具备两项关键能力: 理解复杂语义——分辨“红碗”是颜色还是材质?“桌上”是否包含边缘? 生成精确动作...
    多模态模型# InstructVLA# VLA 模型
    6个月前
    02000
    字节跳动 & 港大推出 Mini-o3:可扩展多轮推理的开源视觉智能体

    字节跳动 & 港大推出 Mini-o3:可扩展多轮推理的开源视觉智能体

    字节跳动与香港大学联合发布 Mini-o3 ——一个具备强大图像理解与长程多轮交互能力的开源多模态模型。该模型能够生成类似 OpenAI o3 风格的代理行为轨迹,在复杂视觉搜索任务中实现数十轮持续推...
    多模态模型# Mini-o3# 视觉智能体
    5个月前
    01990
    POINTS-Reader:无需蒸馏、端到端的轻量级文档视觉语言模型

    POINTS-Reader:无需蒸馏、端到端的轻量级文档视觉语言模型

    腾讯、上海交通大学与清华大学联合推出 POINTS-Reader —— WePOINTS 家族最新成员,一款专为文档图像转文本设计的轻量级视觉-语言模型(VLM)。 GitHub:https://gi...
    多模态模型# POINTS-Reader# 文档视觉语言模型
    5个月前
    01960
    专为乐高设计的大模型LegoGPT:通过简单的文本输入生成独特的乐高设计

    专为乐高设计的大模型LegoGPT:通过简单的文本输入生成独特的乐高设计

    卡内基梅隆大学的研究团队推出了一款名为 LegoGPT 的AI模型,它能够通过简单的文本输入生成独特的乐高设计。这一工具不仅展示了AI在创意领域的潜力,还为乐高爱好者提供了一个全新的设计方式。 项目主...
    多模态模型# LegoGPT# 乐高
    9个月前
    01940
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    QoderWork

    新QoderWork

    阿里发布旗下首个桌面Agent工具QoderWork,用户无需任何复杂部署工作,输入一句话,QoderWork就能按需调用授权的本地应用,完成文件整理、数据处理、文档生成等任务。
    Clawdbot/Moltbot

    Clawdbot/Moltbot

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    Situation Monitor

    Situation Monitor

    Situation Monitor 是由开发者 Reggie James 创建的一个免费、开源的全球风险监测平台。它通过一张交互式地图,实时整合并可视化全球范围内的关键地缘政治与安全信息,帮助用户快速掌握潜在冲突热点和战略动态。
    中国科技云数据胶囊

    中国科技云数据胶囊

    中国科学院旗下的 中国科技云数据胶囊(Data Capsule)提供 20GB 免费存储空间,支持 标准 S3 与 WebDAV 协议,无需手机号绑定,支持微信/QQ/GitHub 第三方登录,非常适合注重隐私、追求开源生态兼容性的科研用户或个人知识管理者。
    Skills.sh

    Skills.sh

    Vercel 近日上线了一个名为 skills.sh 的新站点,专门用于发现、浏览和安装 AI 智能体的“技能”(Skills)。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    查看完整榜单