SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    多模态模型

    共 208 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    英伟达发布 Cosmos-Predict2:打造物理AI的世界基础模型

    英伟达发布 Cosmos-Predict2:打造物理AI的世界基础模型

    在物理AI(Physical AI)系统的开发中,模拟真实世界的动态变化至关重要。为此,英伟达推出了 Cosmos-Predict2,作为其 Cosmos 世界模型 的最新演进版本,专为生成具有物理感...
    多模态模型# Cosmos-Predict2# 世界基础模型# 英伟达
    8个月前
    02380
    Meta推出基于视频训练的“世界模型”V-JEPA 2:AI“世界模型”迈出理解物理世界的重要一步

    Meta推出基于视频训练的“世界模型”V-JEPA 2:AI“世界模型”迈出理解物理世界的重要一步

    Meta 发布了其最新 AI 研究成果 —— V-JEPA 2,一个基于视频训练的“世界模型”,旨在帮助 AI 更好地理解现实世界的物理规律,并用于机器人控制、任务规划等复杂场景。 项目主页:http...
    多模态模型# Meta# V-JEPA 2# 世界模型
    8个月前
    02130
    华科大联合金山办公推出文档解析新模型MonkeyOCR

    华科大联合金山办公推出文档解析新模型MonkeyOCR

    近日,华中科技大学与金山办公联合研究团队发布了一款全新的文档解析模型 —— MonkeyOCR。该模型通过引入“结构-识别-关系”(Structure-Recognition-Relation, SR...
    多模态模型# MonkeyOCR# 文档解析
    8个月前
    02380
    微软提出 GUI-Actor:基于视觉语言模型的无坐标 GUI 定位新范式

    微软提出 GUI-Actor:基于视觉语言模型的无坐标 GUI 定位新范式

    在构建基于视觉语言模型(VLM)的 GUI 代理系统中,一个关键挑战是如何准确理解屏幕上的视觉内容并定位应执行操作的区域。传统方法通常将此问题建模为“文本到坐标的生成”任务,即通过语言描述预测具体像素...
    多模态模型# GUI-Actor# 微软
    8个月前
    03330
    英伟达推出面向文档理解的小而强视觉-语言模型 Llama Nemotron Nano VL

    英伟达推出面向文档理解的小而强视觉-语言模型 Llama Nemotron Nano VL

    英伟达正式发布了 Llama Nemotron Nano VL —— 一款专为高效处理复杂文档设计的轻量级视觉-语言模型(VLM)。该模型基于 Llama 3.1 架构构建,在保持高性能的同时兼顾推理...
    多模态模型# Llama Nemotron Nano VL# 英伟达
    8个月前
    02760
    Hugging Face 推出轻量级机器人AI模型SmolVLA:可在MacBook运行

    Hugging Face 推出轻量级机器人AI模型SmolVLA:可在MacBook运行

    随着AI与机器人技术的融合不断深入,构建个人机器人项目正变得前所未有的容易。近日,知名AI平台 Hugging Face 正式发布了其最新研发的机器人AI模型——SmolVLA,这一模型不仅小巧高效...
    多模态模型# Hugging Face# SmolVLA
    8个月前
    03550
    SignGemma:谷歌推出全球最强手语翻译模型,为听障人群打开沟通新通道

    SignGemma:谷歌推出全球最强手语翻译模型,为听障人群打开沟通新通道

    谷歌近日宣布推出全新 AI 模型 SignGemma,作为 Gemma 家族的新成员,它专注于将手语(尤其是美式手语 ASL)翻译成英文文本或语音输出,是目前最强大的开源手语理解模型之一。 SignG...
    多模态模型# SignGemma# 手语翻译模型
    8个月前
    01620
    像素空间推理视觉语言模型Pixel Reasoner:引入像素空间推理的概念,显著提升了视觉语言模型在视觉密集型任务中的表现

    像素空间推理视觉语言模型Pixel Reasoner:引入像素空间推理的概念,显著提升了视觉语言模型在视觉密集型任务中的表现

    中国科学技术大学、香港科技大学和滑铁卢大学的研究人员推出基于 Qwen2 的开源视觉语言模型Pixel Reasoner,它通过引入像素空间推理(pixel-space reasoning)的概念,显...
    多模态模型# Pixel Reasoner# 视觉语言模型
    8个月前
    02750
    谷歌发布医学多模态开源模型MedGemma:支持图像与文本理解,支持X光CT分析

    谷歌发布医学多模态开源模型MedGemma:支持图像与文本理解,支持X光CT分析

    谷歌近日推出了一款面向医疗领域的开源模型系列 —— MedGemma,该模型基于 Gemma 3 构建,在医学图像识别与文本理解方面表现出色,标志着医疗 AI 在开源方向上的重要进展。 MedGemm...
    多模态模型# MedGemma# 医学多模态开源模型# 谷歌
    8个月前
    02020
    蚂蚁集团开源全新统一多模态大模型 Ming-Lite-Omni:支持图像、文本、音频、视频

    蚂蚁集团开源全新统一多模态大模型 Ming-Lite-Omni:支持图像、文本、音频、视频

    近日,蚂蚁集团旗下的 百灵大模型(Ling)团队 正式宣布开源其最新推出的统一多模态大模型 —— Ming-Lite-Omni。这是一款基于 Ling 系列轻量模型构建的 MoE 架构全模态 AI 模...
    多模态模型# Ming-Lite-Omni# 多模态大模型# 蚂蚁集团
    8个月前
    03040
    MiniMax推出视觉三重统一强化学习(RL)系统 V-Triune :使视觉语言模型能够在单一训练流程中联合学习视觉推理和感知任务

    MiniMax推出视觉三重统一强化学习(RL)系统 V-Triune :使视觉语言模型能够在单一训练流程中联合学习视觉推理和感知任务

    MiniMax推出视觉三重统一强化学习(RL)系统 V-Triune ,使视觉语言模型能够在单一训练流程中联合学习视觉推理和感知任务。该系统通过整合三个互补组件——样本级数据格式化(Sample-Le...
    多模态模型# MiniMax# V-Triune# 视觉语言模型
    8个月前
    04790
    天工AI推出Matrix-Game:首个支持可控交互式游戏世界生成的170亿参数基础模型

    天工AI推出Matrix-Game:首个支持可控交互式游戏世界生成的170亿参数基础模型

    昆仑万维旗下天工AI团队正式发布了其最新研究成果——Matrix-Game,这是一个面向游戏世界的可交互视频生成基础模型,专为 Minecraft 及类似开放世界设计,具备精确控制角色动作、视角变换和...
    多模态模型# Matrix-Game# 游戏世界生成
    8个月前
    03020
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    QoderWork

    新QoderWork

    阿里发布旗下首个桌面Agent工具QoderWork,用户无需任何复杂部署工作,输入一句话,QoderWork就能按需调用授权的本地应用,完成文件整理、数据处理、文档生成等任务。
    Clawdbot/Moltbot

    Clawdbot/Moltbot

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    Situation Monitor

    Situation Monitor

    Situation Monitor 是由开发者 Reggie James 创建的一个免费、开源的全球风险监测平台。它通过一张交互式地图,实时整合并可视化全球范围内的关键地缘政治与安全信息,帮助用户快速掌握潜在冲突热点和战略动态。
    中国科技云数据胶囊

    中国科技云数据胶囊

    中国科学院旗下的 中国科技云数据胶囊(Data Capsule)提供 20GB 免费存储空间,支持 标准 S3 与 WebDAV 协议,无需手机号绑定,支持微信/QQ/GitHub 第三方登录,非常适合注重隐私、追求开源生态兼容性的科研用户或个人知识管理者。
    查看完整榜单