SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    多模态模型

    共 208 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    Cohere 推出 Command A Vision:专为企业打造的高效多模态 AI

    Cohere 推出 Command A Vision:专为企业打造的高效多模态 AI

    今天,AI 不再只是“读文字”的工具。越来越多的企业需要系统能“看懂”图像——从产品手册、工程图纸到财务报表、现场照片。 为此,Cohere 正式发布 Command A Vision —— 一款专为...
    多模态模型# Cohere# Command A Vision
    6个月前
    01170
    商汤开源SenseNova-SI:面向空间智能的多模态模型

    商汤开源SenseNova-SI:面向空间智能的多模态模型

    当前主流多模态基础模型在文本、图像理解、推理和生成任务上已取得显著进展,但在空间智能(Spatial Intelligence)方面仍存在系统性短板。具体表现为: 对物体尺度、距离、比例的估计不准确 ...
    多模态模型# SenseNova-SI# 商汤# 空间智能
    3个月前
    01140
    Hugging Face推出Smol2Operator:让小模型学会操作图形界面

    Hugging Face推出Smol2Operator:让小模型学会操作图形界面

    在人机交互日益复杂的今天,一个长期被忽视的问题是: 我们能让AI像人类一样“使用”计算机吗? 不是生成文本或识别图像,而是真正理解屏幕上的按钮、输入框、菜单,并通过点击、滑动、输入等动作完成任务——这...
    多模态模型# Hugging Face# Smol2Operator
    4个月前
    01130
    Qianfan-VL:百度推出的多模态大模型系列,面向企业级视觉语言任务

    Qianfan-VL:百度推出的多模态大模型系列,面向企业级视觉语言任务

    由百度 AI 云团队研发,Qianfan-VL 是一系列参数规模从 3B 到 70B 的多模态大语言模型(MLLM),专注于提升企业在文档理解、OCR识别和数学推理等高频场景下的自动化能力。 项目主页...
    多模态模型# Qianfan-VL# 多模态大模型# 百度
    4个月前
    01110
    苹果发布多模态统一模型Manzano:能够同时理解和生成视觉内容

    苹果发布多模态统一模型Manzano:能够同时理解和生成视觉内容

    苹果发布多模态统一模型Manzano,它能够同时理解和生成视觉内容。该模型通过结合一个混合图像标记化器和精心设计的训练方案,显著减少了在理解和生成能力之间的性能权衡。Manzano 在统一模型中实现了...
    多模态模型# Manzano# 多模态统一模型
    4个月前
    01040
    Dolphin-v2:字节跳动发布支持21类元素的通用文档解析模型

    Dolphin-v2:字节跳动发布支持21类元素的通用文档解析模型

    在办公自动化、知识管理与智能体工作流中,将非结构化文档转化为结构化数据是关键第一步。然而,现实中的文档来源复杂:既有干净的 PDF、Word,也有手机拍摄的带畸变、阴影、模糊的纸质文件。现有解析模型往...
    多模态模型# Dolphin-v2# 字节跳动# 文档解析模型
    2个月前
    01010
    NEXA AI推出OmniNeural-4B:全球首个为 NPU 原生设计的多模态 AI 模型

    NEXA AI推出OmniNeural-4B:全球首个为 NPU 原生设计的多模态 AI 模型

    当AI模型需要在手机、PC等终端设备上处理文本、图像、音频时,“速度慢、耗电高、依赖网络”往往是难以回避的问题——多数模型最初为GPU设计,移植到终端的NPU(神经网络处理单元)时需“强行适配”,导致...
    多模态模型# Nexa AI# NPU# OmniNeural-4B
    5个月前
    0940
    视频多模态大语言模型RynnEC:专为具身认知任务设计

    视频多模态大语言模型RynnEC:专为具身认知任务设计

    阿里达摩院、湖畔实验室和浙江大学的研究人员推出视频多模态大语言模型RynnEC,专为具身认知任务设计。它通过结合区域编码器和掩码解码器,能够灵活地处理视频中的区域级交互,从而为具身代理提供对物理世界的...
    多模态模型# RynnEC# 视频多模态大语言模型
    5个月前
    0930
    CDMs:让机器人“看清”三维世界,实现从仿真到现实的无缝迁移

    CDMs:让机器人“看清”三维世界,实现从仿真到现实的无缝迁移

    在机器人技能学习中,视觉感知是决策与操作的基础。然而,当前大多数方法依赖2D彩色图像作为输入——这种模式虽能捕捉纹理和颜色,却难以准确理解物体的距离、大小、形状等关键几何信息。 相比之下,人类在与环境...
    多模态模型# CDMs# 机器人
    5个月前
    0890
    IBM 推出 Granite Docling:专为文档转换优化的轻量级多模态模型

    IBM 推出 Granite Docling:专为文档转换优化的轻量级多模态模型

    IBM Research 正式发布 Granite Docling-258M,一款基于 IDEFICS3 架构构建的新型多模态图像-文本到文本模型,专为高效、准确的文档理解与结构化转换而设计。 Git...
    多模态模型# Granite Docling-258M# 多模态模型# 文档转换
    4个月前
    0880
    MetaFold:用语言指导机器人叠衣服,还能通用于不同衣物

    MetaFold:用语言指导机器人叠衣服,还能通用于不同衣物

    让机器人叠衣服,听起来简单,做起来极难。 布料柔软、易变形,同一件T恤每次摆放的形态都不同。这种高度的可变性使得机器人难以像抓取刚性物体那样,靠预设动作完成操作。更别说还要应对不同款式——无袖、短袖...
    多模态模型# MetaFold
    5个月前
    0880
    苹果推出视觉语言模型FastVLM:用更少的视觉 Token,更快理解高分辨率图像

    苹果推出视觉语言模型FastVLM:用更少的视觉 Token,更快理解高分辨率图像

    苹果近期发布了 FastVLM系列视觉语言模型,并首次引入其自研混合视觉编码器 FastViTHD。该模型解决当前多模态系统在处理高分辨率图像时面临的效率瓶颈,尤其在移动端和实时交互场景中展现出显著优...
    多模态模型# FastVLM# 苹果# 视觉语言模型
    5个月前
    0850
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    QoderWork

    新QoderWork

    阿里发布旗下首个桌面Agent工具QoderWork,用户无需任何复杂部署工作,输入一句话,QoderWork就能按需调用授权的本地应用,完成文件整理、数据处理、文档生成等任务。
    OpenClaw(Clawdbot/Moltbot)

    OpenClaw(Clawdbot/Moltbot)

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    Situation Monitor

    Situation Monitor

    Situation Monitor 是由开发者 Reggie James 创建的一个免费、开源的全球风险监测平台。它通过一张交互式地图,实时整合并可视化全球范围内的关键地缘政治与安全信息,帮助用户快速掌握潜在冲突热点和战略动态。
    Skills.sh

    Skills.sh

    Vercel 近日上线了一个名为 skills.sh 的新站点,专门用于发现、浏览和安装 AI 智能体的“技能”(Skills)。
    中国科技云数据胶囊

    中国科技云数据胶囊

    中国科学院旗下的 中国科技云数据胶囊(Data Capsule)提供 20GB 免费存储空间,支持 标准 S3 与 WebDAV 协议,无需手机号绑定,支持微信/QQ/GitHub 第三方登录,非常适合注重隐私、追求开源生态兼容性的科研用户或个人知识管理者。
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    查看完整榜单