SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    多模态模型

    共 207 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    Mistral OCR 3 发布:手写、表格、低质量扫描件识别全面升级

    Mistral OCR 3 发布:手写、表格、低质量扫描件识别全面升级

    Mistral AI 正式推出 Mistral OCR 3,其在复杂文档场景下的识别准确率显著超越前代模型与主流竞品。该模型专注于真实业务环境中的多样化文档——从手写批注、低质量扫描件到多层级表格...
    多模态模型# Mistral OCR 3
    1个月前
    0240
    Omni-View:通过生成任务增强3D场景理解的统一模型

    Omni-View:通过生成任务增强3D场景理解的统一模型

    北京大学、阿里巴巴国际数字商业集团、中国科学院自动化研究所与 TeleAI 联合提出 Omni-View —— 一个面向多视角图像输入的统一3D场景理解与生成模型。该工作首次在端到端框架中系统性验证了...
    多模态模型# Omni-View
    1个月前
    0210
    Dolphin-v2:字节跳动发布支持21类元素的通用文档解析模型

    Dolphin-v2:字节跳动发布支持21类元素的通用文档解析模型

    在办公自动化、知识管理与智能体工作流中,将非结构化文档转化为结构化数据是关键第一步。然而,现实中的文档来源复杂:既有干净的 PDF、Word,也有手机拍摄的带畸变、阴影、模糊的纸质文件。现有解析模型往...
    多模态模型# Dolphin-v2# 字节跳动# 文档解析模型
    2个月前
    01000
    智谱AI开源GLM-4.6V:128K上下文视觉语言模型,原生工具调用打通感知与执行链路

    智谱AI开源GLM-4.6V:128K上下文视觉语言模型,原生工具调用打通感知与执行链路

    智谱AI正式推出并开源 GLM-4.6V 系列多模态大语言模型,包含面向云端与高性能集群的 GLM-4.6V (106B) 基础模型,以及针对本地部署和低延迟场景优化的 GLM-4.6V-Flash ...
    多模态模型# GLM-4.6V# 智谱AI
    2个月前
    0250
    Mistral AI正式发布Mistral 3系列模型:开源多模态模型家族,覆盖从边缘到企业级场景

    Mistral AI正式发布Mistral 3系列模型:开源多模态模型家族,覆盖从边缘到企业级场景

    Mistral AI 正式推出新一代模型系列 Mistral 3,此次发布不仅包含适配边缘场景的 Ministral 3 系列小型密集模型,更带来了性能顶尖的稀疏专家混合模型 Mistral Larg...
    多模态模型# Mistral 3# Mistral AI# Mistral Large 3
    2个月前
    0550
    字节跳动发布Vidi2:攻克细粒度时空定位,视频检索性能领先GPT - 5

    字节跳动发布Vidi2:攻克细粒度时空定位,视频检索性能领先GPT - 5

    字节跳动智能创作团队推出的第二代多模态视频模型Vidi2,凭借在时空定位、时间检索和视频问答三大核心能力上的突破,打破了传统视频模型在长视频理解和精细交互上的局限。该模型不仅在核心任务中实现对Gemi...
    多模态模型# Vidi2# 多模态视频模型# 字节跳动
    2个月前
    01180
    Meta AI发布SAM 3:支持文本/图像双提示,图像视频分割性能翻

    Meta AI发布SAM 3:支持文本/图像双提示,图像视频分割性能翻

    Meta 近日推出 Segment Anything 系列新一代模型——SAM 3,首次实现文本、图像示例双提示驱动的开放式概念分割,可精准识别并分割“带红色条纹的雨伞”等细粒度概念,在图像与视频分割...
    多模态模型# Meta AI# SAM 3# 分割模型
    2个月前
    0180
    腾讯开源HunyuanOCR:以1B参数覆盖9大场景,支持百种语言

    腾讯开源HunyuanOCR:以1B参数覆盖9大场景,支持百种语言

    在OCR领域常陷入“大参数换高性能”的内卷时,腾讯混元于11月25日开源的HunyuanOCR,以1B的轻量化参数实现了颠覆性突破。这款依托混元原生多模态架构打造的端到端OCR专家模型,不仅在多项权威...
    多模态模型# HunyuanOCR
    2个月前
    0240
    谷歌发布 WeatherNext 2:AI 天气预报模型速度提升 8 倍,精准到小时级

    谷歌发布 WeatherNext 2:AI 天气预报模型速度提升 8 倍,精准到小时级

    谷歌DeepMind与Google Research联合发布全新AI天气预报模型WeatherNext 2,定位为“迄今最先进、最高效的全球天气预报解决方案”。该模型以“速度提升8倍、分辨率达小时级...
    多模态模型# WeatherNext 2# 天气预报# 谷歌
    2个月前
    0560
    谷歌 DeepMind 发布 SIMA 2:AI智能体首次在虚拟世界中“自我改进”

    谷歌 DeepMind 发布 SIMA 2:AI智能体首次在虚拟世界中“自我改进”

    谷歌DeepMind发布通用AI智能体下一代产品SIMA 2的研究预览,通过深度整合大语言模型Gemini的语言与推理能力,实现从“单纯遵循指令”到“理解环境并互动”的核心突破。这款由Gemini 2...
    多模态模型# SIMA 2# 谷歌 DeepMind
    3个月前
    0310
    百度开源ERNIE-4.5-VL-28B-A3B-Thinking:3B活跃参数实现大型模型级多模态推理

    百度开源ERNIE-4.5-VL-28B-A3B-Thinking:3B活跃参数实现大型模型级多模态推理

    百度正式开源 ERNIE-4.5-VL-28B-A3B-Thinking,一款专注于文档、图表与视频理解的多模态推理模型。尽管模型总参数达 约 30B,但通过稀疏激活机制,每次推理仅激活 3B 参数...
    多模态模型# ERNIE-4.5-VL-28B-A3B-Thinking# 多模态推理# 百度
    3个月前
    0270
    商汤开源SenseNova-SI:面向空间智能的多模态模型

    商汤开源SenseNova-SI:面向空间智能的多模态模型

    当前主流多模态基础模型在文本、图像理解、推理和生成任务上已取得显著进展,但在空间智能(Spatial Intelligence)方面仍存在系统性短板。具体表现为: 对物体尺度、距离、比例的估计不准确 ...
    多模态模型# SenseNova-SI# 商汤# 空间智能
    3个月前
    01140
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Clawdbot/Moltbot

    Clawdbot/Moltbot

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    Skills.sh

    Skills.sh

    Vercel 近日上线了一个名为 skills.sh 的新站点,专门用于发现、浏览和安装 AI 智能体的“技能”(Skills)。
    Situation Monitor

    Situation Monitor

    Situation Monitor 是由开发者 Reggie James 创建的一个免费、开源的全球风险监测平台。它通过一张交互式地图,实时整合并可视化全球范围内的关键地缘政治与安全信息,帮助用户快速掌握潜在冲突热点和战略动态。
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    Awesome Clawdbot(Moltbot) Skills

    新Awesome Clawdbot(Moltbot) Skills

    社区维护了一份名为 Awesome Clawdbot (Moltbot) Skills 的精选技能集合。该列表收录了 565 项以上 来自 ClawdHub(Moltbot 官方公共技能注册表)的技能,并按功能类别组织,便于浏览与安装。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    查看完整榜单