SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    多模态模型

    共 225 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    NuMarkdown-8B-Thinking 发布:首个具备推理能力的 OCR 视觉语言模型

    NuMarkdown-8B-Thinking 发布:首个具备推理能力的 OCR 视觉语言模型

    NuMind 正式推出 NuMarkdown-8B-Thinking —— 据称是首个专为文档理解设计、具备显式推理能力的视觉语言模型(VLM)。该模型专注于将扫描文档或图像中的复杂版式内容,精准转换...
    多模态模型# NuMarkdown-8B-Thinking# OCR 视觉语言模型
    7个月前
    02900
    小红书 hi lab 开源首个视觉-语言模型:dots.vlm1

    小红书 hi lab 开源首个视觉-语言模型:dots.vlm1

    小红书 hi lab 团队正式发布 dots.vlm1 ——这是“dots”模型家族中的首款视觉-语言模型(VLM),标志着其在多模态理解方向上的重要突破。 GitHub:https://github...
    多模态模型# dots.vlm1# 小红书
    7个月前
    03540
    小红书 hi lab 推出 dots.ocr:一个更高效、更统一的文档解析方案

    小红书 hi lab 推出 dots.ocr:一个更高效、更统一的文档解析方案

    小红书 hi lab 团队近期发布了一款名为 dots.ocr 的多语言文档解析模型。它不是传统OCR工具的简单升级,而是一次架构层面的重构——将布局检测与内容识别统一在一个视觉-语言模型(VLM)中...
    多模态模型# dots.ocr# 小红书
    7个月前
    01,1200
    昆仑万维天工项目组推出多模态模型Skywork UniPic:能够统一处理图像理解、文本到图像生成和图像编辑等多种任务

    昆仑万维天工项目组推出多模态模型Skywork UniPic:能够统一处理图像理解、文本到图像生成和图像编辑等多种任务

    昆仑万维天工项目组推出多模态模型Skywork UniPic,它是一个参数量为15亿的自回归模型,能够统一处理图像理解、文本到图像生成和图像编辑等多种任务,而无需针对每个任务单独适配或连接模块。 Gi...
    多模态模型# Skywork UniPic# 多模态模型
    7个月前
    03560
    面壁智能发布高效多模态模型 MiniCPM-V 4.0:4B 模型,超越 GPT-4.1-mini

    面壁智能发布高效多模态模型 MiniCPM-V 4.0:4B 模型,超越 GPT-4.1-mini

    面壁智能正式推出 MiniCPM-V 4.0 —— MiniCPM-V 系列中最新的高效多模态模型,参数总量仅 4.1B,却在图像理解能力上实现显著突破。 GitHub:https://github...
    多模态模型# MiniCPM-V 4.0# 面壁智能
    7个月前
    01820
    Cohere 推出 Command A Vision:专为企业打造的高效多模态 AI

    Cohere 推出 Command A Vision:专为企业打造的高效多模态 AI

    今天,AI 不再只是“读文字”的工具。越来越多的企业需要系统能“看懂”图像——从产品手册、工程图纸到财务报表、现场照片。 为此,Cohere 正式发布 Command A Vision —— 一款专为...
    多模态模型# Cohere# Command A Vision
    7个月前
    01200
    腾讯ARC实验室发布 ARC-Hunyuan-Video-7B:专为短视频理解而生的多模态模型

    腾讯ARC实验室发布 ARC-Hunyuan-Video-7B:专为短视频理解而生的多模态模型

    在微信视频号、TikTok 等平台上,每天有数亿条用户生成的短视频被上传。这些视频内容多样、节奏快、信息密度高,往往融合了画面、语音、音效、文字甚至情绪表达。如何让AI真正“理解”这些视频,而不仅仅是...
    多模态模型# ARC-Hunyuan-Video-7B# 多模态模型# 腾讯ARC实验室
    8个月前
    05210
    上海AI实验室发布书生 Intern-S1:专为科研打造的多模态AI助手

    上海AI实验室发布书生 Intern-S1:专为科研打造的多模态AI助手

    上海AI实验室正式推出 Intern-S1 —— 一款具备强大科学理解能力的开源多模态推理模型。它不仅在通用任务上表现卓越,更在化学、生物、数学、物理等多个科学领域达到最先进的性能水平,部分指标甚至超...
    多模态模型# Intern-S1# 上海AI实验室# 书生
    7个月前
    03200
    蚂蚁集团发布Ming-lite-omni v1.5:全模态能力的全面升级

    蚂蚁集团发布Ming-lite-omni v1.5:全模态能力的全面升级

    由 蚂蚁集团旗下的 百灵大模型(Ling)团队研发的全模态大模型 Ming-lite-omni v1.5 正式发布。作为对初代模型的全面升级,v1.5 版本在图像、文本、视频、语音等多种模态的理解与生...
    多模态模型# Ming-lite-omni v1.5# 蚂蚁集团
    8个月前
    03160
    东京大学推出基准测试MangaVQA和多模态漫画理解模型MangaLMM

    东京大学推出基准测试MangaVQA和多模态漫画理解模型MangaLMM

    东京大学的研究人员推出一个名为 MangaVQA 的基准测试和一个名为 MangaLMM 的专门模型,用于多模态漫画理解。漫画(Manga)是一种将图像和文本以复杂方式结合的叙事形式,理解漫画需要同时...
    多模态模型# MangaLMM# MangaVQA# 东京大学
    8个月前
    01550
    字节跳动Seed团队发布新一代机器人操作大模型Seed GR-3

    字节跳动Seed团队发布新一代机器人操作大模型Seed GR-3

    字节跳动Seed团队近日推出一款面向复杂操作任务的大规模机器人模型——Seed GR-3(Generalist Robot Model-3)。该模型具备良好的泛化能力,支持长序列任务执行与多模态指令理...
    多模态模型# Seed GR-3# 字节跳动
    8个月前
    01900
    蚂蚁集团发布 M2-Reasoning-7B:通用与空间推理能力领先的多模态大模型

    蚂蚁集团发布 M2-Reasoning-7B:通用与空间推理能力领先的多模态大模型

    蚂蚁集团 inclusionAI 项目组 正式发布 M2-Reasoning-7B,一个在通用推理与空间推理领域表现卓越的多模态大语言模型(MLLM)。该模型基于 70 亿参数架构,通过创新的数据生成...
    多模态模型# M2-Reasoning-7B# 多模态大模型# 蚂蚁集团
    8个月前
    01920
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    WorkBuddy

    WorkBuddy

    WorkBuddy 是 AI 原生的桌面智能体工作台,以自然语言驱动办公自动化,一句指令即可完成数据处理、内容创作与深度分析,直接验收可交付结果,重塑职场效率标准。
    QClaw

    QClaw

    腾讯推出QClaw ,这是基于 OpenClaw 进行深度产品化封装的“官方一键安装包”。它的目标非常明确:让强大的 AI Agent 能力,像安装普通软件一样简单,并直接融入中国人的国民级应用——微信和 QQ。
    ArkClaw

    新ArkClaw

    字节旗下火山引擎正式上线 ArkClaw, 开箱即用的云上 SaaS 版 OpenClaw。无需任何复杂配置,打开网页即可使用 7×24 小时在线的 AI 助手。
    AutoClaw

    新AutoClaw

    智谱 AI 正式推出 AutoClaw —— 一款基于 OpenClaw深度定制的本地版 AI 智能体平台。它不仅内置了智谱最新内测模型 Pony-Alpha-2,更集成了强大的 AutoGLM Browser-Use 能力,实现了从“对话”到“复杂任务执行”的无缝闭环。
    CoPaw

    CoPaw

    阿里云旗下阿里桌面 Agent 工具 CoPaw 正式开源,CoPaw 原生支持钉钉、飞书、QQ、Discord、iMessage 等聊天软件和平台,内置了多种 Skills,用户可一键本地部署也可通过阿里云计算巢和魔搭社区创空间实现一键云端部署,并调用千问系列等主流模型,是业界部署门槛最低的 Agent 工具之一。
    查看完整榜单