SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 知识库
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 知识库
    • 排行榜
    • 网址提交

    多模态模型

    共 200 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    阿里通义实验室发布 Qwen3-VL:迄今最强视觉语言模型,全面开源

    阿里通义实验室发布 Qwen3-VL:迄今最强视觉语言模型,全面开源

    阿里通义实验室 Qwen 项目组正式推出全新升级的 Qwen3-VL 系列——这是截至目前 Qwen 多模态体系中能力最全面、性能最先进的视觉语言模型(Vision-Language Model, V...
    多模态模型# Qwen3-VL# 视觉语言模型
    4个月前
    03290
    Hugging Face推出Smol2Operator:让小模型学会操作图形界面

    Hugging Face推出Smol2Operator:让小模型学会操作图形界面

    在人机交互日益复杂的今天,一个长期被忽视的问题是: 我们能让AI像人类一样“使用”计算机吗? 不是生成文本或识别图像,而是真正理解屏幕上的按钮、输入框、菜单,并通过点击、滑动、输入等动作完成任务——这...
    多模态模型# Hugging Face# Smol2Operator
    4个月前
    01030
    阿里通义实验室推出Qwen3-Omni:支持文本、语音、图像、视频的全模态大模型

    阿里通义实验室推出Qwen3-Omni:支持文本、语音、图像、视频的全模态大模型

    通义实验室正式推出 Qwen3-Omni——一款统一处理多模态输入并支持流式文本与语音输出的大语言模型。该模型已在 Qwen API 平台上线,开发者可通过接口体验其在音频对话、跨模态理解与指令执行方...
    多模态模型# Qwen3-Omni# 通义实验室
    4个月前
    01610
    Qianfan-VL:百度推出的多模态大模型系列,面向企业级视觉语言任务

    Qianfan-VL:百度推出的多模态大模型系列,面向企业级视觉语言任务

    由百度 AI 云团队研发,Qianfan-VL 是一系列参数规模从 3B 到 70B 的多模态大语言模型(MLLM),专注于提升企业在文档理解、OCR识别和数学推理等高频场景下的自动化能力。 项目主页...
    多模态模型# Qianfan-VL# 多模态大模型# 百度
    4个月前
    01110
    苹果发布多模态统一模型Manzano:能够同时理解和生成视觉内容

    苹果发布多模态统一模型Manzano:能够同时理解和生成视觉内容

    苹果发布多模态统一模型Manzano,它能够同时理解和生成视觉内容。该模型通过结合一个混合图像标记化器和精心设计的训练方案,显著减少了在理解和生成能力之间的性能权衡。Manzano 在统一模型中实现了...
    多模态模型# Manzano# 多模态统一模型
    4个月前
    01020
    视觉-语言模型中的“隐形损耗”:我们如何测量图像信息的丢失?

    视觉-语言模型中的“隐形损耗”:我们如何测量图像信息的丢失?

    视觉-语言模型(Vision-Language Models, VLMs)如 LLaVA、Qwen-VL 等,在图像理解、视觉问答和图文生成等任务中表现优异。这些模型通常依赖一个核心流程:将图像通过视...
    多模态模型# 视觉-语言模型
    4个月前
    01270
    百度发布 PP-OCRv5:0.07亿参数模型,挑战百亿级大模型的OCR精度

    百度发布 PP-OCRv5:0.07亿参数模型,挑战百亿级大模型的OCR精度

    在通用视觉语言模型(VLM)主导多模态任务的当下,百度飞桨团队反其道而行之,推出新一代轻量级文字识别模型 PP-OCRv5 ——一个仅含 70万参数(0.07B)的超小模型,在多项 OCR 任务中表现...
    多模态模型# PP-OCRv5# 百度
    4个月前
    02600
    Mistral AI 发布 Magistral Small 1.2:支持视觉输入的小型高效开源推理模型

    Mistral AI 发布 Magistral Small 1.2:支持视觉输入的小型高效开源推理模型

    法国AI初创公司 Mistral AI 本周正式发布并开源其小型语言模型的新版本 —— Magistral Small 1.2。该模型在前代基础上全面升级,不仅提升了数学与编程任务的基准表现,还首次引...
    多模态模型# Magistral Small 1.2# Mistral AI
    4个月前
    02110
    Moondream 团队推出 Moondream 3 预览版本:轻量架构下的高性能视觉推理模型

    Moondream 团队推出 Moondream 3 预览版本:轻量架构下的高性能视觉推理模型

    Moondream 团队正式推出 Moondream 3 的预览版本——一款基于 9B 参数稀疏混合专家(MoE)架构的新模型,实际激活参数仅为 2B。它在保持极快推理速度和低运行成本的同时,实现了接...
    多模态模型# Moondream 3# 视觉推理模型
    4个月前
    04520
    IBM 推出 Granite Docling:专为文档转换优化的轻量级多模态模型

    IBM 推出 Granite Docling:专为文档转换优化的轻量级多模态模型

    IBM Research 正式发布 Granite Docling-258M,一款基于 IDEFICS3 架构构建的新型多模态图像-文本到文本模型,专为高效、准确的文档理解与结构化转换而设计。 Git...
    多模态模型# Granite Docling-258M# 多模态模型# 文档转换
    4个月前
    0850
    抖音推出SAIL-VL2:面向细粒度感知与复杂推理的新一代开源视觉语言模型

    抖音推出SAIL-VL2:面向细粒度感知与复杂推理的新一代开源视觉语言模型

    由抖音 SAIL 团队与新加坡国立大学 LV-NUS 实验室联合研发,SAIL-VL2 是一款全新的开源视觉语言基础模型(Vision-Language Model, LVM),在 2B 和 8B 参...
    多模态模型# SAIL-VL2# 抖音# 视觉语言模型
    4个月前
    02770
    浙大 × 通义实验室提出 UI-S1:用“半在线”训练让 MLLM 更懂图形界面

    浙大 × 通义实验室提出 UI-S1:用“半在线”训练让 MLLM 更懂图形界面

    在手机上完成一连串操作——比如从微信复制一段文字,粘贴到备忘录,再分享给钉钉好友——对人类来说是日常小事。但对 AI 来说,这是一次复杂的多步决策挑战。 近年来,基于多模态大语言模型(MLLM)的 G...
    多模态模型# UI-S1# 多模态大语言模型
    4个月前
    02510
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    素食烹饪指南

    素食烹饪指南

    素食烹饪指南(HowToCookVegan)是一个开源项目,旨在为所有热爱素食、关注健康与地球的人,提供一份简单、实用、有趣的纯素食烹饪指南。
    NotebookLM 网页导入器

    NotebookLM 网页导入器

    由社区开发者推出的浏览器扩展 NotebookLM Web Importer,让你一键将当前浏览的网页或正在观看的 YouTube 视频导入 NotebookLM,无需复制粘贴、无需手动下载转文本。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    Apple Wallpapers

    Apple Wallpapers

    AppleWalls 提供 iPhone、iPad 与 Mac 系统原生高清壁纸下载,收录 iOS 与 macOS 各版本官方壁纸。探索苹果设计美学,体验纯粹的 Apple 风格。
    Midjourney

    Midjourney

    Midjourney是目前最强的AI绘画工具,输入提示词即可通过AI算法生成相对应的图片,只需要不到一分钟。对于新用户,官方提供一段时间的免费试用,用户可以直接通过谷歌账号注册体验。
    查看完整榜单