SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    多模态模型

    共 191 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    字节跳动Seed团队发布新一代机器人操作大模型Seed GR-3

    字节跳动Seed团队发布新一代机器人操作大模型Seed GR-3

    字节跳动Seed团队近日推出一款面向复杂操作任务的大规模机器人模型——Seed GR-3(Generalist Robot Model-3)。该模型具备良好的泛化能力,支持长序列任务执行与多模态指令理...
    多模态模型# Seed GR-3# 字节跳动
    5个月前
    01530
    蚂蚁集团发布 M2-Reasoning-7B:通用与空间推理能力领先的多模态大模型

    蚂蚁集团发布 M2-Reasoning-7B:通用与空间推理能力领先的多模态大模型

    蚂蚁集团 inclusionAI 项目组 正式发布 M2-Reasoning-7B,一个在通用推理与空间推理领域表现卓越的多模态大语言模型(MLLM)。该模型基于 70 亿参数架构,通过创新的数据生成...
    多模态模型# M2-Reasoning-7B# 多模态大模型# 蚂蚁集团
    5个月前
    01590
    ColPali:基于视觉语言模型的新型高效文档检索系统

    ColPali:基于视觉语言模型的新型高效文档检索系统

    由 Illuin科技、Equall.ai、巴黎-萨克雷大学和苏黎世联邦理工学院 联合提出,ColPali 是一种基于视觉语言模型(VLMs)的文档检索模型,能够直接从文档图像中提取信息,实现快速、准确...
    多模态模型# ColPali# 文档检索
    5个月前
    01290
    ColQwen2.5-Omni:首个支持视觉+音频检索的ColBERT风格模型

    ColQwen2.5-Omni:首个支持视觉+音频检索的ColBERT风格模型

    ColQwen2.5-Omni 是基于 Qwen2.5-Omni-3B-Instruct 的新一代多模态检索模型。该模型采用 ColBERT 策略,支持从图像、音频等多模态内容中高效检索信息,是目前首...
    多模态模型# ColQwen2.5-Omni
    5个月前
    01420
    Open-Vision-Reasoner(OVR):基于语言认知迁移的多模态视觉推理新范式

    Open-Vision-Reasoner(OVR):基于语言认知迁移的多模态视觉推理新范式

    大语言模型(LLMs)之所以具备强大的推理能力,关键在于其通过可验证奖励机制的强化学习所涌现的认知行为。那么,是否可以将这一原则迁移至多模态大语言模型(MLLMs),从而解锁其高级视觉推理能力? 本研...
    多模态模型# Open-Vision-Reasoner# 多模态大语言模型
    5个月前
    02350
    NeuralOS:用神经生成模型模拟操作系统图形界面

    NeuralOS:用神经生成模型模拟操作系统图形界面

    滑铁卢大学与加拿大国家研究院的研究团队提出了一项极具前瞻性的项目:NeuralOS —— 一个通过神经生成模型模拟操作系统图形用户界面(GUI)的框架。 项目主页:https://neural-os...
    多模态模型# NeuralOS# 操作系统
    5个月前
    0810
    PyVision:基于动态工具生成的多模态智能视觉推理框架

    PyVision:基于动态工具生成的多模态智能视觉推理框架

    随着大语言模型(LLMs)的发展,我们正进入一个代理式人工智能(Agent AI)时代。这些模型不仅能够生成文本,还能进行任务规划、逻辑推理,并调用外部工具来扩展能力边界。 但真正的前沿在于:不是仅仅...
    多模态模型# PyVision# 多模态智能视觉推理
    5个月前
    01990
    谷歌推出开源医疗 AI 模型系列MedGemma及轻量级图像编码器 MedSigLIP

    谷歌推出开源医疗 AI 模型系列MedGemma及轻量级图像编码器 MedSigLIP

    谷歌近日宣布推出其最新的开源医疗 AI 模型系列——MedGemma,并同时发布了轻量级图像编码器 MedSigLIP。这是继健康 AI 开发者基础(HAI-DEF)项目之后,谷歌在医疗 AI 领域迈...
    多模态模型# MedGemma# MedSigLIP# 谷歌
    5个月前
    01510
    昆仑万维天工项目组推出多模态推理模型 Skywork-R1V3-38B

    昆仑万维天工项目组推出多模态推理模型 Skywork-R1V3-38B

    昆仑万维天工项目组近日发布了 Skywork-R1V3-38B,这是其开源视觉-语言模型(VLM)系列 Skywork-R1V 的最新迭代版本,也是目前该系列中性能最强的多模态推理模型。基于 Inte...
    多模态模型# Skywork-R1V3-38B# 多模态推理模型# 昆仑万维
    5个月前
    02080
    智谱AI联合清华推出新一代视觉语言推理模型开源 GLM-4.1V-9B-Thinking

    智谱AI联合清华推出新一代视觉语言推理模型开源 GLM-4.1V-9B-Thinking

    随着智能任务日益复杂,视觉语言大模型(VLM)正从基础的多模态感知迈向更高层次的推理能力提升。为了应对这一趋势,智谱AI 与清华大学联合推出了新一代 VLM 开源模型 —— GLM-4.1V-9B-T...
    多模态模型# GLM-4.1V-9B-Thinking# 智谱AI
    5个月前
    02460
    快手 Keye 团队发布 Kwai Keye-VL :专注短视频理解的多模态大模型

    快手 Keye 团队发布 Kwai Keye-VL :专注短视频理解的多模态大模型

    快手 Keye 团队近日推出了一款全新的多模态大型语言模型(MLLM)——Kwai Keye-VL。该模型拥有 80 亿参数,专注于提升对短视频的理解能力,同时保持强大的通用视觉-语言能力。 GitH...
    多模态模型# Kwai Keye-VL# 多模态大模型# 快手
    5个月前
    01940
    阿里 Qwen 项目组正式推出全新多模态模型Qwen VLo

    阿里 Qwen 项目组正式推出全新多模态模型Qwen VLo

    随着多模态大模型的不断发展,我们对技术边界的认知也在持续被刷新。从最初的 QwenVL 到如今的 Qwen2.5 VL,我们在提升模型图像理解能力方面不断取得进步。 项目主页:https://qwen...
    多模态模型# Qwen VLo# Qwen 项目组# 阿里巴巴
    5个月前
    01970
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    Grok

    Grok

    Grok是一款先进的对话式人工智能。Grok 旨在提供高效、准确且自然的对话交互体验,适用于多种应用场景,包括客户服务、虚拟助手、教育辅导等。
    YouMind

    YouMind

    YouMind 是一款重新构想的 AI 写作工具,帮助每个人轻松开启创作之旅。捕捉灵感、收集素材、撰写草稿,并将其转化为精炼的文章、播客、视频等丰富内容。
    Qwen3-ASR-Toolkit

    Qwen3-ASR-Toolkit

    Qwen3-ASR-Toolkit是一种高级、高性能的 Python 命令行工具包,用于使用 Qwen-ASR API(前身为 Qwen3-ASR-Flash)。此实现通过智能地将长音频/视频文件分割并并行处理,克服了 API 的 3 分钟音频长度限制,从而实现数小时内容的快速转录。
    NotebookLM

    NotebookLM

    NotebookLM是谷歌推出的一款个性化AI协作工具,旨在帮助用户更高效地进行信息整理和笔记记录。利用强大的语言模型帮助用户更快地从各种文本、图像以及网页中提取主要信息。
    Adobe Firefly Video

    Adobe Firefly Video

    由 Firefly 视频模型支持,创意专业人士可以从文本提示或图像生成视频片段,控制镜头角度,创建专业质量的图像,并开发自定义运动设计元素。该功能支持 1080p 分辨率,并即将推出 4K 模型。
    查看完整榜单