SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    多模态模型

    共 208 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    Cohere 推出 Command A Vision:专为企业打造的高效多模态 AI

    Cohere 推出 Command A Vision:专为企业打造的高效多模态 AI

    今天,AI 不再只是“读文字”的工具。越来越多的企业需要系统能“看懂”图像——从产品手册、工程图纸到财务报表、现场照片。 为此,Cohere 正式发布 Command A Vision —— 一款专为...
    多模态模型# Cohere# Command A Vision
    6个月前
    01170
    腾讯ARC实验室发布 ARC-Hunyuan-Video-7B:专为短视频理解而生的多模态模型

    腾讯ARC实验室发布 ARC-Hunyuan-Video-7B:专为短视频理解而生的多模态模型

    在微信视频号、TikTok 等平台上,每天有数亿条用户生成的短视频被上传。这些视频内容多样、节奏快、信息密度高,往往融合了画面、语音、音效、文字甚至情绪表达。如何让AI真正“理解”这些视频,而不仅仅是...
    多模态模型# ARC-Hunyuan-Video-7B# 多模态模型# 腾讯ARC实验室
    6个月前
    04890
    上海AI实验室发布书生 Intern-S1:专为科研打造的多模态AI助手

    上海AI实验室发布书生 Intern-S1:专为科研打造的多模态AI助手

    上海AI实验室正式推出 Intern-S1 —— 一款具备强大科学理解能力的开源多模态推理模型。它不仅在通用任务上表现卓越,更在化学、生物、数学、物理等多个科学领域达到最先进的性能水平,部分指标甚至超...
    多模态模型# Intern-S1# 上海AI实验室# 书生
    5个月前
    02840
    蚂蚁集团发布Ming-lite-omni v1.5:全模态能力的全面升级

    蚂蚁集团发布Ming-lite-omni v1.5:全模态能力的全面升级

    由 蚂蚁集团旗下的 百灵大模型(Ling)团队研发的全模态大模型 Ming-lite-omni v1.5 正式发布。作为对初代模型的全面升级,v1.5 版本在图像、文本、视频、语音等多种模态的理解与生...
    多模态模型# Ming-lite-omni v1.5# 蚂蚁集团
    6个月前
    03060
    东京大学推出基准测试MangaVQA和多模态漫画理解模型MangaLMM

    东京大学推出基准测试MangaVQA和多模态漫画理解模型MangaLMM

    东京大学的研究人员推出一个名为 MangaVQA 的基准测试和一个名为 MangaLMM 的专门模型,用于多模态漫画理解。漫画(Manga)是一种将图像和文本以复杂方式结合的叙事形式,理解漫画需要同时...
    多模态模型# MangaLMM# MangaVQA# 东京大学
    6个月前
    01410
    字节跳动Seed团队发布新一代机器人操作大模型Seed GR-3

    字节跳动Seed团队发布新一代机器人操作大模型Seed GR-3

    字节跳动Seed团队近日推出一款面向复杂操作任务的大规模机器人模型——Seed GR-3(Generalist Robot Model-3)。该模型具备良好的泛化能力,支持长序列任务执行与多模态指令理...
    多模态模型# Seed GR-3# 字节跳动
    6个月前
    01650
    蚂蚁集团发布 M2-Reasoning-7B:通用与空间推理能力领先的多模态大模型

    蚂蚁集团发布 M2-Reasoning-7B:通用与空间推理能力领先的多模态大模型

    蚂蚁集团 inclusionAI 项目组 正式发布 M2-Reasoning-7B,一个在通用推理与空间推理领域表现卓越的多模态大语言模型(MLLM)。该模型基于 70 亿参数架构,通过创新的数据生成...
    多模态模型# M2-Reasoning-7B# 多模态大模型# 蚂蚁集团
    7个月前
    01750
    ColPali:基于视觉语言模型的新型高效文档检索系统

    ColPali:基于视觉语言模型的新型高效文档检索系统

    由 Illuin科技、Equall.ai、巴黎-萨克雷大学和苏黎世联邦理工学院 联合提出,ColPali 是一种基于视觉语言模型(VLMs)的文档检索模型,能够直接从文档图像中提取信息,实现快速、准确...
    多模态模型# ColPali# 文档检索
    7个月前
    01310
    ColQwen2.5-Omni:首个支持视觉+音频检索的ColBERT风格模型

    ColQwen2.5-Omni:首个支持视觉+音频检索的ColBERT风格模型

    ColQwen2.5-Omni 是基于 Qwen2.5-Omni-3B-Instruct 的新一代多模态检索模型。该模型采用 ColBERT 策略,支持从图像、音频等多模态内容中高效检索信息,是目前首...
    多模态模型# ColQwen2.5-Omni
    7个月前
    01560
    Open-Vision-Reasoner(OVR):基于语言认知迁移的多模态视觉推理新范式

    Open-Vision-Reasoner(OVR):基于语言认知迁移的多模态视觉推理新范式

    大语言模型(LLMs)之所以具备强大的推理能力,关键在于其通过可验证奖励机制的强化学习所涌现的认知行为。那么,是否可以将这一原则迁移至多模态大语言模型(MLLMs),从而解锁其高级视觉推理能力? 本研...
    多模态模型# Open-Vision-Reasoner# 多模态大语言模型
    7个月前
    02750
    NeuralOS:用神经生成模型模拟操作系统图形界面

    NeuralOS:用神经生成模型模拟操作系统图形界面

    滑铁卢大学与加拿大国家研究院的研究团队提出了一项极具前瞻性的项目:NeuralOS —— 一个通过神经生成模型模拟操作系统图形用户界面(GUI)的框架。 项目主页:https://neural-os...
    多模态模型# NeuralOS# 操作系统
    7个月前
    0810
    PyVision:基于动态工具生成的多模态智能视觉推理框架

    PyVision:基于动态工具生成的多模态智能视觉推理框架

    随着大语言模型(LLMs)的发展,我们正进入一个代理式人工智能(Agent AI)时代。这些模型不仅能够生成文本,还能进行任务规划、逻辑推理,并调用外部工具来扩展能力边界。 但真正的前沿在于:不是仅仅...
    多模态模型# PyVision# 多模态智能视觉推理
    7个月前
    02130
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Clawdbot/Moltbot

    Clawdbot/Moltbot

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    QoderWork

    新QoderWork

    阿里发布旗下首个桌面Agent工具QoderWork,用户无需任何复杂部署工作,输入一句话,QoderWork就能按需调用授权的本地应用,完成文件整理、数据处理、文档生成等任务。
    Situation Monitor

    Situation Monitor

    Situation Monitor 是由开发者 Reggie James 创建的一个免费、开源的全球风险监测平台。它通过一张交互式地图,实时整合并可视化全球范围内的关键地缘政治与安全信息,帮助用户快速掌握潜在冲突热点和战略动态。
    Higgsfield AI

    Higgsfield AI

    Higgsfield AI平台支持文生图和图生视频,近期对图生视频功能进行了全面升级,专为追求高质量、风格化内容创作并渴望真正电影级操控的创意人士打造——无论是MV导演、商业片制作人、AI创作者,还是社交媒体叙事者。
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    查看完整榜单