SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    多模态模型

    共 193 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    东京大学推出基准测试MangaVQA和多模态漫画理解模型MangaLMM

    东京大学推出基准测试MangaVQA和多模态漫画理解模型MangaLMM

    东京大学的研究人员推出一个名为 MangaVQA 的基准测试和一个名为 MangaLMM 的专门模型,用于多模态漫画理解。漫画(Manga)是一种将图像和文本以复杂方式结合的叙事形式,理解漫画需要同时...
    多模态模型# MangaLMM# MangaVQA# 东京大学
    5个月前
    01310
    ColPali:基于视觉语言模型的新型高效文档检索系统

    ColPali:基于视觉语言模型的新型高效文档检索系统

    由 Illuin科技、Equall.ai、巴黎-萨克雷大学和苏黎世联邦理工学院 联合提出,ColPali 是一种基于视觉语言模型(VLMs)的文档检索模型,能够直接从文档图像中提取信息,实现快速、准确...
    多模态模型# ColPali# 文档检索
    5个月前
    01290
    多模态智能体的“认知升级”:Web-CogReasoner 如何让网络代理真正“会思考”

    多模态智能体的“认知升级”:Web-CogReasoner 如何让网络代理真正“会思考”

    联合研究团队:西南财经大学、上海交通大学、中南大学、Hithink研究院、西湖大学、哈尔滨工业大学、曼彻斯特大学、加州大学洛杉矶分校、阿德莱德大学、复旦大学、中国科学院深圳先进技术研究院 当AI开始替...
    多模态模型# Web-CogReasoner# 多模态智能体
    4个月前
    01250
    OpenVision 2:更高效、更对齐的生成式视觉编码器

    OpenVision 2:更高效、更对齐的生成式视觉编码器

    在多模态大模型(MLLM)快速发展的今天,一个核心问题日益凸显:预训练视觉编码器的训练方式是否真的适配下游任务? 传统方法依赖图像-文本对比学习(如 CLIP),但这类模型在接入 LLM 进行微调时...
    多模态模型# OpenVision 2# 视觉编码器
    3个月前
    01240
    宇树科技开源 UnifoLM-WMA-0:面向通用机器人的世界模型–动作架构

    宇树科技开源 UnifoLM-WMA-0:面向通用机器人的世界模型–动作架构

    宇树科技(Unitree)近日宣布开源其全新的机器人学习框架 —— UnifoLM-WMA-0,一个专为通用机器人学习设计的世界模型–动作(World Model–Action)架构。该模型跨越多种机...
    多模态模型# UnifoLM-WMA-0# 宇树科技
    3个月前
    01170
    视觉-语言模型中的“隐形损耗”:我们如何测量图像信息的丢失?

    视觉-语言模型中的“隐形损耗”:我们如何测量图像信息的丢失?

    视觉-语言模型(Vision-Language Models, VLMs)如 LLaVA、Qwen-VL 等,在图像理解、视觉问答和图文生成等任务中表现优异。这些模型通常依赖一个核心流程:将图像通过视...
    多模态模型# 视觉-语言模型
    3个月前
    01160
    Thyme:会生成代码的多模态模型,突破“图像思考”边界

    Thyme:会生成代码的多模态模型,突破“图像思考”边界

    由快手联合中科院自动化所、南京大学、清华大学、中国科学技术大学共同研发的Thyme,重新定义了视觉多模态模型的能力边界。它不再局限于传统的“用图像思考”,而是通过自主生成、执行代码,完成多样化的图像处...
    多模态模型# Thyme# 多模态模型
    4个月前
    01150
    Cohere 推出 Command A Vision:专为企业打造的高效多模态 AI

    Cohere 推出 Command A Vision:专为企业打造的高效多模态 AI

    今天,AI 不再只是“读文字”的工具。越来越多的企业需要系统能“看懂”图像——从产品手册、工程图纸到财务报表、现场照片。 为此,Cohere 正式发布 Command A Vision —— 一款专为...
    多模态模型# Cohere# Command A Vision
    5个月前
    01140
    DeepSeek 开源DeepSeek-OCR :用视觉模态压缩文本,3B 小模型撬动长上下文新思路

    DeepSeek 开源DeepSeek-OCR :用视觉模态压缩文本,3B 小模型撬动长上下文新思路

    DeepSeek 开源了 DeepSeek-OCR,一个仅 30 亿参数的视觉语言模型(VLM),却在 OCR 与文本压缩领域展现出令人瞩目的创新力。其核心并非追求更大参数量,而是提出一种“光学压缩...
    多模态模型# DeepSeek# DeepSeek-OCR
    2个月前
    01040
    阿里巴巴推出 SmartResume:一个能“读懂”复杂简历版式的智能解析系统

    阿里巴巴推出 SmartResume:一个能“读懂”复杂简历版式的智能解析系统

    在企业招聘中,自动化处理海量简历是刚需,但简历格式千奇百怪——多栏排版、图文混排、表格嵌套,传统文本提取工具常会打乱语义顺序,导致关键信息错位。 针对这一难题,阿里巴巴企业智能团队发布了 SmartR...
    多模态模型# SmartResume# 智能简历解析# 阿里巴巴
    1个月前
    01030
    苹果发布多模态统一模型Manzano:能够同时理解和生成视觉内容

    苹果发布多模态统一模型Manzano:能够同时理解和生成视觉内容

    苹果发布多模态统一模型Manzano,它能够同时理解和生成视觉内容。该模型通过结合一个混合图像标记化器和精心设计的训练方案,显著减少了在理解和生成能力之间的性能权衡。Manzano 在统一模型中实现了...
    多模态模型# Manzano# 多模态统一模型
    3个月前
    01010
    Qianfan-VL:百度推出的多模态大模型系列,面向企业级视觉语言任务

    Qianfan-VL:百度推出的多模态大模型系列,面向企业级视觉语言任务

    由百度 AI 云团队研发,Qianfan-VL 是一系列参数规模从 3B 到 70B 的多模态大语言模型(MLLM),专注于提升企业在文档理解、OCR识别和数学推理等高频场景下的自动化能力。 项目主页...
    多模态模型# Qianfan-VL# 多模态大模型# 百度
    3个月前
    0980
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    Grok

    Grok

    Grok是一款先进的对话式人工智能。Grok 旨在提供高效、准确且自然的对话交互体验,适用于多种应用场景,包括客户服务、虚拟助手、教育辅导等。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    NotebookLM

    NotebookLM

    NotebookLM是谷歌推出的一款个性化AI协作工具,旨在帮助用户更高效地进行信息整理和笔记记录。利用强大的语言模型帮助用户更快地从各种文本、图像以及网页中提取主要信息。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    Mirage Studio

    Mirage Studio

    Captions 推出了 Mirage Studio,一个AI驱动的平台,生成用户生成内容(UGC)风格的视频,特色是逼真的数字演员。该平台由专有的多模态基础模型驱动,无需相机或制作团队即可生成富有表现力的、影棚品质的视频。
    查看完整榜单