多模态模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

月之暗面开源最强多模态模型 Kimi K2.5，支持百智能体协同与视觉编程

月之暗面（Moonshot AI）正式发布 Kimi K2.5——目前最强的开源多模态大模型。它在 Kimi K2 基础上，基于约 15 万亿混合视觉-文本 Token 进行预训练，不仅在编码与视觉理...

2个月前

0260

DeepSeek-OCR-V2：用 LLM 替代 CLIP，让 OCR 学会“像人一样阅读”

DeepSeek 发布 OCR-V2，这不是一次常规升级，而是一次架构级革新：彻底弃用 CLIP 视觉编码器，改用小型 LLM（Qwen2-0.5B）作为视觉编码器，并引入 “视觉因果流”（Visua...

多模态模型 # DeepSeek-OCR-V2 # OCR模型

2个月前

0540

LightOn AI推出的第二代模型 LightOnOCR-2-1B：1B 参数端到端 OCR 模型，支持边界框输出

在文档数字化处理领域，兼顾高精度转录、轻量化部署、高效推理的OCR模型一直是行业刚需。LightOn AI推出的第二代模型 LightOnOCR-2-1B，以1B参数量实现端到端PDF文档转写能力，不...

多模态模型 # LightOn AI # LightOnOCR-2-1B # OCR 模型

2个月前

0890

腾讯优图实验室推出 Youtu-LLM：持 128K 上下文、本地运行，专为端侧 AI 设计

在大模型普遍走向百亿、千亿参数的今天，腾讯优图实验室推出了一款仅 1.96B 参数的轻量级语言模型——Youtu-LLM。它不追求规模堆砌，而是以 STEM 能力与原生智能体（Agentic）能力为核...

多模态模型 # Youtu-LLM # 腾讯优图实验室

2个月前

0410

阿里开源 Qwen3-VL 多模态检索模型：Embedding + Reranker 两阶段提升跨模态精度

在多模态 AI 应用日益普及的今天，如何高效检索混合了文本、图像、截图甚至视频的内容，仍是技术难点。传统方案往往依赖多个专用模型，导致系统复杂、语义割裂。官方说明：https://qwen.ai/b...

多模态模型 # Qwen3-VL-Embedding # Qwen3-VL-Reranker

2个月前

0430

Yume1.5：用一张图或一段文字，生成可实时探索的虚拟世界

想象一下：你上传一张街景照片，或输入一句描述——“一个穿风衣的男人走在雨夜的东京街头，霓虹灯闪烁，远处有全息广告”——模型随即生成一个可自由行走、视角可调、事件可触发的动态 3D 世界。你用键盘控制角...

多模态模型 # Yume1.5 # 世界模型

3个月前

0370

阿里通义开源 MAI-UI：32B 模型 GUI 定位超 Gemini-3-Pro，端云协同重构智能体交互

阿里通义实验室近日开源 MAI-UI —— 一个面向真实世界部署的通用 GUI（图形用户界面）智能体基座模型系列，涵盖 2B、8B、32B 和 235B-A22B 四种规模。其 32B 版本在 Sc...

多模态模型 # MAI-UI # 通用 GUI模型

3个月前

0740

VideoRAG：用知识图谱和多模态检索让大模型理解多小时视频

当前的大语言模型（LLMs）在处理短视频时已表现出强大能力，但面对数小时甚至跨集的长视频（如讲座系列、纪录片、剧集），它们往往力不从心——上下文窗口有限、计算成本高、跨场景语义断裂。 GitHub：h...

多模态模型 # VideoRAG # 多模态检索 # 知识图谱

3个月前

0430

Google DeepMind发布T5Gemma 2：支持多模态与 128K 上下文的高效编码器-解码器模型

Google DeepMind 正式推出 T5Gemma 2——新一代基于 Gemma 3 架构的编码器-解码器（Encoder-Decoder）模型系列。它不仅继承了 Gemma 3 的先进特性，更...

多模态模型 # Google DeepMind # T5Gemma 2

3个月前

0300

Mistral OCR 3 发布：手写、表格、低质量扫描件识别全面升级

Mistral AI 正式推出 Mistral OCR 3，其在复杂文档场景下的识别准确率显著超越前代模型与主流竞品。该模型专注于真实业务环境中的多样化文档——从手写批注、低质量扫描件到多层级表格...

多模态模型 # Mistral OCR 3

3个月前

0320

Omni-View：通过生成任务增强3D场景理解的统一模型

北京大学、阿里巴巴国际数字商业集团、中国科学院自动化研究所与 TeleAI 联合提出 Omni-View —— 一个面向多视角图像输入的统一3D场景理解与生成模型。该工作首次在端到端框架中系统性验证了...

多模态模型 # Omni-View

3个月前

0270

Dolphin-v2：字节跳动发布支持21类元素的通用文档解析模型

在办公自动化、知识管理与智能体工作流中，将非结构化文档转化为结构化数据是关键第一步。然而，现实中的文档来源复杂：既有干净的 PDF、Word，也有手机拍摄的带畸变、阴影、模糊的纸质文件。现有解析模型往...

多模态模型 # Dolphin-v2 # 字节跳动 # 文档解析模型

3个月前

01470

加载更多

月之暗面开源最强多模态模型 Kimi K2.5，支持百智能体协同与视觉编程

DeepSeek-OCR-V2：用 LLM 替代 CLIP，让 OCR 学会“像人一样阅读”

LightOn AI推出的第二代模型 LightOnOCR-2-1B：1B 参数端到端 OCR 模型，支持边界框输出

腾讯优图实验室推出 Youtu-LLM：持 128K 上下文、本地运行，专为端侧 AI 设计

阿里开源 Qwen3-VL 多模态检索模型：Embedding + Reranker 两阶段提升跨模态精度

Yume1.5：用一张图或一段文字，生成可实时探索的虚拟世界

阿里通义开源 MAI-UI：32B 模型 GUI 定位超 Gemini-3-Pro，端云协同重构智能体交互

VideoRAG：用知识图谱和多模态检索让大模型理解多小时视频

Google DeepMind发布T5Gemma 2：支持多模态与 128K 上下文的高效编码器-解码器模型

Mistral OCR 3 发布：手写、表格、低质量扫描件识别全面升级

Omni-View：通过生成任务增强3D场景理解的统一模型

Dolphin-v2：字节跳动发布支持21类元素的通用文档解析模型

S.H.I.T

新悟空

新Loomy

新360 安全龙虾

Joker of Academics（小丑学术期刊）

ArkClaw

多模态模型

网址

S.H.I.T

新悟空

新Loomy

新360 安全龙虾

Joker of Academics（小丑学术期刊 ）

ArkClaw

Joker of Academics（小丑学术期刊）