多模态模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

阿里巴巴推出 SmartResume：一个能“读懂”复杂简历版式的智能解析系统

在企业招聘中，自动化处理海量简历是刚需，但简历格式千奇百怪——多栏排版、图文混排、表格嵌套，传统文本提取工具常会打乱语义顺序，导致关键信息错位。针对这一难题，阿里巴巴企业智能团队发布了 SmartR...

3个月前

01530

美团发布LongCat-Flash-Omni：开源全模态大模型的实时交互新标杆

美团 LongCat 团队近日开源了 LongCat-Flash-Omni —— 一款参数总量达 5600 亿、每 token 动态激活 270 亿参数的全模态大模型（Full-Modal LLM...

多模态模型 # LongCat-Flash-Omni # 美团

3个月前

0130

百度飞桨发布 PaddleOCR-VL（0.9B）：轻量级端到端多语言文档解析模型

百度飞桨团队近日开源 PaddleOCR-VL（0.9B）——一款专为复杂版式文档智能解析设计的视觉语言模型（VLM）。该模型以仅 9亿参数的轻量级架构，实现了对文本、表格、数学公式、图表及手写体的高...

多模态模型 # PaddleOCR-VL # 文档解析模型

3个月前

0200

DeepSeek 开源DeepSeek-OCR ：用视觉模态压缩文本，3B 小模型撬动长上下文新思路

DeepSeek 开源了 DeepSeek-OCR，一个仅 30 亿参数的视觉语言模型（VLM），却在 OCR 与文本压缩领域展现出令人瞩目的创新力。其核心并非追求更大参数量，而是提出一种“光学压缩...

多模态模型 # DeepSeek # DeepSeek-OCR

3个月前

01410

Nanonets开源OCR2系列模型：图像转结构化Markdown+视觉问答双核心

Nanonets 正式发布并开源了 OCR2 系列模型，包含 Nanonets-OCR2-Plus、Nanonets-OCR2-3B 与 Nanonets-OCR2-1.5B-exp 三个版本。作为一...

多模态模型 # Nanonets-OCR2 # Qwen2-VL

3个月前

02150

阿里巴巴 Qwen 推出紧凑型多模态模型 Qwen3-VL 4B/8B，支持 FP8 低显存部署

阿里巴巴通义千问（Qwen）团队于 2025 年 10 月 15 日正式发布 Qwen3-VL 4B 与 8B 两款稠密视觉语言模型，每款均提供指令版（Instruction）与思维版（Reas...

多模态模型 # Qwen3-VL 4B # Qwen3-VL 8B # 多模态模型

4个月前

02620

谷歌推出新型 AI 模型Gemini 2.5 Computer Use，可操作浏览器完成网页任务

谷歌发布一款名为 Gemini 2.5 Computer Use 的新型 AI 模型，能够通过浏览器窗口执行点击、滚动、输入文本等交互操作，帮助用户在那些没有开放 API 的网站上自动完成任务。这项...

多模态模型 # Gemini 2.5 Computer Use # 谷歌

4个月前

01580

阿里通义实验室发布 Qwen3-VL：迄今最强视觉语言模型，全面开源

阿里通义实验室 Qwen 项目组正式推出全新升级的 Qwen3-VL 系列——这是截至目前 Qwen 多模态体系中能力最全面、性能最先进的视觉语言模型（Vision-Language Model, V...

多模态模型 # Qwen3-VL # 视觉语言模型

4个月前

03480

Hugging Face推出Smol2Operator：让小模型学会操作图形界面

在人机交互日益复杂的今天，一个长期被忽视的问题是：我们能让AI像人类一样“使用”计算机吗？不是生成文本或识别图像，而是真正理解屏幕上的按钮、输入框、菜单，并通过点击、滑动、输入等动作完成任务——这...

多模态模型 # Hugging Face # Smol2Operator

4个月前

01130

阿里通义实验室推出Qwen3-Omni：支持文本、语音、图像、视频的全模态大模型

通义实验室正式推出 Qwen3-Omni——一款统一处理多模态输入并支持流式文本与语音输出的大语言模型。该模型已在 Qwen API 平台上线，开发者可通过接口体验其在音频对话、跨模态理解与指令执行方...

多模态模型 # Qwen3-Omni # 通义实验室

4个月前

01650

Qianfan-VL：百度推出的多模态大模型系列，面向企业级视觉语言任务

由百度 AI 云团队研发，Qianfan-VL 是一系列参数规模从 3B 到 70B 的多模态大语言模型（MLLM），专注于提升企业在文档理解、OCR识别和数学推理等高频场景下的自动化能力。项目主页...

多模态模型 # Qianfan-VL # 多模态大模型 # 百度

4个月前

01110

苹果发布多模态统一模型Manzano：能够同时理解和生成视觉内容

苹果发布多模态统一模型Manzano，它能够同时理解和生成视觉内容。该模型通过结合一个混合图像标记化器和精心设计的训练方案，显著减少了在理解和生成能力之间的性能权衡。Manzano 在统一模型中实现了...

多模态模型 # Manzano # 多模态统一模型

4个月前

01040

加载更多

阿里巴巴推出 SmartResume：一个能“读懂”复杂简历版式的智能解析系统

美团发布LongCat-Flash-Omni：开源全模态大模型的实时交互新标杆

百度飞桨发布 PaddleOCR-VL（0.9B）：轻量级端到端多语言文档解析模型

DeepSeek 开源DeepSeek-OCR ：用视觉模态压缩文本，3B 小模型撬动长上下文新思路

Nanonets开源OCR2系列模型：图像转结构化Markdown+视觉问答双核心

阿里巴巴 Qwen 推出紧凑型多模态模型 Qwen3-VL 4B/8B，支持 FP8 低显存部署

谷歌推出新型 AI 模型Gemini 2.5 Computer Use，可操作浏览器完成网页任务

阿里通义实验室发布 Qwen3-VL：迄今最强视觉语言模型，全面开源

Hugging Face推出Smol2Operator：让小模型学会操作图形界面

阿里通义实验室推出Qwen3-Omni：支持文本、语音、图像、视频的全模态大模型

Qianfan-VL：百度推出的多模态大模型系列，面向企业级视觉语言任务

苹果发布多模态统一模型Manzano：能够同时理解和生成视觉内容

Clawdbot/Moltbot

Higgsfield AI

Situation Monitor

Fogsight (雾象)

CivitAI

ITELLOU

多模态模型

网址

Clawdbot/Moltbot

Higgsfield AI

Situation Monitor

Fogsight (雾象)

CivitAI

ITELLOU