多模态模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

Mistral OCR 3 发布：手写、表格、低质量扫描件识别全面升级

Mistral AI 正式推出 Mistral OCR 3，其在复杂文档场景下的识别准确率显著超越前代模型与主流竞品。该模型专注于真实业务环境中的多样化文档——从手写批注、低质量扫描件到多层级表格...

多模态模型 # Mistral OCR 3

1个月前

0240

Omni-View：通过生成任务增强3D场景理解的统一模型

北京大学、阿里巴巴国际数字商业集团、中国科学院自动化研究所与 TeleAI 联合提出 Omni-View —— 一个面向多视角图像输入的统一3D场景理解与生成模型。该工作首次在端到端框架中系统性验证了...

多模态模型 # Omni-View

1个月前

0210

Dolphin-v2：字节跳动发布支持21类元素的通用文档解析模型

在办公自动化、知识管理与智能体工作流中，将非结构化文档转化为结构化数据是关键第一步。然而，现实中的文档来源复杂：既有干净的 PDF、Word，也有手机拍摄的带畸变、阴影、模糊的纸质文件。现有解析模型往...

多模态模型 # Dolphin-v2 # 字节跳动 # 文档解析模型

2个月前

01000

智谱AI开源GLM-4.6V：128K上下文视觉语言模型，原生工具调用打通感知与执行链路

智谱AI正式推出并开源 GLM-4.6V 系列多模态大语言模型，包含面向云端与高性能集群的 GLM-4.6V (106B) 基础模型，以及针对本地部署和低延迟场景优化的 GLM-4.6V-Flash ...

多模态模型 # GLM-4.6V # 智谱AI

2个月前

0250

Mistral AI正式发布Mistral 3系列模型：开源多模态模型家族，覆盖从边缘到企业级场景

Mistral AI 正式推出新一代模型系列 Mistral 3，此次发布不仅包含适配边缘场景的 Ministral 3 系列小型密集模型，更带来了性能顶尖的稀疏专家混合模型 Mistral Larg...

多模态模型 # Mistral 3 # Mistral AI # Mistral Large 3

2个月前

0550

字节跳动发布Vidi2：攻克细粒度时空定位，视频检索性能领先GPT - 5

字节跳动智能创作团队推出的第二代多模态视频模型Vidi2，凭借在时空定位、时间检索和视频问答三大核心能力上的突破，打破了传统视频模型在长视频理解和精细交互上的局限。该模型不仅在核心任务中实现对Gemi...

多模态模型 # Vidi2 # 多模态视频模型 # 字节跳动

2个月前

01180

Meta AI发布SAM 3：支持文本/图像双提示，图像视频分割性能翻

Meta 近日推出 Segment Anything 系列新一代模型——SAM 3，首次实现文本、图像示例双提示驱动的开放式概念分割，可精准识别并分割“带红色条纹的雨伞”等细粒度概念，在图像与视频分割...

多模态模型 # Meta AI # SAM 3 # 分割模型

2个月前

0180

腾讯开源HunyuanOCR：以1B参数覆盖9大场景，支持百种语言

在OCR领域常陷入“大参数换高性能”的内卷时，腾讯混元于11月25日开源的HunyuanOCR，以1B的轻量化参数实现了颠覆性突破。这款依托混元原生多模态架构打造的端到端OCR专家模型，不仅在多项权威...

多模态模型 # HunyuanOCR

2个月前

0240

谷歌发布 WeatherNext 2：AI 天气预报模型速度提升 8 倍，精准到小时级

谷歌DeepMind与Google Research联合发布全新AI天气预报模型WeatherNext 2，定位为“迄今最先进、最高效的全球天气预报解决方案”。该模型以“速度提升8倍、分辨率达小时级...

多模态模型 # WeatherNext 2 # 天气预报 # 谷歌

2个月前

0560

谷歌 DeepMind 发布 SIMA 2：AI智能体首次在虚拟世界中“自我改进”

谷歌DeepMind发布通用AI智能体下一代产品SIMA 2的研究预览，通过深度整合大语言模型Gemini的语言与推理能力，实现从“单纯遵循指令”到“理解环境并互动”的核心突破。这款由Gemini 2...

多模态模型 # SIMA 2 # 谷歌 DeepMind

3个月前

0310

百度开源ERNIE-4.5-VL-28B-A3B-Thinking：3B活跃参数实现大型模型级多模态推理

百度正式开源 ERNIE-4.5-VL-28B-A3B-Thinking，一款专注于文档、图表与视频理解的多模态推理模型。尽管模型总参数达约 30B，但通过稀疏激活机制，每次推理仅激活 3B 参数...

多模态模型 # ERNIE-4.5-VL-28B-A3B-Thinking # 多模态推理 # 百度

3个月前

0270

商汤开源SenseNova-SI：面向空间智能的多模态模型

当前主流多模态基础模型在文本、图像理解、推理和生成任务上已取得显著进展，但在空间智能（Spatial Intelligence）方面仍存在系统性短板。具体表现为：对物体尺度、距离、比例的估计不准确 ...

多模态模型 # SenseNova-SI # 商汤 # 空间智能

3个月前

01140

加载更多

Mistral OCR 3 发布：手写、表格、低质量扫描件识别全面升级

Omni-View：通过生成任务增强3D场景理解的统一模型

Dolphin-v2：字节跳动发布支持21类元素的通用文档解析模型

智谱AI开源GLM-4.6V：128K上下文视觉语言模型，原生工具调用打通感知与执行链路

Mistral AI正式发布Mistral 3系列模型：开源多模态模型家族，覆盖从边缘到企业级场景

字节跳动发布Vidi2：攻克细粒度时空定位，视频检索性能领先GPT - 5

Meta AI发布SAM 3：支持文本/图像双提示，图像视频分割性能翻

腾讯开源HunyuanOCR：以1B参数覆盖9大场景，支持百种语言

谷歌发布 WeatherNext 2：AI 天气预报模型速度提升 8 倍，精准到小时级

谷歌 DeepMind 发布 SIMA 2：AI智能体首次在虚拟世界中“自我改进”

百度开源ERNIE-4.5-VL-28B-A3B-Thinking：3B活跃参数实现大型模型级多模态推理

商汤开源SenseNova-SI：面向空间智能的多模态模型

Clawdbot/Moltbot

Skills.sh

Situation Monitor

CutCut

新Awesome Clawdbot(Moltbot) Skills

Fogsight (雾象)

多模态模型

网址

Clawdbot/Moltbot

Skills.sh

Situation Monitor

CutCut

新Awesome Clawdbot(Moltbot) Skills

Fogsight (雾象)