多模态模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型

排序

发布更新浏览点赞

NEXA AI推出OmniNeural-4B：全球首个为 NPU 原生设计的多模态 AI 模型

当AI模型需要在手机、PC等终端设备上处理文本、图像、音频时，“速度慢、耗电高、依赖网络”往往是难以回避的问题——多数模型最初为GPU设计，移植到终端的NPU（神经网络处理单元）时需“强行适配”，导致...

4个月前

0730

快手 Keye 团队发布Keye-VL-1.5 ：支持 128K 上下文的视频理解大模型

在多模态大模型的竞争中，视频理解正成为下一个关键战场。相比图像，视频包含更丰富的时空信息——动作的起止、事件的因果、场景的演变。要让AI真正“看懂”一段视频，不仅需要识别画面内容，还要理解时间逻辑与行...

多模态模型 # Keye-VL-1.5 # 快手 # 视频理解大模型

3个月前

0690

字节跳动发布Vidi2：攻克细粒度时空定位，视频检索性能领先GPT - 5

字节跳动智能创作团队推出的第二代多模态视频模型Vidi2，凭借在时空定位、时间检索和视频问答三大核心能力上的突破，打破了传统视频模型在长视频理解和精细交互上的局限。该模型不仅在核心任务中实现对Gemi...

多模态模型 # Vidi2 # 多模态视频模型 # 字节跳动

2周前

0550

Mistral AI正式发布Mistral 3系列模型：开源多模态模型家族，覆盖从边缘到企业级场景

Mistral AI 正式推出新一代模型系列 Mistral 3，此次发布不仅包含适配边缘场景的 Ministral 3 系列小型密集模型，更带来了性能顶尖的稀疏专家混合模型 Mistral Larg...

多模态模型 # Mistral 3 # Mistral AI # Mistral Large 3

2周前

0260

谷歌发布 WeatherNext 2：AI 天气预报模型速度提升 8 倍，精准到小时级

谷歌DeepMind与Google Research联合发布全新AI天气预报模型WeatherNext 2，定位为“迄今最先进、最高效的全球天气预报解决方案”。该模型以“速度提升8倍、分辨率达小时级...

多模态模型 # WeatherNext 2 # 天气预报 # 谷歌

4周前

0200

谷歌 DeepMind 发布 SIMA 2：AI智能体首次在虚拟世界中“自我改进”

谷歌DeepMind发布通用AI智能体下一代产品SIMA 2的研究预览，通过深度整合大语言模型Gemini的语言与推理能力，实现从“单纯遵循指令”到“理解环境并互动”的核心突破。这款由Gemini 2...

多模态模型 # SIMA 2 # 谷歌 DeepMind

4周前

0200

新Dolphin-v2：字节跳动发布支持21类元素的通用文档解析模型

在办公自动化、知识管理与智能体工作流中，将非结构化文档转化为结构化数据是关键第一步。然而，现实中的文档来源复杂：既有干净的 PDF、Word，也有手机拍摄的带畸变、阴影、模糊的纸质文件。现有解析模型往...

多模态模型 # Dolphin-v2 # 字节跳动 # 文档解析模型

1天前

0160

百度飞桨发布 PaddleOCR-VL（0.9B）：轻量级端到端多语言文档解析模型

百度飞桨团队近日开源 PaddleOCR-VL（0.9B）——一款专为复杂版式文档智能解析设计的视觉语言模型（VLM）。该模型以仅 9亿参数的轻量级架构，实现了对文本、表格、数学公式、图表及手写体的高...

多模态模型 # PaddleOCR-VL # 文档解析模型

1个月前

0160

百度开源ERNIE-4.5-VL-28B-A3B-Thinking：3B活跃参数实现大型模型级多模态推理

百度正式开源 ERNIE-4.5-VL-28B-A3B-Thinking，一款专注于文档、图表与视频理解的多模态推理模型。尽管模型总参数达约 30B，但通过稀疏激活机制，每次推理仅激活 3B 参数...

多模态模型 # ERNIE-4.5-VL-28B-A3B-Thinking # 多模态推理 # 百度

1个月前

0140

腾讯开源HunyuanOCR：以1B参数覆盖9大场景，支持百种语言

在OCR领域常陷入“大参数换高性能”的内卷时，腾讯混元于11月25日开源的HunyuanOCR，以1B的轻量化参数实现了颠覆性突破。这款依托混元原生多模态架构打造的端到端OCR专家模型，不仅在多项权威...

多模态模型 # HunyuanOCR

2周前

0110

美团发布LongCat-Flash-Omni：开源全模态大模型的实时交互新标杆

美团 LongCat 团队近日开源了 LongCat-Flash-Omni —— 一款参数总量达 5600 亿、每 token 动态激活 270 亿参数的全模态大模型（Full-Modal LLM...

多模态模型 # LongCat-Flash-Omni # 美团

1个月前

0110

智谱AI开源GLM-4.6V：128K上下文视觉语言模型，原生工具调用打通感知与执行链路

智谱AI正式推出并开源 GLM-4.6V 系列多模态大语言模型，包含面向云端与高性能集群的 GLM-4.6V (106B) 基础模型，以及针对本地部署和低延迟场景优化的 GLM-4.6V-Flash ...

多模态模型 # GLM-4.6V # 智谱AI

3天前

080

加载更多

NEXA AI推出OmniNeural-4B：全球首个为 NPU 原生设计的多模态 AI 模型

快手 Keye 团队发布Keye-VL-1.5 ：支持 128K 上下文的视频理解大模型

字节跳动发布Vidi2：攻克细粒度时空定位，视频检索性能领先GPT - 5

Mistral AI正式发布Mistral 3系列模型：开源多模态模型家族，覆盖从边缘到企业级场景

谷歌发布 WeatherNext 2：AI 天气预报模型速度提升 8 倍，精准到小时级

谷歌 DeepMind 发布 SIMA 2：AI智能体首次在虚拟世界中“自我改进”

新Dolphin-v2：字节跳动发布支持21类元素的通用文档解析模型

百度飞桨发布 PaddleOCR-VL（0.9B）：轻量级端到端多语言文档解析模型

百度开源ERNIE-4.5-VL-28B-A3B-Thinking：3B活跃参数实现大型模型级多模态推理

腾讯开源HunyuanOCR：以1B参数覆盖9大场景，支持百种语言

美团发布LongCat-Flash-Omni：开源全模态大模型的实时交互新标杆

智谱AI开源GLM-4.6V：128K上下文视觉语言模型，原生工具调用打通感知与执行链路

Fogsight (雾象)

朱雀大模型检测

Grok

Tripo

Google AI Studio

Apple Wallpapers

多模态模型

网址

Fogsight (雾象)

朱雀大模型检测

Grok

Tripo

Google AI Studio

Apple Wallpapers