多模态模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

Kimi-VL-A3B-Thinking-2506 正式上线：更强推理、更高分辨率、支持视频理解

两个月前，月之暗面推出了首个开源多模态推理模型 Kimi-VL-A3B-Thinking，如今他们正式推出其升级版本 Kimi-VL-A3B-Thinking-2506。模型：https://hug...

9个月前

03820

EmoNet：迈向真正“有情感”的AI，LAION开源新一代情感智能模型

人工智能的发展正进入一个全新的阶段：从理解语言到理解情绪。尽管AI在语言处理、推理能力等方面取得了显著进展，但在情感智能（Affective Intelligence）这一维度上，仍然存在巨大空白。 ...

多模态模型 # EmoNet # LAION AI # 情感智能模型

9个月前

03070

Nanonets 推出 Nanonets-OCR-s：首个面向 LLM 的结构化 OCR 模型

近日，Nanonets 宣布推出一款全新的 OCR 模型 Nanonets-OCR-s ——这是一款专为大语言模型（LLMs）设计的图像转 Markdown 工具，具备强大的文档理解与结构化输出能力...

多模态模型 # Nanonets-OCR-s # OCR 模型

9个月前

02950

Holo1：HCompany开源高性能视觉-语言模型，赋能Surfer-H代理实现精准网页交互

Holo1 是由 HCompany 开发的一款专为网络代理系统设计的动作视觉-语言模型（VLM），作为 Surfer-H 网络代理的核心组件之一，它具备像人类用户一样与网页界面交互的能力。模型：h...

多模态模型 # Holo1 # 视觉-语言模型

9个月前

03310

英伟达发布 Cosmos-Predict2：打造物理AI的世界基础模型

在物理AI（Physical AI）系统的开发中，模拟真实世界的动态变化至关重要。为此，英伟达推出了 Cosmos-Predict2，作为其 Cosmos 世界模型的最新演进版本，专为生成具有物理感...

多模态模型 # Cosmos-Predict2 # 世界基础模型 # 英伟达

9个月前

02960

Meta推出基于视频训练的“世界模型”V-JEPA 2：AI“世界模型”迈出理解物理世界的重要一步

Meta 发布了其最新 AI 研究成果 —— V-JEPA 2，一个基于视频训练的“世界模型”，旨在帮助 AI 更好地理解现实世界的物理规律，并用于机器人控制、任务规划等复杂场景。项目主页：http...

多模态模型 # Meta # V-JEPA 2 # 世界模型

9个月前

02190

华科大联合金山办公推出文档解析新模型MonkeyOCR

近日，华中科技大学与金山办公联合研究团队发布了一款全新的文档解析模型 —— MonkeyOCR。该模型通过引入“结构-识别-关系”（Structure-Recognition-Relation, SR...

多模态模型 # MonkeyOCR # 文档解析

9个月前

02460

微软提出 GUI-Actor：基于视觉语言模型的无坐标 GUI 定位新范式

在构建基于视觉语言模型（VLM）的 GUI 代理系统中，一个关键挑战是如何准确理解屏幕上的视觉内容并定位应执行操作的区域。传统方法通常将此问题建模为“文本到坐标的生成”任务，即通过语言描述预测具体像素...

多模态模型 # GUI-Actor # 微软

9个月前

03850

英伟达推出面向文档理解的小而强视觉-语言模型 Llama Nemotron Nano VL

英伟达正式发布了 Llama Nemotron Nano VL —— 一款专为高效处理复杂文档设计的轻量级视觉-语言模型（VLM）。该模型基于 Llama 3.1 架构构建，在保持高性能的同时兼顾推理...

多模态模型 # Llama Nemotron Nano VL # 英伟达

9个月前

03390

Hugging Face 推出轻量级机器人AI模型SmolVLA：可在MacBook运行

随着AI与机器人技术的融合不断深入，构建个人机器人项目正变得前所未有的容易。近日，知名AI平台 Hugging Face 正式发布了其最新研发的机器人AI模型——SmolVLA，这一模型不仅小巧高效...

多模态模型 # Hugging Face # SmolVLA

9个月前

04160

SignGemma：谷歌推出全球最强手语翻译模型，为听障人群打开沟通新通道

谷歌近日宣布推出全新 AI 模型 SignGemma，作为 Gemma 家族的新成员，它专注于将手语（尤其是美式手语 ASL）翻译成英文文本或语音输出，是目前最强大的开源手语理解模型之一。 SignG...

多模态模型 # SignGemma # 手语翻译模型

9个月前

01660

像素空间推理视觉语言模型Pixel Reasoner：引入像素空间推理的概念，显著提升了视觉语言模型在视觉密集型任务中的表现

中国科学技术大学、香港科技大学和滑铁卢大学的研究人员推出基于 Qwen2 的开源视觉语言模型Pixel Reasoner，它通过引入像素空间推理（pixel-space reasoning）的概念，显...

多模态模型 # Pixel Reasoner # 视觉语言模型

9个月前

03190

加载更多

Kimi-VL-A3B-Thinking-2506 正式上线：更强推理、更高分辨率、支持视频理解

EmoNet：迈向真正“有情感”的AI，LAION开源新一代情感智能模型

Nanonets 推出 Nanonets-OCR-s：首个面向 LLM 的结构化 OCR 模型

Holo1：HCompany开源高性能视觉-语言模型，赋能Surfer-H代理实现精准网页交互

英伟达发布 Cosmos-Predict2：打造物理AI的世界基础模型

Meta推出基于视频训练的“世界模型”V-JEPA 2：AI“世界模型”迈出理解物理世界的重要一步

华科大联合金山办公推出文档解析新模型MonkeyOCR

微软提出 GUI-Actor：基于视觉语言模型的无坐标 GUI 定位新范式

英伟达推出面向文档理解的小而强视觉-语言模型 Llama Nemotron Nano VL

Hugging Face 推出轻量级机器人AI模型SmolVLA：可在MacBook运行

SignGemma：谷歌推出全球最强手语翻译模型，为听障人群打开沟通新通道

像素空间推理视觉语言模型Pixel Reasoner：引入像素空间推理的概念，显著提升了视觉语言模型在视觉密集型任务中的表现

S.H.I.T

WorkBuddy

QClaw

新ArkClaw

新AutoClaw

Joker of Academics（小丑学术期刊）

多模态模型

网址

S.H.I.T

WorkBuddy

QClaw

新ArkClaw

新AutoClaw

Joker of Academics（小丑学术期刊 ）

Joker of Academics（小丑学术期刊）