Jina AI推出文本嵌入模型Jina Embeddings v4:多模态多语言检索的通用嵌入模型Jina AI正式发布 jina-embeddings-v4 —— 一款全新的38亿参数通用嵌入模型,支持文本与图像输入,适用于多种检索任务。该模型在多个基准测试中表现优异,特别是在处理表格、图表等视...多模态模型# Jina AI# Jina Embeddings v4# 文本嵌入模型5个月前02230
复旦联合团队发布首个统一多模态奖励模型UNIFIEDREWARD:图像视频都能评,还能优化视觉生成近日,由复旦大学、上海创新创意设计研究院、上海人工智能实验室和上海人工智能科学院组成的研究团队,正式发布了全球首个支持图像与视频理解与生成任务评估的统一奖励模型 —— UNIFIEDREWARD。 项...多模态模型# UNIFIEDREWARD# 统一多模态奖励模型6个月前02940
Kimi-VL-A3B-Thinking-2506 正式上线:更强推理、更高分辨率、支持视频理解两个月前,月之暗面推出了首个开源多模态推理模型 Kimi-VL-A3B-Thinking,如今他们正式推出其升级版本 Kimi-VL-A3B-Thinking-2506。 模型:https://hug...多模态模型# Kimi-VL-A3B-Thinking-2506# 多模态推理模型# 月之暗面6个月前03310
EmoNet:迈向真正“有情感”的AI,LAION开源新一代情感智能模型人工智能的发展正进入一个全新的阶段:从理解语言到理解情绪。尽管AI在语言处理、推理能力等方面取得了显著进展,但在情感智能(Affective Intelligence)这一维度上,仍然存在巨大空白。 ...多模态模型# EmoNet# LAION AI# 情感智能模型6个月前02300
Nanonets 推出 Nanonets-OCR-s:首个面向 LLM 的结构化 OCR 模型近日,Nanonets 宣布推出一款全新的 OCR 模型 Nanonets-OCR-s ——这是一款专为大语言模型(LLMs)设计的图像转 Markdown 工具,具备强大的文档理解与结构化输出能力...多模态模型# Nanonets-OCR-s# OCR 模型6个月前02540
Holo1:HCompany开源高性能视觉-语言模型,赋能Surfer-H代理实现精准网页交互Holo1 是由 HCompany 开发的一款专为网络代理系统设计的 动作视觉-语言模型(VLM),作为 Surfer-H 网络代理的核心组件之一,它具备像人类用户一样与网页界面交互的能力。 模型:h...多模态模型# Holo1# 视觉-语言模型6个月前02680
英伟达发布 Cosmos-Predict2:打造物理AI的世界基础模型在物理AI(Physical AI)系统的开发中,模拟真实世界的动态变化至关重要。为此,英伟达推出了 Cosmos-Predict2,作为其 Cosmos 世界模型 的最新演进版本,专为生成具有物理感...多模态模型# Cosmos-Predict2# 世界基础模型# 英伟达6个月前01970
Meta推出基于视频训练的“世界模型”V-JEPA 2:AI“世界模型”迈出理解物理世界的重要一步Meta 发布了其最新 AI 研究成果 —— V-JEPA 2,一个基于视频训练的“世界模型”,旨在帮助 AI 更好地理解现实世界的物理规律,并用于机器人控制、任务规划等复杂场景。 项目主页:http...多模态模型# Meta# V-JEPA 2# 世界模型6个月前02080
华科大联合金山办公推出文档解析新模型MonkeyOCR近日,华中科技大学与金山办公联合研究团队发布了一款全新的文档解析模型 —— MonkeyOCR。该模型通过引入“结构-识别-关系”(Structure-Recognition-Relation, SR...多模态模型# MonkeyOCR# 文档解析6个月前02380
微软提出 GUI-Actor:基于视觉语言模型的无坐标 GUI 定位新范式在构建基于视觉语言模型(VLM)的 GUI 代理系统中,一个关键挑战是如何准确理解屏幕上的视觉内容并定位应执行操作的区域。传统方法通常将此问题建模为“文本到坐标的生成”任务,即通过语言描述预测具体像素...多模态模型# GUI-Actor# 微软6个月前02730
英伟达推出面向文档理解的小而强视觉-语言模型 Llama Nemotron Nano VL英伟达正式发布了 Llama Nemotron Nano VL —— 一款专为高效处理复杂文档设计的轻量级视觉-语言模型(VLM)。该模型基于 Llama 3.1 架构构建,在保持高性能的同时兼顾推理...多模态模型# Llama Nemotron Nano VL# 英伟达6个月前02030
Hugging Face 推出轻量级机器人AI模型SmolVLA:可在MacBook运行随着AI与机器人技术的融合不断深入,构建个人机器人项目正变得前所未有的容易。近日,知名AI平台 Hugging Face 正式发布了其最新研发的机器人AI模型——SmolVLA,这一模型不仅小巧高效...多模态模型# Hugging Face# SmolVLA6个月前03050