新视觉语言模型SmolDocling:以高效的方式实现端到端的多模态文档转换 在数字化时代,文档处理和理解是许多行业和研究领域的核心需求。从学术论文到商业报告,从技术手册到专利文件,文档的高效转换和理解对于信息提取、知识管理和自动化流程至关重要。然而,传统的文档处理方法往往依赖... 多模态模型# SmolDocling# 文档转换# 视觉语言模型 27分钟前000
谷歌Gemini 2.0 Flash重磅升级:原生多模态生成,图像编辑进入对话时代 谷歌在昨天除了发布了开源模型Gemma 3,还正式开放了Gemini 2.0 Flash的原生图像生成编辑功能,这款实验性模型凭借单模型多模态生成能力,正在重塑AI创作逻辑。相比传统需要「语言模型+扩... 多模态模型# Gemini 2.0 Flash# gemini-2.0-flash-exp# Gemma 3 4天前0210
谷歌推出"功能强大的图像安全检查器"ShieldGemma2 去年,谷歌发布了 ShieldGemma,这是一套基于 Gemma 2 构建的安全内容分类器模型,旨在检测 AI 模型文本输入和输出中的有害内容。今天,随着 Gemma 3 的亮相,谷歌宣布推出Shi... 多模态模型# Gemma 2# Gemma 3# ShieldGemma 2 5天前0320
阿里通义实验室开源R1-Omni:用强化学习解锁全模态大模型的新潜力 随着DeepSeek R1的发布,强化学习在大模型领域的潜力得到了进一步挖掘。Reinforcement Learning with Verifiable Reward(RLVR)方法为多模态任务提供... 多模态模型# R1-Omni# 全模态大模型# 强化学习 6天前0120
Cohere 推出多语言多模态视觉模型 Aya Vision:集成了语言和视觉功能,并支持多达 23 种语言的输入 加拿大 AI 初创公司 Cohere 于 2019 年成立,专注于为企业提供 AI 解决方案。尽管在与 OpenAI 和 Anthropic 等美国巨头的竞争中市场份额有限,且面临来自中国开源竞争对手... 多模态模型# Aya Vision# Cohere# 多模态视觉模型 2周前0270
艾伦AI研究所推出 olmOCR:高性能的 PDF 和文档图像文本提取工具包 艾伦AI研究所正式推出了 olmOCR,这是一款高性能的开源工具包,专为将 PDF 和文档图像转换为干净、结构化的纯文本而设计。 GitHub:https://github.com/allenai/o... 多模态模型# olmOCR# 艾伦AI研究所 2周前0280
Convergence 发布基于视觉语言模型(VLM)的迷你开源模型 Proxy Lite 在数字化时代,自动化与 Web 内容交互的需求日益增长。然而,现有的解决方案往往面临资源密集型、任务特定化以及缺乏透明性等问题。这些问题限制了它们的广泛适用性和社区参与度。 GitHub:https:... 多模态模型# Convergence# Proxy Lite# 视觉语言模型 3周前0340
微软研究院推出的多模态 AI 代理基础模型Magma Magma 是由微软研究院推出的一款面向多模态AI代理的基础模型,为一系列智能任务提供强大的支持。它不仅具备视觉-语言(VL)模型的理解能力(即语言智能),还拥有在视觉空间世界中规划和执行动作的能力(... 多模态模型# Magma# 多模态# 微软研究院 3周前0420
首个截图就能生成现代前端代码的多模态模型Flame 尽管前沿的多模态模型(如 GPT-4O)在代码生成上展现了强大的能力,但它们在真实的前端开发场景中仍无法满足现代前端工作流程的动态需求。这些模型虽然能够生成代码,但输出的前端代码通常是静态的,缺乏模块... 多模态模型# Flame# 前端代码# 多模态模型 3周前0370
Hugging Face 发布轻量级多模态模型SmolVLM2:专为视频内容分析而设计 Hugging Face 最新发布了一款轻量级多模态模型SmolVLM2,专为视频内容分析而设计。该模型以高效性和适应性为核心目标,旨在将视频理解能力扩展到从手机到服务器的各种设备上。SmolVLM2... 多模态模型# Hugging Face# SmolVLM2# 多模态模型 3周前0270
谷歌发布多语言视觉语言编码器SigLIP 2 今天,谷歌正式发布了 SigLIP 2——一个全新的多语言视觉语言编码器系列。SigLIP 2 在语义理解、定位和密集特征方面进行了显著改进,进一步提升了视觉语言模型的性能。 官方说明:https:/... 多模态模型# PaliGemma 2# SigLIP 2# 视觉编码器 3周前0450
谷歌推出PaliGemma 2 Mix:在混合视觉语言任务上进行微调的视觉语言模型版本,涵盖 OCR、长短字幕等多种任务 去年 12 月5日,谷歌发布了 PaliGemma 2,这是一个基于 SigLIP 和 Gemma 2 的新型预训练视觉语言模型(VLM)系列。这些模型提供了三种不同的尺寸(3B、10B、28B)和三... 多模态模型# PaliGemma 2 Mix# 视觉语言模型# 谷歌 4周前0440