多模态模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

Sber AI 推出新一代多模态生成模型Kandinsky 4.0：包含3个视频生成模型（T2V、T2V Flash、I2V）和一个视频生成音频模型（V2A）

去年，在 AI Journey 2023 大会上，Sber AI 推出了两款引人注目的模型：用于图像生成的 Kandinsky 3.0 和俄罗斯首个文本到视频生成模型 Kandinsky Video...

多模态模型 # Kandinsky 4.0

12个月前

03650

深度求索推出开源视觉模型DeepSeek-VL2 ：支持动态分辨率、处理科研图表、解析各种梗图等

DeepSeek-VL2 是由深度求索（DeepSeek-AI）推出的一系列先进混合专家（MoE, Mixture of Experts）视觉语言模型，旨在显著提升其前代产品 DeepSeek-VL ...

多模态模型 # DeepSeek-VL 2 # 深度求索

12个月前

02780

Meta推出多模态模型Apollo：擅长处理长视频，能够在长达一小时的视频中保持高效的理解能力

尽管视频感知能力已经迅速集成到大型多模态模型（LMMs）中，但其驱动视频理解的基本机制仍未被充分理解。这导致了许多设计决策缺乏适当的理由或分析，尤其是在训练和评估这些模型时，高昂的计算成本和有限的开放...

多模态模型 # Apollo # Meta # 多模态模型

12个月前

03040

无问芯穹推出全球首个端侧全模态理解开源模型Megrez-3B-Omni

12月16日，无问芯穹宣布正式开源其“端模型+端软件+端IP”端上智能一体化解决方案中的小模型——Megrez-3B-Omni，以及纯语言版本模型 Megrez-3B-Instruct。这一举措标志着...

多模态模型 # Megrez-3B-Omni # 无问芯穹

12个月前

02690

阿里通义团队为大家送上圣诞节大礼，开源全球首个视觉推理模型 QVQ-72B-Preview

阿里通义团队为大家送上圣诞节大礼，开源了第一个视觉推理模型QVQ，其中V代表视觉。它只需读取一张图像和一个指令，开始思考，适时反思，持续推理，最终自信地生成预测！然而，它仍处于实验阶段，这个预览版本仍...

多模态模型 # QVQ-72B-Preview # 视觉推理模型 # 阿里通义

12个月前

03210

CogAgent-9B-20241220：基于视觉语言模型的开源 GUI agent 模型

图形用户界面（GUI）是用户与软件交互的核心。然而，构建能够有效导航GUI的智能代理一直是一个持续的挑战。传统方法在适应性方面存在不足，尤其是在处理复杂布局或GUI频繁变化时，这些问题限制了自动化GU...

多模态模型 # CogAgent-9B-20241220

12个月前

02720

英伟达推出世界基础模型平台NVIDIA Cosmos ：帮助物理 AI 开发人员更好、更快地构建物理 AI 系统

英伟达在CES2025上宣布推出 NVIDIA Cosmos 平台，该平台包含先进的世界基础生成模型、高级分词器、防护栏和加速视频处理管道，旨在推动自动驾驶汽车（AV）和机器人等物理 AI 系统的发展...

多模态模型 # NVIDIA Cosmos # 世界模型 # 英伟达

12个月前

03550

高效大型多模态模型LLaVA-Mini：通过最小化视觉令牌（vision tokens）的数量来提高模型的计算效率和响应速度

中国科学院计算技术研究所智能信息处理重点实验室（ICT/CAS）、中国科学院人工智能安全重点实验室和中国科学院大学的研究人员推出高效大型多模态模型LLaVA-Mini，旨在通过最小化视觉令牌（visi...

多模态模型 # LLaVA-Mini # 多模态模型

12个月前

02880

新型多模态大语言模型Sa2VA：将 SAM2 与 LLaVA相结合，实现对图像和视频的深入理解

加州大学默塞德分校、字节跳动、武汉大学和北京大学的研究人员推出新型多模态大语言模型Sa2VA，它将SAM-2视频分割模型与LLaVA视觉-语言模型相结合，实现了对图像和视频的密集、基于语义的理解。Sa...

多模态模型 # Sa2VA # 多模态大语言模型

12个月前

02740

壁智能推出MiniCPM-o 2.6：手机上的 GPT-4o 级多模态大模型，可实时语音通话和视频通话

MiniCPM-o 2.6 是面壁智能推出的 MiniCPM-o 系列中最新且功能最强大的模型。该模型基于 SigLip-400M、Whisper-medium-300M、ChatTTS-200M 和...

多模态模型 # MiniCPM-o 2.6 # 壁智能 # 视频通话

12个月前

03210

设计灵感来源于PaLI-3！谷歌推出开源视觉语言模型PaliGemma

PaliGemma 是谷歌推出的新一代视觉语言模型家族，其设计灵感来源于PaLI-3，能够接收图像与文本输入并生成文本输出。PaliGemma建立在包括SigLIP视觉模型和Gemma语言模型在内的开...

多模态模型 # PaliGemma # 谷歌

12个月前

06530

Hugging Face发布号称同类最小的多模态模型SmolVLM系列

Hugging Face团队最近发布了两款名为SmolVLM-256M和SmolVLM-500M的新模型，它们被宣称为能够分析图像、短视频以及文本的最小AI模型。这两款模型特别设计用于在资源受限的设备...

多模态模型 # Hugging Face # SmolVLM

12个月前

02720

加载更多

Sber AI 推出新一代多模态生成模型Kandinsky 4.0：包含3个视频生成模型（T2V、T2V Flash、I2V）和一个视频生成音频模型（V2A）

深度求索推出开源视觉模型DeepSeek-VL2 ：支持动态分辨率、处理科研图表、解析各种梗图等

Meta推出多模态模型Apollo：擅长处理长视频，能够在长达一小时的视频中保持高效的理解能力

无问芯穹推出全球首个端侧全模态理解开源模型Megrez-3B-Omni

阿里通义团队为大家送上圣诞节大礼，开源全球首个视觉推理模型 QVQ-72B-Preview

CogAgent-9B-20241220：基于视觉语言模型的开源 GUI agent 模型

英伟达推出世界基础模型平台NVIDIA Cosmos ：帮助物理 AI 开发人员更好、更快地构建物理 AI 系统

高效大型多模态模型LLaVA-Mini：通过最小化视觉令牌（vision tokens）的数量来提高模型的计算效率和响应速度

新型多模态大语言模型Sa2VA：将 SAM2 与 LLaVA相结合，实现对图像和视频的深入理解

壁智能推出MiniCPM-o 2.6：手机上的 GPT-4o 级多模态大模型，可实时语音通话和视频通话

设计灵感来源于PaLI-3！谷歌推出开源视觉语言模型PaliGemma

Hugging Face发布号称同类最小的多模态模型SmolVLM系列

新QoderWork

OpenClaw（Clawdbot/Moltbot）

Situation Monitor

Skills.sh

中国科技云数据胶囊

ITELLOU

多模态模型

网址

新QoderWork

OpenClaw（Clawdbot/Moltbot）

Situation Monitor

Skills.sh

中国科技云数据胶囊

ITELLOU