多模态模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

苹果推出高效视觉语言模型FastVLM：通过优化视觉编码器来提高模型在处理高分辨率图像任务时的效率和性能

苹果推出一种高效视觉语言模型FastVLM，旨在通过优化视觉编码器（Vision Encoder）来提高模型在处理高分辨率图像任务时的效率和性能。FastVLM的核心是其创新的视觉编码器 FastVi...

多模态模型 # FastVLM # 苹果 # 视觉语言模型

10个月前

02810

字节跳动推出专注于提升多模态理解与推理能力的视觉-语言基础模型Seed1.5-VL

字节跳动正式推出 Seed1.5-VL，这是一款专注于提升多模态理解与推理能力的视觉-语言基础模型。Seed1.5-VL 不仅在视觉和视频理解任务中表现出色，还在智能体相关任务及复杂推理挑战中展现了卓...

多模态模型 # Seed1.5-VL # 字节跳动 # 视觉-语言基础模型

10个月前

05130

基于MiniCPM-V构建的开源端侧智能体大模型AgentCPM-GUI：，接受手机屏幕图像作为输入，自动执行用户提出的任务

AgentCPM-GUI是由清华大学THUNLP实验室与面壁智能团队联合开发的开源端侧智能体大模型，基于MiniCPM-V构建，总参数量8B，接受手机屏幕图像作为输入，自动执行用户提出的任务。 Git...

多模态模型 # AgentCPM-GUI # MiniCPM-V # 智能体大模型

10个月前

03680

多模态模型RoboBrain：让机器人从抽象指令到具体操作的多模态大脑

近年来，多模态大语言模型（MLLMs）在多种场景中展现了卓越的能力，但在机器人领域，尤其是在长时段复杂操作任务中，其表现仍存在显著局限性。这些局限主要源于当前 MLLMs 缺乏三种关键能力：规划能力...

多模态模型 # RoboBrain # 多模态模型 # 机器人

10个月前

02440

专为乐高设计的大模型LegoGPT：通过简单的文本输入生成独特的乐高设计

卡内基梅隆大学的研究团队推出了一款名为 LegoGPT 的AI模型，它能够通过简单的文本输入生成独特的乐高设计。这一工具不仅展示了AI在创意领域的潜力，还为乐高爱好者提供了一个全新的设计方式。项目主...

多模态模型 # LegoGPT # 乐高

10个月前

02010

Watermark-Detection-SigLIP2：高效检测图像水印的视觉语言模型

在数字内容管理中，水印检测是一项关键任务。无论是内容审核、数据集清理，还是版权保护，快速准确地识别图像中的水印都能显著提升工作效率。Watermark-Detection-SigLIP2 是一款基于谷...

多模态模型 # Watermark-Detection-SigLIP2 # 水印检测

11个月前

05550

阿里Qwen团队发布端到端多模态模型Qwen2.5-Omni-3B

阿里Qwen团队在发布Qwen3系列模型后，又推出Qwen2.5-Omni系列的一个新模型Qwen2.5-Omni-3B，这是一个端到端多模态模型，能够无缝处理文本、图像、音频和视频等多种输入形式，并...

多模态模型 # Qwen # Qwen2.5-Omni-3B # 阿里巴巴

11个月前

04600

天工AI推出多模态推理模型 Skywork R1V2：引入混合强化学习框架，提升模型在复杂推理和通用视觉理解任务中的表现

多模态模型的快速发展为通用人工智能（AGI）的实现铺平了道路，但如何在保持跨任务泛化能力的同时提升专业推理能力，仍然是一个关键挑战。近期，天工AI（Skywork AI）推出了下一代多模态推理模型 S...

多模态模型 # Skywork R1V2 # 多模态推理模型 # 天工AI

11个月前

04500

基于 Qwen2-VL-7B 开发的实时视频理解大模型LiveCC：快速分析视频内容，并同步生成自然流畅的语音或文字解说

新加坡国立大学和字节跳动的研究人员推出基于 Qwen2-VL-7B 开发的实时视频理解大模型LiveCC，能够像专业解说员一样快速分析视频内容，并同步生成自然流畅的语音或文字解说。特别适合需要即时反馈...

多模态模型 # LiveCC # Qwen2-VL-7B # 视频理解大模型

11个月前

03680

Meta AI推出一款通过单一对比学习目标训练的通用视觉编码器Perception Encoder

随着AI系统逐渐向多模态方向发展，视觉感知模型的角色也变得更加复杂。传统的视觉编码器通常针对特定任务进行优化，例如图像分类、目标检测或语言生成，但这种碎片化的方法不仅增加了模型的复杂性，还限制了其在开...

多模态模型 # Meta AI # Perception Encoder # 感知编码器

11个月前

03860

TNG科技微调 olmOCR推出olmOCR-7B-faithful：更忠实的 OCR 模型，适用于业务场景中的全面信息提取

光学字符识别（OCR）技术在文档数字化和信息提取领域扮演着重要角色。然而，传统的基于流水线的 OCR 系统虽然功能强大，却常常因无法处理复杂布局而受到限制。最近，艾伦人工智能研究所推出的 olmOCR...

多模态模型 # olmOCR # olmOCR-7B-faithful

11个月前

02380

字节跳动推出多模态模型Vidi：专门用于视频理解和编辑

字节跳动推出多模态模型Vidi，专门用于视频理解和编辑。Vidi 的主要目标是支持高质量、大规模视频内容的创作，通过处理原始输入材料（如未编辑的视频片段）和编辑组件（如视觉效果），帮助用户更高效地完成...

多模态模型 # Vidi # 多模态模型 # 字节跳动

11个月前

02290

加载更多

苹果推出高效视觉语言模型FastVLM：通过优化视觉编码器来提高模型在处理高分辨率图像任务时的效率和性能

字节跳动推出专注于提升多模态理解与推理能力的视觉-语言基础模型Seed1.5-VL

基于MiniCPM-V构建的开源端侧智能体大模型AgentCPM-GUI：，接受手机屏幕图像作为输入，自动执行用户提出的任务

多模态模型RoboBrain：让机器人从抽象指令到具体操作的多模态大脑

专为乐高设计的大模型LegoGPT：通过简单的文本输入生成独特的乐高设计

Watermark-Detection-SigLIP2：高效检测图像水印的视觉语言模型

阿里Qwen团队发布端到端多模态模型Qwen2.5-Omni-3B

天工AI推出多模态推理模型 Skywork R1V2：引入混合强化学习框架，提升模型在复杂推理和通用视觉理解任务中的表现

基于 Qwen2-VL-7B 开发的实时视频理解大模型LiveCC：快速分析视频内容，并同步生成自然流畅的语音或文字解说

Meta AI推出一款通过单一对比学习目标训练的通用视觉编码器Perception Encoder

TNG科技微调 olmOCR推出olmOCR-7B-faithful：更忠实的 OCR 模型，适用于业务场景中的全面信息提取

字节跳动推出多模态模型Vidi：专门用于视频理解和编辑

S.H.I.T

新悟空

新OpenMAIC

Meshy

Yihen-Drama

TapNow

多模态模型

网址

S.H.I.T

新悟空

新OpenMAIC

Meshy

Yihen-Drama

TapNow