多模态模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

过程奖励模型WEB-SHEPHERD ：专门用于评估网络导航任务中的智能代理行为

延世大学和卡内基梅隆大学的研究人员推出一个名为 WEB-SHEPHERD 的过程奖励模型（PRM），专门用于评估网络导航任务中的智能代理行为。网络导航是一个复杂的领域，需要智能代理能够进行长期的序列决...

多模态模型 # WEB-SHEPHERD # 过程奖励模型

8个月前

02130

字节跳动推出多模态文档图像解析模型Dolphin

在复杂文档图像理解和结构化提取任务中，如何准确识别并组织交织的文本段落、公式、表格和图像，一直是业界的技术难点。 GitHub：https://github.com/bytedance/Dolphin...

多模态模型 # Dolphin # 多模态模型 # 字节跳动

7个月前

03770

新型统一多模态模型家族 BLIP3-o：同时支持图像理解和图像生成任务

Salesforce、马里兰大学、弗吉尼亚理工大学、纽约大学、华盛顿大学和加州大学戴维斯分校的研究人员推出新型统一多模态模型家族 BLIP3-o ，同时支持图像理解和图像生成任务。多模态模型是指能够处...

多模态模型 # BLIP3-o # 多模态模型

9个月前

02330

天工AI推出用于多模态理解和推理任务的多模态奖励模型Skywork-VL Reward

天工AI（Skywork AI）推出一个用于多模态理解和推理任务的多模态奖励模型Skywork-VL Reward，此模型是基于Qwen2.5-VL-7B-Instruct训练，Skywork-VL ...

多模态模型 # Skywork-VL Reward # 多模态奖励模型 # 天工AI

9个月前

03390

苹果推出高效视觉语言模型FastVLM：通过优化视觉编码器来提高模型在处理高分辨率图像任务时的效率和性能

苹果推出一种高效视觉语言模型FastVLM，旨在通过优化视觉编码器（Vision Encoder）来提高模型在处理高分辨率图像任务时的效率和性能。FastVLM的核心是其创新的视觉编码器 FastVi...

多模态模型 # FastVLM # 苹果 # 视觉语言模型

9个月前

02600

字节跳动推出专注于提升多模态理解与推理能力的视觉-语言基础模型Seed1.5-VL

字节跳动正式推出 Seed1.5-VL，这是一款专注于提升多模态理解与推理能力的视觉-语言基础模型。Seed1.5-VL 不仅在视觉和视频理解任务中表现出色，还在智能体相关任务及复杂推理挑战中展现了卓...

多模态模型 # Seed1.5-VL # 字节跳动 # 视觉-语言基础模型

9个月前

04190

基于MiniCPM-V构建的开源端侧智能体大模型AgentCPM-GUI：，接受手机屏幕图像作为输入，自动执行用户提出的任务

AgentCPM-GUI是由清华大学THUNLP实验室与面壁智能团队联合开发的开源端侧智能体大模型，基于MiniCPM-V构建，总参数量8B，接受手机屏幕图像作为输入，自动执行用户提出的任务。 Git...

多模态模型 # AgentCPM-GUI # MiniCPM-V # 智能体大模型

9个月前

03440