基于MiniCPM-V构建的开源端侧智能体大模型AgentCPM-GUI：，接受手机屏幕图像作为输入，自动执行用户提出的任务

多模态模型11个月前发布小马良

372 0

AgentCPM-GUI是由清华大学THUNLP实验室与面壁智能团队联合开发的开源端侧智能体大模型，基于MiniCPM-V构建，总参数量8B，接受手机屏幕图像作为输入，自动执行用户提出的任务。

GitHub：https://github.com/OpenBMB/AgentCPM-GUI
模型：https://huggingface.co/openbmb/AgentCPM-GUI

AgentCPM-GUI的主要特性包括：

高质量GUI Grounding：通过在大规模中英文Android数据集上进行预训练，有效提升了对常见GUI控件（如按钮、输入框、标签、图标等）的定位与理解能力；
中文APP操作能力：首个针对中文APP精细优化的开源GUI Agent，覆盖高德地图、大众点评、哔哩哔哩、小红书等30余个主流中文APP；
增强的规划推理能力：通过强化微调技术（RFT），让模型输出动作前进行推理思考，有效提升复杂任务执行的成功率；
紧凑的动作空间设计：采用优化的动作空间和紧凑的JSON格式，平均动作长度压缩至9.7个token，提升端侧推理的效率。

多模态模型 # AgentCPM-GUI # MiniCPM-V # 智能体大模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

商汤开源 SenseNova-MARS：多模态自主推理模型登顶 MMSearch 榜单

商汤开源 SenseNova-MARS：多模态自主推理模型登顶 MMSearch 榜单

多模态模型 # SenseNova-MARS # 商汤

2个月前

0660

英伟达推出面向文档理解的小而强视觉-语言模型 Llama Nemotron Nano VL

英伟达推出面向文档理解的小而强视觉-语言模型 Llama Nemotron Nano VL

多模态模型 # Llama Nemotron Nano VL # 英伟达

10个月前

03550

Nanonets 推出 Nanonets-OCR-s：首个面向 LLM 的结构化 OCR 模型

Nanonets 推出 Nanonets-OCR-s：首个面向 LLM 的结构化 OCR 模型

多模态模型 # Nanonets-OCR-s # OCR 模型

10个月前

03060

阿里巴巴推出 SmartResume：一个能“读懂”复杂简历版式的智能解析系统

阿里巴巴推出 SmartResume：一个能“读懂”复杂简历版式的智能解析系统

多模态模型 # SmartResume # 智能简历解析 # 阿里巴巴

5个月前

02090

暂无评论

none

暂无评论...