基于MiniCPM-V构建的开源端侧智能体大模型AgentCPM-GUI:,接受手机屏幕图像作为输入,自动执行用户提出的任务

多模态模型1个月前发布 小马良
93 0

AgentCPM-GUI是由清华大学THUNLP实验室与面壁智能团队联合开发的开源端侧智能体大模型,基于MiniCPM-V构建,总参数量8B,接受手机屏幕图像作为输入,自动执行用户提出的任务。

基于MiniCPM-V构建的开源端侧智能体大模型AgentCPM-GUI:,接受手机屏幕图像作为输入,自动执行用户提出的任务

AgentCPM-GUI的主要特性包括:

  • 高质量GUI Grounding:通过在大规模中英文Android数据集上进行预训练,有效提升了对常见GUI控件(如按钮、输入框、标签、图标等)的定位与理解能力;
  • 中文APP操作能力:首个针对中文APP精细优化的开源GUI Agent,覆盖高德地图、大众点评、哔哩哔哩、小红书等30余个主流中文APP;
  • 增强的规划推理能力:通过强化微调技术(RFT),让模型输出动作前进行推理思考,有效提升复杂任务执行的成功率;
  • 紧凑的动作空间设计:采用优化的动作空间和紧凑的JSON格式,平均动作长度压缩至9.7个token,提升端侧推理的效率。
© 版权声明

相关文章

暂无评论

none
暂无评论...