GUI-Actor

在构建基于视觉语言模型（VLM）的 GUI 代理系统中，一个关键挑战是如何准确理解屏幕上的视觉内容并定位应执行操作的区域。传统方法通常将此问题建模为“文本到坐标的生成”任务，即通过语言描述预测具体像素...

10个月前

04020