InfiGUI-G1

在图形用户界面（GUI）自动化任务中，让多模态大语言模型（MLLM）准确执行自然语言指令，远不只是“点击坐标”那么简单。真正的挑战在于：既要精准定位界面上的元素（空间对齐），又要正确理解指令背后的意图...

8个月前

02340