让大模型真正“看懂”界面:InfiGUI-G1提升 GUI 操作中的语义理解能力在图形用户界面(GUI)自动化任务中,让多模态大语言模型(MLLM)准确执行自然语言指令,远不只是“点击坐标”那么简单。真正的挑战在于:既要精准定位界面上的元素(空间对齐),又要正确理解指令背后的意图...多模态模型# InfiGUI-G14个月前01700