Visual SKETCHPAD 框架：为多模态语言模型提供一个可视化的“草图板”，使其能够在解决问题时生成中间草图并进行推理

447 0

华盛顿大学、艾伦人工智能研究所和宾夕法尼亚大学的研究人员推出Visual SKETCHPAD 框架，为多模态语言模型（LMs）提供一个可视化的“草图板”，使其能够在解决问题时生成中间草图并进行推理。这一框架的核心思想是模拟人类在解决复杂问题时使用草图辅助思考的行为，例如在解决几何问题时画辅助线、在地图上做标记等。通过这种方式，SKETCHPAD 帮助多模态语言模型更好地进行视觉和语言的结合推理。

项目主页：https://visualsketchpad.github.io
GitHub：https://github.com/Yushi-Hu/VisualSketchpad

例如，在解决几何问题时，SKETCHPAD 可以让模型画出辅助线来帮助证明三角形内角和为 180°（如图 1a 所示）。在处理图像中的视觉问题时，SKETCHPAD 可以让模型生成深度图或分割图来辅助分析（如图 1b 所示）。这些草图作为中间推理步骤，能够显著提升模型的性能。

主要功能

生成中间草图：SKETCHPAD 允许多模态语言模型在解决问题时生成各种草图，如几何图形中的辅助线、函数图像、图像分割图、深度图等。
结合视觉模型：SKETCHPAD 可以调用专门的视觉模型（如目标检测、分割、深度估计等），并将这些模型的输出作为草图的一部分，进一步增强视觉感知和推理能力。
多模态推理：SKETCHPAD 通过生成草图，将语言和视觉信息结合起来，帮助模型更好地进行复杂任务的推理，如几何问题求解、图像分析、棋局策略分析等。

主要特点

无需额外训练：SKETCHPAD 不需要对现有的多模态语言模型进行微调或训练，可以直接通过提示（prompt）的方式让模型使用草图进行推理。
灵活性高：模型可以根据生成的草图动态调整推理计划，而不是按照预定义的计划执行，这使得 SKETCHPAD 在处理复杂任务时更加灵活和鲁棒。
提升性能显著：实验表明，SKETCHPAD 在多种数学和视觉任务上都能显著提升模型的性能，平均提升幅度在 10% 以上，并在多个基准测试中达到了新的最高水平。

工作原理

SKETCHPAD 的工作原理基于一个迭代的交互过程，主要包括以下三个步骤：

思考（Thought）：模型分析当前的上下文（包括问题、之前的思考、动作和观察结果），生成下一步的思考计划。例如，在几何问题中，模型可能会计划画一条辅助线。
行动（Action）：根据思考计划，模型执行一个动作，如生成 Python 代码来绘制草图。这些代码会被编译并执行，生成新的图像或文本输出。
观察（Observation）：模型观察执行动作后的结果（如新生成的草图），并更新上下文。然后重复上述过程，直到模型认为已经收集到足够的信息来回答问题。

具体应用场景

数学问题求解：
- 几何问题：通过画辅助线帮助解决几何证明问题。
- 函数分析：绘制函数图像来判断函数的奇偶性或凸凹性。
- 图论问题：绘制图结构来判断图的连通性或最大流。
- 棋局分析：绘制棋盘来分析棋局策略。
视觉任务：
- 深度估计：生成深度图来判断物体的相对位置。
- 目标检测：在图像上画出目标的边界框，帮助模型更好地理解图像内容。
- 图像分割：通过分割图来分析图像中不同物体的关系。
- 视觉对应关系：通过标记和对比来找出图像中对应点或区域。