Thyme：会生成代码的多模态模型，突破“图像思考”边界

125 0

由快手联合中科院自动化所、南京大学、清华大学、中国科学技术大学共同研发的Thyme，重新定义了视觉多模态模型的能力边界。它不再局限于传统的“用图像思考”，而是通过自主生成、执行代码，完成多样化的图像处理与计算操作，让高分辨率感知、复杂推理等难题有了更高效的解决路径。

项目主页：https://thyme-vl.github.io
GitHub：https://github.com/yfzhang114/Thyme
模型：https://huggingface.co/collections/Kwai-Keye/thyme-689ebea74a628c3a9b7bd789

比如面对“识别图像中极小区域文字”这类需求，普通模型可能因目标过小直接识别失败，而Thyme会先分析问题，自动生成“图像放大+精准裁剪”的执行代码，优化图像后再进行识别——整个过程无需人工干预，像给模型配备了“自主解题的工具箱”。

Thyme的全称是“Think Beyond Images”，从命名就能看出其核心突破：它是一款具备代码生成与执行能力的多模态大语言模型（MLLM） 。

传统视觉多模态模型的逻辑是“输入图像→直接分析”，面对高分辨率图像的细节丢失、复杂场景的信息干扰时，很容易出现判断偏差；而Thyme的逻辑是“输入需求→分析问题→生成代码→优化处理→输出结果”，通过代码这一“中间工具”，填补了“感知”与“精准解决”之间的差距。

支持裁剪、缩放、旋转、对比度增强等常用操作，还能根据图像问题动态组合操作——比如处理倾斜的低清文档时，会先生成“旋转校正”代码，再执行“对比度增强”，最后通过“裁剪”聚焦有效区域，为后续分析扫清障碍。

面对需要计算的问题（如“图像中两个目标的实际距离”“工程图纸中的尺寸换算”），Thyme会将数学逻辑转化为可执行代码，通过代码运算替代模型“主观判断”，大幅降低复杂推理中的误差。

模型会先评估需求与图像的匹配度：若图像清晰、问题简单，直接输出结果；若存在“目标过小”“角度倾斜”“计算复杂”等问题，会自主决定需要执行的操作类型，甚至规划多步操作的顺序。

通过“监督微调（SFT）+强化学习（RL）”的组合训练模式，无需漫长训练周期即可激活核心能力——仅需200 GPU小时的SFT训练，就能让模型掌握基础的代码生成与图像处理逻辑，后续RL阶段再进一步优化精度。

区别于需要人工指定操作的工具型模型，Thyme的核心优势在于“自主”：无需提前设定处理规则，模型会根据问题场景动态生成代码、执行操作，全程无需人工介入，适配更复杂的未知场景。

传统多模态模型要覆盖“图像处理+代码生成+推理”等多能力，往往需要数千GPU小时的训练；而Thyme通过精心设计的两阶段训练，仅用200 GPU小时完成SFT阶段，再通过RL阶段优化，大幅降低了训练成本与时间。

在感知、推理、一般任务三大类近20个基准测试中，Thyme均表现出“一致且显著”的提升：高分辨率感知任务性能超现有方法25%以上，数学推理任务优于开源模型，即便是对综合能力要求高的一般任务，也能保持稳定优势。

能根据问题复杂度动态调整策略：简单问题直接处理，复杂问题调用工具，甚至在单次任务中完成“裁剪+缩放+旋转”的多步操作；遇到未见过的场景时，也能通过代码定义新工具，避免“能力边界局限”。

Thyme的能力不是凭空而来，而是依赖“数据+算法”的双重支撑，核心分为两个训练阶段：

数据支撑：使用包含500K样本的精心标注数据集，覆盖6大核心场景：无需编码的基础图像操作、高分辨率图像裁剪、大角度旋转校正、低对比度增强、复杂代码计算、多轮交互任务；
训练目标：让模型掌握“问题分析→代码生成→操作执行”的基本逻辑，能应对常见场景的需求，为后续优化打下基础。

难度升级：手动收集高分辨率问答对，增加训练难度（如“从4K监控图中识别远处车牌”），逼迫模型优化处理策略；
核心算法GRPO-ATS：这是Thyme的关键创新——通过“自适应温度采样”，为“文本生成”和“代码生成”设置不同的“探索系数”：文本生成保留一定灵活性以应对多样需求，代码生成则降低随机性以确保执行精度，最终实现“推理不僵化、代码不报错”的平衡。