JarvisArt：由AI驱动的照片修饰智能体，释放你的艺术创造力

418 0

来自厦门大学、香港科技大学（广州）、字节跳动、新加坡国立大学等机构的研究人员联合推出了一项令人瞩目的新成果 —— JarvisArt。这是一个由多模态大语言模型（MLLM）驱动的照片修饰智能体，能够理解用户意图、模仿专业艺术家的创作思路，并协调 Adobe Lightroom 中超过 200 种工具，实现高质量、个性化的图像编辑效果。

项目主页：https://jarvisart.vercel.app
GitHub：https://github.com/LYL1015/JarvisArt

JarvisArt 不仅提升了图像修饰的效率，还降低了使用门槛，让普通用户也能轻松获得专业级的修饰结果，真正释放了人类的艺术创造力。

核心功能亮点

功能	描述
多模态输入理解	支持文本指令、边界框、笔刷描边等多种输入方式，精准识别用户需求
智能工具协调	自动选择并调用 Lightroom 中的专业工具，完成复杂修饰操作
专业级修饰效果	模仿艺术家推理过程，生成高质量、多样化的视觉效果
用户交互友好	支持自然语言交互，实时反馈修饰结果，便于调整与优化

如何工作？——三步实现智能修饰

1. 多模态上下文理解

JarvisArt 首先分析用户的图像内容与输入指令，识别出需要修改的关键区域和风格要求，例如“复古幻想风”、“柔和肤色”、“增强发丝细节”等。

2. 策略推理

基于摄影美学原则与用户意图，系统自动生成修饰计划，包括使用的工具类型、参数设定以及局部/全局调整策略。

3. 工具执行与输出

通过专为 Lightroom 设计的 Agent-to-Lightroom 协议，自动执行修饰流程，最终输出符合用户期望的专业级图像。

技术创新：两阶段训练框架

为了提升 JarvisArt 的决策能力与工具熟练度，研究人员设计了一种两阶段训练方法：

第一阶段：链式思维监督微调（Chain-of-Thought SFT）

通过模拟专业摄影师的思考路径，建立基础的推理能力与工具使用逻辑。

第二阶段：群体相对策略优化（GRPO-R）

在真实修饰任务中持续优化模型，使其更适应复杂场景下的多步骤决策，显著提升修饰质量与一致性。

数据支持：MMArt 数据集 + MMArt-Bench

JarvisArt 基于新构建的 MMArt 数据集（包含 55,000 条样本）进行训练，并在配套的 MMArt-Bench 上进行评估，结果显示：

在多个像素级指标上表现优于当前主流模型
相比 GPT-4o，在内容保真度方面提升了 60%
同时保持良好的指令遵循能力

此外，用户偏好测试表明，JarvisArt 的修饰结果在图像一致性与审美质量方面获得了高度认可。

主要优势总结

特点	说明
用户友好性	无需专业技能，通过自然语言即可完成复杂修饰任务
高度可定制化	支持对图像不同区域进行个性化调整，满足多样化需求
输出质量高	修饰效果接近专业人工处理，视觉表现优异
无缝集成Lightroom	可直接在 Adobe Lightroom 中使用，兼容性强，操作便捷