东京大学推出基准测试MangaVQA和多模态漫画理解模型MangaLMM

159 0

东京大学的研究人员推出一个名为 MangaVQA 的基准测试和一个名为 MangaLMM 的专门模型，用于多模态漫画理解。漫画（Manga）是一种将图像和文本以复杂方式结合的叙事形式，理解漫画需要同时处理视觉和文本信息。MangaVQA 包含 526 个高质量的手工构建的问题-答案对，用于评估模型在多样化叙事和视觉场景中的上下文理解能力。

GitHub：https://github.com/manga109/MangaLMM
模型：https://huggingface.co/hal-utokyo/MangaLMM
Demo：https://huggingface.co/spaces/alfredplpl/MangaLMM-Demo

MangaLMM 是基于开源多模态模型 Qwen2.5-VL 微调而成的，专门用于处理漫画中的光学字符识别（OCR）和视觉问答（VQA）任务。通过广泛的实验，论文展示了 MangaLMM 在这两个任务上的表现，并与现有的专有模型（如 GPT-4o 和 Gemini 2.5）进行了比较。

主要功能

多模态漫画理解：通过 OCR 和 VQA 任务，评估模型对漫画的理解能力。
基准测试：提供 MangaOCR 和 MangaVQA 两个基准测试，分别用于评估漫画中的文本识别和上下文理解。
专门模型：开发 MangaLMM，一个专门用于漫画理解的模型，能够同时处理 OCR 和 VQA 任务。
合成数据生成：使用 GPT-4o 生成合成 VQA 数据，用于模型训练。

主要特点

多模态理解：MangaVQA 评估模型对漫画中视觉和文本信息的综合理解能力。
高质量基准：MangaVQA 包含 526 个手工构建的问题-答案对，覆盖多样化场景。
开源模型：MangaLMM 基于开源模型 Qwen2.5-VL 微调而成，易于复现和扩展。
合成数据：通过 GPT-4o 生成合成 VQA 数据，提高模型训练的多样性和质量。

工作原理

MangaOCR：通过检测和识别漫画中的文本内容（如对话和拟声词），评估模型的 OCR 能力。
MangaVQA：通过提出与漫画内容相关的问题，评估模型对漫画的上下文理解能力。
MangaLMM：基于 Qwen2.5-VL 微调，联合处理 OCR 和 VQA 任务。使用 MangaOCR 数据集进行 OCR 训练，使用合成 VQA 数据进行 VQA 训练。
合成数据生成：使用 GPT-4o 根据漫画图像和 OCR 注释生成合成 VQA 数据，提高训练数据的多样性和质量。