多模态问答系统Lumos:结合场景文本识别和多模态大语言模型 来自Meta Reality Labs的研究人员推出了多模态问答系统Lumos,这是一个结合了场景文本识别(Scene Text Recognition, STR)和多模态大语言模型(Multimod... 新技术# Lumos# 场景文本识别# 多模态大语言模型 1年前04030