GOT-OCR-2.0模型:专为识别和处理各种字符而设计的OCR模型

GOT-OCR 模型是一个参数量达 580M 的OCR系统,专为识别和处理各种字符而设计。该模型配备了高压缩编码器和长上下文解码器,能够精准处理各种场景和文档风格的图像。它支持多页和动态分辨率的 OCR,提升了其应用的广泛性。(官方详解

主要特点

  • 普通文本 OCR:从图像中提取文本信息。
  • 格式化文本 OCR:保留文本的原始排版格式,包括表格和公式。
  • 细粒度 OCR:提供基于区域和颜色的 OCR,以实现对特定区域的精确识别。
  • 多裁剪 OCR:能够识别图像内多个裁剪区域的文本。

支持的内容类型

  • 普通文本
  • 数学公式或化学分子结构式
  • 表格和图表
  • 乐谱
0

评论0

没有账号?注册  忘记密码?