GOT-OCR-2.0模型：专为识别和处理各种字符而设计的OCR模型

多模态模型1年前更新小马良

464 0

GOT-OCR 模型是一个参数量达 580M 的OCR系统，专为识别和处理各种字符而设计。该模型配备了高压缩编码器和长上下文解码器，能够精准处理各种场景和文档风格的图像。它支持多页和动态分辨率的 OCR，提升了其应用的广泛性。（官方详解）

GitHub：https://github.com/Ucas-HaoranWei/GOT-OCR2.0
模型：https://huggingface.co/stepfun-ai/GOT-OCR2_0
Demo：https://modelscope.cn/studios/stepfun-ai/GOT_official_online_demo

主要特点

普通文本 OCR：从图像中提取文本信息。
格式化文本 OCR：保留文本的原始排版格式，包括表格和公式。
细粒度 OCR：提供基于区域和颜色的 OCR，以实现对特定区域的精确识别。
多裁剪 OCR：能够识别图像内多个裁剪区域的文本。

支持的内容类型

普通文本
数学公式或化学分子结构式
表格和图表
乐谱

多模态模型 # GOT-OCR-2.0 # OCR模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

字节跳动发布Vidi2：攻克细粒度时空定位，视频检索性能领先GPT - 5

字节跳动发布Vidi2：攻克细粒度时空定位，视频检索性能领先GPT - 5

多模态模型 # Vidi2 # 多模态视频模型 # 字节跳动

4个月前

01960

CogAgent-9B-20241220：基于视觉语言模型的开源 GUI agent 模型

CogAgent-9B-20241220：基于视觉语言模型的开源 GUI agent 模型

多模态模型 # CogAgent-9B-20241220

1年前

02810

设计灵感来源于PaLI-3！谷歌推出开源视觉语言模型PaliGemma

设计灵感来源于PaLI-3！谷歌推出开源视觉语言模型PaliGemma

多模态模型 # PaliGemma # 谷歌

1年前

06600

Nexa AI 推出迷你视觉语言模型 OmniVision-968M

Nexa AI 推出迷你视觉语言模型 OmniVision-968M

多模态模型 # Nexa AI # OmniVision-968M # 视觉语言模型

1年前

07520

暂无评论

none

暂无评论...