在上篇文章中介绍了Github上最近热门的PDF文档解析项目MonkeyOCR-3B,其可以同时进行布局分析、区域分割、文本识别、表格和公式检测,并且仅需一块消费级显卡即可运行!今天再给大家介绍下热榜第一的OCR文档解析工具,参数量大小同样只有3B!
传统的OCR模型会抓取所有能看到的文本,然后将其输出。然而,它们通常无法区分常规内容和水印、签名或页码等元素。尤其是图像等视觉元素经常被忽略,表格、复选框和公式等复杂结构也无法有效处理,这使得这些模型不太适合下游任务。
与仅提取纯文本的传统 OCR 系统不同,Nanonets-OCR-s 能够理解文档结构和内容上下文,它能将图像转换为简洁、有序的 Markdown 文件,使表格、复选框、水印、图表、图片甚至数学公式等内容保持正确的格式。总而言之,它能提供真正有用的内容,而不是一团糟。
Nanonets-OCR-s 具备的智能内容识别和语义标记功能,使其非常适合大型语言模型 (LLM) 的下游处理。让我们详细探讨一下每个功能:
1. 复杂表格提取:从文档中准确提取复杂表格并将其转换为 markdown 和 HTML 表格格式。
2. 水印提取:从文档中检测并提取水印文本,并将其放置在<watermark>标签内。
3. 智能复选框处理:将表单复选框和单选按钮转换为标准化的 Unicode 符号(、、),以实现一致可靠的处理。
4. 智能图像描述:使用结构化<img>标签描述文档中的图像,使其易于 LLM 处理。它可以描述各种图像类型,包括徽标、图表、图形等,并详细说明其内容、样式和上下文。
5. LaTeX 公式识别:自动将数学公式和公式转换为格式正确的 LaTeX 语法。它能够区分内联 ( $...$) 和显示 ( $...$) 公式。
研究团队选择将Qwen2.5-VL-3B模型作为视觉语言模型 (VLM) 的基础模型。为了训练视觉语言模型 (VLM) 以实现精确的OCR,精心挑选了一个包含超过 25 万页的数据集。
该数据集涵盖以下文档类型:研究论文、财务文档、法律文档、医疗保健文档、税务表单、收据和发票。此外,该数据集还包含包含图像、图表、公式、签名、水印、复选框和复杂表格的文档。
从公开的代码及介绍也看到目前该模型存在的局限性:尚未对手写文本进行模型训练,同时基于大模型的训练可能会出现幻觉。在实际工作中如何避免幻觉是接下来要着重处理的课题!开源链接如下:
# 模型链接:
https://huggingface.co/nanonets/Nanonets-OCR-s
# 代码链接:
https://github.com/NanoNets/docext最后,如果你关注LLM大模型处理数据相关内容,欢迎留言或进群交流,我们一起探讨文档智能的更多可能性!
