PDF 和图像转 Markdown!这款开源 OCR 可完美理解结构和内容上下文! - 技术教程

在上篇文章中介绍了Github上最近热门的PDF文档解析项目MonkeyOCR-3B，其可以同时进行布局分析、区域分割、文本识别、表格和公式检测，并且仅需一块消费级显卡即可运行！今天再给大家介绍下热榜第一的OCR文档解析工具，参数量大小同样只有3B！

传统的OCR模型会抓取所有能看到的文本，然后将其输出。然而，它们通常无法区分常规内容和水印、签名或页码等元素。尤其是图像等视觉元素经常被忽略，表格、复选框和公式等复杂结构也无法有效处理，这使得这些模型不太适合下游任务。

与仅提取纯文本的传统 OCR 系统不同，Nanonets-OCR-s 能够理解文档结构和内容上下文，它能将图像转换为简洁、有序的 Markdown 文件，使表格、复选框、水印、图表、图片甚至数学公式等内容保持正确的格式。总而言之，它能提供真正有用的内容，而不是一团糟。

Nanonets-OCR-s 具备的智能内容识别和语义标记功能，使其非常适合大型语言模型 (LLM) 的下游处理。让我们详细探讨一下每个功能：

1. 复杂表格提取：从文档中准确提取复杂表格并将其转换为 markdown 和 HTML 表格格式。

2. 水印提取：从文档中检测并提取水印文本，并将其放置在<watermark>标签内。

3. 智能复选框处理：将表单复选框和单选按钮转换为标准化的 Unicode 符号（、、），以实现一致可靠的处理。

4. 智能图像描述：使用结构化<img>标签描述文档中的图像，使其易于 LLM 处理。它可以描述各种图像类型，包括徽标、图表、图形等，并详细说明其内容、样式和上下文。

5. LaTeX 公式识别：自动将数学公式和公式转换为格式正确的 LaTeX 语法。它能够区分内联 ( $...$) 和显示 ( $...$) 公式。

研究团队选择将Qwen2.5-VL-3B模型作为视觉语言模型 (VLM) 的基础模型。为了训练视觉语言模型 (VLM) 以实现精确的OCR，精心挑选了一个包含超过 25 万页的数据集。

该数据集涵盖以下文档类型：研究论文、财务文档、法律文档、医疗保健文档、税务表单、收据和发票。此外，该数据集还包含包含图像、图表、公式、签名、水印、复选框和复杂表格的文档。

从公开的代码及介绍也看到目前该模型存在的局限性：尚未对手写文本进行模型训练，同时基于大模型的训练可能会出现幻觉。在实际工作中如何避免幻觉是接下来要着重处理的课题！开源链接如下：

# 模型链接：
https://huggingface.co/nanonets/Nanonets-OCR-s
# 代码链接：
https://github.com/NanoNets/docext

最后，如果你关注LLM大模型处理数据相关内容，欢迎留言或进群交流，我们一起探讨文档智能的更多可能性！