Show HN：关注自动化程度的 OCR 基准测试

Show HN: OCR Benchmark Focusing on Automation

Source | HN Comments

文章介绍了一个关注自动化程度的 OCR 基准测试。现有基准测试侧重于 OCR 和关键信息提取，但缺乏对自动化能力的评估。该基准测试使用置信度分数衡量模型在无需人工干预下的准确处理能力，并公开了数据集和代码。结果表明，通用 LLM 在自动化方面表现不佳，无法提供可靠的置信度分数，而 Nanonets 能够实现一定程度的自动化。

Platform DATA CAPTURE Invoices Bills of Lading Purchase Orders Passports ID cards Bank statements Receipts See all documents WORKFLOWS Document workflows Email workflows AP automation Financial reconciliation AI Agents AI Agent Platform Solutions BY FUNCTION Finance & Accounting Supply Chain & Operations Human Resources Customer Support Legal BY INDUSTRY Banking & Finance Insurance Healthcare Logistics Commercial Real Estate BY USECASE Accounts Payable Account Reconciliation CPG Loyalty Digital Document Archiving Property Management Resources LEARN API documentation Help centre Chat Instantly Get in touch Resource Center COMPANY Blog Tools Partners Customer stories About COMPARE Nanonets vs ABBYY Nanonets vs DEXT Nanonets vs Docparser Nanonets vs Kofax Nanonets vs Rossum Nanonets vs Veryfi Didn’t find what you’re looking for? Talk to us Pricing Get started for free Request a Demo

文档处理自动化基准测试

引言

随着市场新进入者不断发布新产品，人们对 OCR 文档处理领域的兴趣显着增长。最新的是 Mistral 发布了其 OCR 模型，声称比旧的参与者更便宜，更准确，并且 Andrew NG 发布了一个代理文档提取产品。然而，许多企业都在努力区分有效的声明和夸大的声明。随着如此多的新版本，可能难以识别真正满足生产级别要求的解决方案。

基准测试的重要性

基准测试提供了一种结构化的方法来比较和评估解决方案，帮助企业筛选掉不合适的选项，识别与他们的数据和运营需求相符的工具，并通过减少需要审查的产品数量来简化验证。然而，有价值的基准测试必须与您组织的实际挑战相一致。关键考虑因素包括：

数据集相关性： 基准测试数据集是否反映了您处理的文档类型，例如发票、收据或合同？它是否考虑了语言、格式（扫描与数字 PDF）、长度和实际缺陷等因素？
任务完整性： 基准测试是否评估了文档提取过程的所有阶段？它是否与您的目标相一致，无论是提取结构化数据、执行 OCR 还是支持企业范围内的搜索？

当前基准测试的局限性

Benchmark| # Docs | OCR| Key Information Extraction | Markdown Generation | Automation
---|---|---|---|---|---
CC-OCR | 7,058| ✓| ✓
OCRBench| 1,000| ✓| ✓
DocILE Test Set| 1,000 | ✓
BuDDIE| 1,665| ✓
KOSMOS2.5-Eval| 7,990| ✓
FOX| 612| ✓
DocLocal4K| 4,250| ✓
Omni AI OCR| 1,000 | ✓
Reducto Rdbench | 1,000| ✓
Mistral AI| 1,000| ✓
我们回顾了几个流行的文档处理基准测试。每个基准测试都解决了文档处理的特定方面：

OCR (Optical Character Recognition，光学字符识别) : 将图像或扫描文档转换为非结构化的机器可读文本。
Key Information Extraction（关键信息提取） : 从文档中识别和提取特定的数据字段（例如，姓名、日期、金额）。
Markdown Generation（Markdown 生成） : 将提取的文本格式化为结构化的 Markdown，以便于阅读和处理。

然而，这些基准测试中没有一个关注自动化，即最大限度地减少人工干预。

自动化基准测试

可以使用置信度分数对自动化进行基准测试，置信度分数表示模型对其预测的确定性。通过设置置信度阈值，我们可以衡量模型在没有人工干预的情况下可以准确处理的数据比例。这种方法有助于客观地比较不同模型在自动化能力方面的性能。复制此基准测试过程的代码可在 GitHub 上公开获取。

数据集

我们从开源数据集中收集了 1000 个图像，其中包含常见的文档类型，如发票、收据、护照和银行对账单。创建准确的结构化数据真实值既昂贵又至关重要，以维护基准测试的完整性。我们注释了 16,639 个数据点，并在 Hugging Face 上公开分享了它。

方法论

置信度分数对于了解什么是需要手动审查的，什么是可以信任的至关重要。 Nanonets 本身原生支持置信度分数，允许直接的精度报告。由于通用 LLM 本身不提供置信度分数，我们使用以下方法估计置信度分数：

Logits: 从预测的原始 logits 中得出的置信度。
Consistency: 重复查询 LLM 以评估响应一致性。
Numeric: 要求 LLM 提供一个数字置信度估计。
Binary: 要求 LLM 提供一个二进制置信度估计（高/低）。

结果

大多数 LLM 在 98% 的精度下都无法实现任何自动化。结果在 90% 的精度下更好，但 90% 的精度不足以自动化人工工作。下面分享了每种方法的详细发现。

虽然通用 LLM 在总体准确性方面表现良好，但它们难以提供可靠的置信度分数。
Gemini 2.0 Flash 是唯一达到 98% 精度的通用 LLM，但它只能自动化 8% 的数据。
OpenAI 的 GPT4o 和 Claude Sonnet 无法达到 95% 的精度。

对企业的意义

希望实现文档处理自动化的企业需要的不仅仅是原始准确性。如果没有可靠的置信度分数，每次预测仍然需要人工审核。通过强调“98% 精度下的自动化”，此基准测试旨在识别能够真正减少人工工作的解决方案。

此基准测试的未来

我们计划通过包含更多文档类型和探索其他置信度估计方法来扩展此基准测试。要了解更多信息或建议新的数据类别，请写信至 research@nanonets.com

保持联系

还有更多问题？

发送查询

成功！我们将尽快通过提供的电子邮件与您联系。点击此处提交另一个查询。糟糕！提交表格时出现问题。

与人工智能专家交谈

与我们的自动化专家进行 15 分钟的免费咨询。我们可以讨论定价、集成或在您自己的文档上试用该应用程序。申请演示

Show HN：关注自动化程度的 OCR 基准测试

文档处理自动化基准测试

引言

基准测试的重要性

当前基准测试的局限性

自动化基准测试

数据集

方法论

结果

对企业的意义

此基准测试的未来

还有更多问题？

发送查询

与人工智能专家交谈

DATA CAPTURE

WORKFLOWS

solutions BY FUNCTION

solutions BY INDUSTRY

solutions BY USE CASE

resources

coMPARE

company

get in touch