Show HN:关注自动化程度的 OCR 基准测试
Platform
DATA CAPTURE
InvoicesBills of Lading
Purchase OrdersPassports
ID cardsBank statements
ReceiptsSee all documents
WORKFLOWS
Document workflows
Email workflows
AP automation
Financial reconciliation
AI Agents
AI Agent Platform
Solutions
BY FUNCTION
Finance & Accounting
Supply Chain & Operations
Human Resources
Customer Support
Legal
BY INDUSTRY
Banking & Finance
Insurance
Healthcare
Logistics
Commercial Real Estate
BY USECASE
Accounts Payable
Account Reconciliation
CPG Loyalty
Digital Document Archiving
Property Management
Resources
LEARN
API documentation
Help centre
Chat Instantly
Get in touch
Resource Center
COMPANY
Blog
Tools
Partners
Customer stories
About
COMPARE
Nanonets vs ABBYYNanonets vs DEXTNanonets vs DocparserNanonets vs KofaxNanonets vs RossumNanonets vs Veryfi
Didn’t find what you’re looking for?
Talk to us
Pricing
Get started for freeRequest a Demo
文档处理自动化基准测试
引言
随着市场新进入者不断发布新产品,人们对 OCR 文档处理领域的兴趣显着增长。 最新的是 Mistral 发布了其 OCR 模型,声称比旧的参与者更便宜,更准确,并且 Andrew NG 发布了一个代理文档提取产品。 然而,许多企业都在努力区分有效的声明和夸大的声明。 随着如此多的新版本,可能难以识别真正满足生产级别要求的解决方案。
基准测试的重要性
基准测试提供了一种结构化的方法来比较和评估解决方案,帮助企业筛选掉不合适的选项,识别与他们的数据和运营需求相符的工具,并通过减少需要审查的产品数量来简化验证。 然而,有价值的基准测试必须与您组织的实际挑战相一致。 关键考虑因素包括:
- 数据集相关性: 基准测试数据集是否反映了您处理的文档类型,例如发票、收据或合同? 它是否考虑了语言、格式(扫描与数字 PDF)、长度和实际缺陷等因素?
- 任务完整性: 基准测试是否评估了文档提取过程的所有阶段? 它是否与您的目标相一致,无论是提取结构化数据、执行 OCR 还是支持企业范围内的搜索?
当前基准测试的局限性
Benchmark| # Docs | OCR| Key Information Extraction | Markdown Generation | Automation
---|---|---|---|---|---
CC-OCR | 7,058| ✓| ✓
OCRBench| 1,000| ✓| ✓
DocILE Test Set| 1,000 | ✓
BuDDIE| 1,665| ✓
KOSMOS2.5-Eval| 7,990| ✓
FOX| 612| ✓
DocLocal4K| 4,250| ✓
Omni AI OCR| 1,000 | ✓
Reducto Rdbench | 1,000| ✓
Mistral AI| 1,000| ✓
我们回顾了几个流行的文档处理基准测试。 每个基准测试都解决了文档处理的特定方面:
- OCR (Optical Character Recognition,光学字符识别) : 将图像或扫描文档转换为非结构化的机器可读文本。
- Key Information Extraction(关键信息提取) : 从文档中识别和提取特定的数据字段(例如,姓名、日期、金额)。
- Markdown Generation(Markdown 生成) : 将提取的文本格式化为结构化的 Markdown,以便于阅读和处理。
然而,这些基准测试中没有一个关注自动化,即最大限度地减少人工干预。
自动化基准测试
可以使用置信度分数对自动化进行基准测试,置信度分数表示模型对其预测的确定性。 通过设置置信度阈值,我们可以衡量模型在没有人工干预的情况下可以准确处理的数据比例。 这种方法有助于客观地比较不同模型在自动化能力方面的性能。 复制此基准测试过程的代码可在 GitHub 上公开获取。
数据集
我们从开源数据集中收集了 1000 个图像,其中包含常见的文档类型,如发票、收据、护照和银行对账单。 创建准确的结构化数据真实值既昂贵又至关重要,以维护基准测试的完整性。 我们注释了 16,639 个数据点,并在 Hugging Face 上公开分享了它。
方法论
置信度分数对于了解什么是需要手动审查的,什么是可以信任的至关重要。 Nanonets 本身原生支持置信度分数,允许直接的精度报告。 由于通用 LLM 本身不提供置信度分数,我们使用以下方法估计置信度分数:
- Logits: 从预测的原始 logits 中得出的置信度。
- Consistency: 重复查询 LLM 以评估响应一致性。
- Numeric: 要求 LLM 提供一个数字置信度估计。
- Binary: 要求 LLM 提供一个二进制置信度估计(高/低)。
结果
大多数 LLM 在 98% 的精度下都无法实现任何自动化。 结果在 90% 的精度下更好,但 90% 的精度不足以自动化人工工作。 下面分享了每种方法的详细发现。
- 虽然通用 LLM 在总体准确性方面表现良好,但它们难以提供可靠的置信度分数。
- Gemini 2.0 Flash 是唯一达到 98% 精度的通用 LLM,但它只能自动化 8% 的数据。
- OpenAI 的 GPT4o 和 Claude Sonnet 无法达到 95% 的精度。
对企业的意义
希望实现文档处理自动化的企业需要的不仅仅是原始准确性。 如果没有可靠的置信度分数,每次预测仍然需要人工审核。 通过强调“98% 精度下的自动化”,此基准测试旨在识别能够真正减少人工工作的解决方案。
此基准测试的未来
我们计划通过包含更多文档类型和探索其他置信度估计方法来扩展此基准测试。 要了解更多信息或建议新的数据类别,请写信至 research@nanonets.com
保持联系
还有更多问题?
发送查询
成功! 我们将尽快通过提供的电子邮件与您联系。 点击此处 提交另一个查询。 糟糕! 提交表格时出现问题。
与人工智能专家交谈
与我们的自动化专家进行 15 分钟的免费咨询。 我们可以讨论定价、集成或在您自己的文档上试用该应用程序。
申请演示
DATA CAPTURE
InvoicesPOsID CardsReceiptsBills of LadingPassportsStatementsSee All
WORKFLOWS
DocumentsEmailsAP AutomationReconciliation
solutions BY FUNCTION
Finance & AccountingSupply Chain & OpsHuman ResourcesCustomer SupportLegal
solutions BY INDUSTRY
Banking & FinanceInsuranceHealthcareLogisticsReal Estate
solutions BY USE CASE
Accounts PayableAccount ReconciliationCPG LoyaltyDocument ArchivingProperty Management
resources
API DocumentationHelp CentreBlogPartnersCustomer Stories
coMPARE
Nanonets vs ABBYYNanonets vs DEXTNanonets vs DocparserNanonets vs KofaxNanonets vs RossumNanonets vs Veryfi
company
AboutInvestorsCareersPrivacy policyTerms of Service
get in touch
+1 650 382 8676info@nanonets.com
156 2nd Street, San Francisco, CA 94105, USA
© 2024 Nano Net Technologies Inc.