nanonets logo Platform DATA CAPTURE InvoicesBills of Lading Purchase OrdersPassports ID cardsBank statements ReceiptsSee all documents WORKFLOWS Document workflowsEmail workflowsAP automationFinancial reconciliation AI Agents AI Agent Platform Solutions BY FUNCTION Finance & AccountingSupply Chain & OperationsHuman ResourcesCustomer SupportLegal BY INDUSTRY Banking & FinanceInsuranceHealthcareLogisticsCommercial Real Estate BY USECASE Accounts PayableAccount ReconciliationCPG LoyaltyDigital Document ArchivingProperty Management Resources LEARN API documentation Help centre Chat InstantlyGet in touchResource Center COMPANY BlogToolsPartnersCustomer storiesAbout COMPARE Nanonets vs ABBYYNanonets vs DEXTNanonets vs DocparserNanonets vs KofaxNanonets vs RossumNanonets vs Veryfi Didn’t find what you’re looking for? Talk to us Pricing Get started for freeRequest a Demo

文档处理自动化基准测试

引言

随着市场新进入者不断发布新产品,人们对 OCR 文档处理领域的兴趣显着增长。 最新的是 Mistral 发布了其 OCR 模型,声称比旧的参与者更便宜,更准确,并且 Andrew NG 发布了一个代理文档提取产品。 然而,许多企业都在努力区分有效的声明和夸大的声明。 随着如此多的新版本,可能难以识别真正满足生产级别要求的解决方案。

基准测试的重要性

基准测试提供了一种结构化的方法来比较和评估解决方案,帮助企业筛选掉不合适的选项,识别与他们的数据和运营需求相符的工具,并通过减少需要审查的产品数量来简化验证。 然而,有价值的基准测试必须与您组织的实际挑战相一致。 关键考虑因素包括:

当前基准测试的局限性

Benchmark| # Docs | OCR| Key Information Extraction | Markdown Generation | Automation
---|---|---|---|---|---
CC-OCR | 7,058| ✓| ✓
OCRBench| 1,000| ✓| ✓
DocILE Test Set| 1,000 | ✓
BuDDIE| 1,665| ✓
KOSMOS2.5-Eval| 7,990| ✓
FOX| 612| ✓
DocLocal4K| 4,250| ✓
Omni AI OCR| 1,000 | ✓
Reducto Rdbench | 1,000| ✓
Mistral AI| 1,000| ✓
我们回顾了几个流行的文档处理基准测试。 每个基准测试都解决了文档处理的特定方面:

然而,这些基准测试中没有一个关注自动化,即最大限度地减少人工干预。

自动化基准测试

可以使用置信度分数对自动化进行基准测试,置信度分数表示模型对其预测的确定性。 通过设置置信度阈值,我们可以衡量模型在没有人工干预的情况下可以准确处理的数据比例。 这种方法有助于客观地比较不同模型在自动化能力方面的性能。 复制此基准测试过程的代码可在 GitHub 上公开获取。

数据集

我们从开源数据集中收集了 1000 个图像,其中包含常见的文档类型,如发票、收据、护照和银行对账单。 创建准确的结构化数据真实值既昂贵又至关重要,以维护基准测试的完整性。 我们注释了 16,639 个数据点,并在 Hugging Face 上公开分享了它。

方法论

置信度分数对于了解什么是需要手动审查的,什么是可以信任的至关重要。 Nanonets 本身原生支持置信度分数,允许直接的精度报告。 由于通用 LLM 本身不提供置信度分数,我们使用以下方法估计置信度分数:

结果

大多数 LLM 在 98% 的精度下都无法实现任何自动化。 结果在 90% 的精度下更好,但 90% 的精度不足以自动化人工工作。 下面分享了每种方法的详细发现。

对企业的意义

希望实现文档处理自动化的企业需要的不仅仅是原始准确性。 如果没有可靠的置信度分数,每次预测仍然需要人工审核。 通过强调“98% 精度下的自动化”,此基准测试旨在识别能够真正减少人工工作的解决方案。

此基准测试的未来

我们计划通过包含更多文档类型和探索其他置信度估计方法来扩展此基准测试。 要了解更多信息或建议新的数据类别,请写信至 research@nanonets.com

保持联系

还有更多问题?

发送查询

成功! 我们将尽快通过提供的电子邮件与您联系。 点击此处 提交另一个查询。 糟糕! 提交表格时出现问题。

与人工智能专家交谈

与我们的自动化专家进行 15 分钟的免费咨询。 我们可以讨论定价、集成或在您自己的文档上试用该应用程序。 申请演示 Nanonets logo

DATA CAPTURE

InvoicesPOsID CardsReceiptsBills of LadingPassportsStatementsSee All

WORKFLOWS

DocumentsEmailsAP AutomationReconciliation

solutions BY FUNCTION

Finance & AccountingSupply Chain & OpsHuman ResourcesCustomer SupportLegal

solutions BY INDUSTRY

Banking & FinanceInsuranceHealthcareLogisticsReal Estate

solutions BY USE CASE

Accounts PayableAccount ReconciliationCPG LoyaltyDocument ArchivingProperty Management

resources

API DocumentationHelp CentreBlogPartnersCustomer Stories

coMPARE

Nanonets vs ABBYYNanonets vs DEXTNanonets vs DocparserNanonets vs KofaxNanonets vs RossumNanonets vs Veryfi

company

AboutInvestorsCareersPrivacy policyTerms of Service

get in touch

+1 650 382 8676info@nanonets.com 156 2nd Street, San Francisco, CA 94105, USA Twitter logoLinkedIn logoMedium logo © 2024 Nano Net Technologies Inc.