Mistral OCR：文档理解 API 新纪元

Mistral OCR

Source | HN Comments

Mistral AI 发布了 Mistral OCR，一款先进的文档理解 API。该 API 能够准确处理包含图像、表格、公式、多语言等复杂元素的文档，并提供结构化输出。Mistral OCR 在基准测试中表现优异，速度快，支持多语言，并提供自托管选项。它可用于科学研究、文化遗产保护、客户服务等领域，将文档转化为可行动的知识。用户可在 [la Plateforme](https://mistral.ai/fr/news/) 上体验 API，并在 [le Chat](https://mistral.ai/fr/news/) 上免费试用。

Mistral OCR

隆重推出世界上最好的文档理解 API。

研究 2025年3月6日 Mistral AI 团队

纵观历史，信息抽象和检索的进步推动了人类的进步。从象形文字到纸莎草纸，从印刷机到数字化，每一次飞跃都使人类知识更易于访问和利用，从而推动了进一步的创新。

今天，我们正处于下一个重大飞跃的边缘——释放所有数字化信息的集体智慧。大约 90% 的世界组织数据存储为文档，为了利用这一潜力，我们推出了 Mistral OCR。Mistral OCR 是一种光学字符识别 API，它为文档理解设定了新的标准。与其他模型不同，Mistral OCR 以空前的准确性和认知能力理解文档的每个元素——媒体、文本、表格、公式。它将图像和 PDF 作为输入，并以有序的交错文本和图像提取内容。

因此，Mistral OCR 是与 RAG 系统结合使用的理想模型，该系统将多模态文档（例如幻灯片或复杂的 PDF）作为输入。

我们已将 Mistral OCR 作为默认模型，用于在 Le Chat 上数百万用户的文档理解，并以 1000 页 / 美元（批量推理时大约是每美元页数的两倍）的价格发布 API mistral-ocr-latest。该 API 今天可在我们的开发者套件 la Plateforme 上使用，并且很快将在我们的云和推理合作伙伴处以及本地部署中使用。

亮点

最先进的复杂文档理解
原生多语言和多模态
顶级的基准测试
同类产品中最快
Doc-as-prompt，结构化输出
选择性地提供给处理高度敏感或机密信息的组织进行自托管

让我们深入了解每一个亮点。

最先进的复杂文档理解

Mistral OCR 擅长理解复杂的文档元素，包括交错的图像、数学表达式、表格和高级布局，例如 LaTeX 格式。该模型能够更深入地理解包含图表、图形、公式和数字的丰富文档，例如科学论文。

下面是一个示例，展示了该模型如何将给定 PDF 中的文本和图像提取到 markdown 文件中。您可以在此处访问该 notebook。

下面我们并排比较了 PDF 及其各自 OCR 的输出。悬停滑块可在输入和输出之间切换。

表格 + 图形

3 Exemple

OCR 结果

3 Ocr

数学

4 Exemple

OCR 结果

4 Ocr

印地语

5 Exemple

OCR 结果

Hindi Ocr

文档

6 Exemple

OCR 结果

6 Ocr

阿拉伯语

7 Exemple

OCR 结果

Arabic OCR

顶级的基准测试

Mistral OCR 在严格的基准测试中始终优于其他领先的 OCR 模型。下表说明了其在文档分析的多个方面的卓越准确性。我们会从文档中提取嵌入的图像以及文本。下面比较的其他 LLM 不具备该功能。为了进行公平的比较，我们在包含各种出版论文和来自网络的 PDF 的内部“纯文本”测试集上对它们进行评估；如下：

Model | Overall | Math | Multilingual | Scanned | Tables ---|---|---|---|---|--- Google Document AI | 83.42 | 80.29 | 86.42 | 92.77 | 78.16 Azure OCR | 89.52 | 85.72 | 87.52 | 94.65 | 89.52 Gemini-1.5-Flash-002 | 90.23 | 89.11 | 86.76 | 94.87 | 90.48 Gemini-1.5-Pro-002 | 89.92 | 88.48 | 86.33 | 96.15 | 89.71 Gemini-2.0-Flash-001 | 88.69 | 84.18 | 85.80 | 95.11 | 91.46 GPT-4o-2024-11-20 | 89.77 | 87.55 | 86.00 | 94.58 | 91.70 Mistral OCR 2503 | 94.89 | 94.29 | 89.55 | 98.96 | 96.12

原生多语言

自 Mistral 成立以来，我们一直渴望通过我们的模型为世界服务，因此努力在我们的产品中实现多语言能力。Mistral OCR 将这一点提升到了一个新的水平，能够解析、理解和转录各大洲的数千种脚本、字体和语言。这种多功能性对于处理来自不同语言背景文档的全球组织以及服务于小众市场的超本地企业都至关重要。

Model | Fuzzy Match in Generation ---|--- Google-Document-AI | 95.88 Gemini-2.0-Flash-001 | 96.53 Azure OCR | 97.31 Mistral OCR | 99.02

按语言划分的基准：

Language | Azure OCR | Google Doc AI | Mistral OCR ---|---|---|--- ru | 97.35 | 95.56 | 99.09 fr | 97.50 | 96.36 | 99.20 hi | 96.45 | 95.65 | 97.55 zh | 91.40 | 90.89 | 97.11 pt | 97.96 | 96.24 | 99.42 de | 98.39 | 97.09 | 99.51 es | 98.54 | 97.52 | 99.54 tr | 95.91 | 93.85 | 97.00 uk | 97.81 | 96.24 | 99.29 it | 98.31 | 97.69 | 99.42 ro | 96.45 | 95.14 | 98.79

用例

我们正在授权我们的 Beta 客户通过将他们广泛的文档存储库转变为行动和解决方案来提升他们的组织知识。我们的技术正在产生重大影响的一些关键用例包括：

数字化科学研究：领先的研究机构一直在尝试使用 Mistral OCR 将科学论文和期刊转换为 AI 就绪格式，使其可用于下游智能引擎。这显著加快了合作并加速了科学工作流程。

保护历史和文化遗产：作为遗产保管者的组织和非营利组织一直在使用 Mistral OCR 来数字化历史文档和文物，确保对其进行保护并使更广泛的受众可以访问。

简化客户服务：客户服务部门正在探索 Mistral OCR，以将文档和手册转换为索引知识，从而缩短响应时间并提高客户满意度。

使设计、教育、法律等领域的文献做好 AI 准备：Mistral OCR 还一直在帮助公司将技术文献、工程图纸、讲义、演示文稿、监管文件等等转换为索引的、随时可以回答问题的格式，从而在数百万份文档中释放智能和生产力。

立即体验

Mistral OCR 功能可以在 le Chat 上免费试用。要试用 API，请访问 la Plateforme。我们很乐意收到您的反馈；预计该模型在未来几周内会继续变得更好。作为我们战略参与计划的一部分，我们还将有选择性地提供本地部署。

Mistral OCR：文档理解 API 新纪元

Mistral OCR

亮点

最先进的复杂文档理解

顶级的基准测试

原生多语言

同类产品中最快

Doc-as-prompt，结构化输出

选择性地提供自托管

用例

立即体验