Show HN: Morphik – 开源 RAG,理解 PDF 图像,本地运行
Morphik 是一款为构建基于私有知识的 AI 应用而设计的开源多模态 RAG 工具。
Docs - Community - Why Morphik? - Bug reports
Morphik 是传统 RAG 的替代方案,适用于高度技术性和视觉化的文档。
Morphik 为开发者提供了摄取、搜索(深度和浅度)、转换和管理非结构化和多模态文档的工具。我们的一些功能包括:
- Multimodal Search: 我们采用诸如 ColPali 等技术来构建能够真正_理解_您提供的文档的视觉内容的搜索功能。 通过单个 endpoint 搜索图像、PDF、视频等。
- Knowledge Graphs: 只需一行代码即可为特定领域的用例构建知识图谱。 使用我们经过实战考验的系统提示,或者使用您自己的。
- Fast and Scalable Metadata Extraction: 从文档中提取元数据 - 包括边界框、标签、分类等。
- Integrations: 与现有工具和工作流程集成。 包括(但不限于)Google Suite、Slack 和 Confluence。
- Cache-Augmented-Generation: 创建文档的持久 KV 缓存,以加快生成速度。
最棒的是,Morphik 提供免费套餐,而且是开源的! 访问 Morphik 注册即可开始使用。
目录
- Getting Started with Morphik (Recommended)
- Self-hosting the open-source version
- Using Morphik
- Contributing
- Open source vs paid
Getting Started with Morphik (Recommended)
开始使用 Morphik 最快和最简单的方法是在 Morphik 免费注册。 我们为您提供前 200 页和 100 个查询! 之后,您可以根据使用情况付费,重度使用可享受折扣。
Self-hosting the open-source version
如果您想 self-host Morphik,可以在这里找到专门的说明。 我们提供直接安装和通过 Docker 安装的选项。
Important: 由于资源有限,我们无法为开源部署提供全面支持。 我们有一个安装指南和一个 Discord community 来提供帮助,但我们不能保证全面支持。
Using Morphik
注册 Morphik 后,您可以立即开始摄取和搜索您的数据。
Code (Example: Python SDK)
对于程序员,我们提供 Python SDK 和 REST API。 摄取文件非常简单:
from morphik import Morphik
morphik = Morphik("<your-morphik-uri>")
morphik.ingest_file("path/to/your/super/complex/file.pdf")
同样,搜索和查询您的数据也很容易:
morphik.query("What's the height of screw 14-A in the chair assembly instructions?")
Morphik Console
您还可以通过 Morphik Console 与 Morphik 交互。 这是一个基于 Web 的界面,允许您摄取、搜索和查询您的数据。 您可以在同一位置上传文件、连接到不同的数据源以及与您的数据聊天。
Model Context Protocol
最后,您还可以通过 MCP 访问 Morphik。 说明可在此处获得。
Contributing
欢迎您为该项目做出贡献! 我们喜欢:
- 通过 GitHub issues 提交错误报告
- 通过 GitHub issues 提交功能请求
- Pull requests
目前,我们专注于提高速度、与更多工具集成以及寻找为我们的用户提供最大价值的研究论文。 如果您有想法,请在 Discord 或 GitHub 中告诉我们!
Open source vs paid
某些功能(例如 Morphik Console)在开源版本中不可用。 ee
命名空间中的任何功能在开源版本中均不可用,并带有不同的许可。 除此之外的任何功能都是在 MIT expat 许可下开源的。
Contributors
请访问我们的特别感谢页面,专门感谢我们的贡献者这里。
PS
在编写此 README 时,我们从 PostHog 中汲取了灵感。 如果您来自 PostHog,谢谢❤️
About
用于构建基于私有知识的 AI 应用的开源多模态 RAG。