Bauplan:基于对象存储的 Git-for-data 数据管道
Bauplan 是一个 Python 优先的 Serverless 数据平台,旨在简化大规模数据管道的构建和管理。它基于对象存储,实现了“Git-for-data”功能,提供版本控制、可重现性和可审计性。用户可以使用原生 Python 编写管道,无需处理容器化、运行时配置等复杂问题。
主要特性包括:Pythonic 设计、直接在 S3 中处理表、Git-for-data、Serverless 管道、无处不在的 SQL、数据的 CI/CD 以及使用 Refs 进行版本控制。Bauplan 适用于运行 AI 应用、ML 工作负载和数据管道等场景,目标是让用户专注于数据处理,而非基础设施管理。
Bauplan:一个 Python 优先的 Serverless Lakehouse
Bauplan 是一个 Python 化的数据平台,为大规模数据管道提供函数即服务 (functions as a service),并在 S3 数据湖上实现 git-for-data。 Bauplan 负责处理通常需要整个基础设施团队才能完成的任务。 我们的目标是让您和您的团队在云端运行大规模的 ML 工作流、AI 应用和数据转换管道,而无需管理任何数据基础设施。
我们为什么构建它。 我们是一个由 ML 和数据工程师组成的团队,构建 Bauplan 是因为我们亲身体验了在云基础设施上花费太多时间的挫败感。 Bauplan 的构建旨在提供一个 Python 优先的平台,它既非常简单又强大。
简单。 我们的 Serverless 函数允许您将管道编写为简单的 Python 函数链,而无需处理容器化、运行时配置和像 Spark 这样的专用大数据框架。
强大。 通过使用 Git-for-data 和我们独特的 Refs 系统,我们确保每个管道运行、每个表和每个模型都会自动进行版本控制、可重现和可审计。
主要特性
- Pythonic 设计。 使用您最喜欢的 IDE 中的原生 Python 构建工作流——无需 DSL、YAML,也无需 Spark。
- 直接在 S3 中处理表。 只需一行代码即可将您的 Parquet 和 CSV 文件转换为 Apache Iceberg 表。 获取 ACID 事务、模式和分区演变、时间旅行和优化查询——无需离开您的 S3 bucket。
- Git-for-data。 立即创建数据湖的零拷贝分支。 安全地协作处理真实数据,而不会冒下游中断的风险。
- Serverless 管道。 在云中运行快速、无状态的 Python 函数。 将它们链接在一起以构建完整的管道——无需容器,无需运行时烦恼。
- 无处不在的 SQL。 在 S3 中的分支和表上运行交互式或异步 SQL 查询,完全支持版本化数据。
- 数据的 CI/CD。 使用数据分支和我们的 Python SDK 自动化数据管道的测试和部署——就像您的代码一样,具有即时反馈循环。
- 使用 Refs 进行版本控制和重现。 每次管道运行都会通过数据和代码版本控制进行跟踪。 使用 Refs 重现结果、审计更改并放心地回滚。
使用场景
运行 AI 应用、ML 工作负载和数据管道。 在这里,您将找到许多示例,展示了我们的客户如何使用该平台来解决现实世界中的问题。