Bauplan：基于对象存储的 Git-for-data 数据管道

Bauplan – Git-for-data pipelines on object storage

Source | HN Comments

Bauplan 是一个 Python 优先的 Serverless 数据平台，旨在简化大规模数据管道的构建和管理。它基于对象存储，实现了“Git-for-data”功能，提供版本控制、可重现性和可审计性。用户可以使用原生 Python 编写管道，无需处理容器化、运行时配置等复杂问题。主要特性包括：Pythonic 设计、直接在 S3 中处理表、Git-for-data、Serverless 管道、无处不在的 SQL、数据的 CI/CD 以及使用 Refs 进行版本控制。Bauplan 适用于运行 AI 应用、ML 工作负载和数据管道等场景，目标是让用户专注于数据处理，而非基础设施管理。

Bauplan：一个 Python 优先的 Serverless Lakehouse

Bauplan 是一个 Python 化的数据平台，为大规模数据管道提供函数即服务 (functions as a service)，并在 S3 数据湖上实现 git-for-data。 Bauplan 负责处理通常需要整个基础设施团队才能完成的任务。 我们的目标是让您和您的团队在云端运行大规模的 ML 工作流、AI 应用和数据转换管道，而无需管理任何数据基础设施。

我们为什么构建它。 我们是一个由 ML 和数据工程师组成的团队，构建 Bauplan 是因为我们亲身体验了在云基础设施上花费太多时间的挫败感。 Bauplan 的构建旨在提供一个 Python 优先的平台，它既非常简单又强大。

简单。 我们的 Serverless 函数允许您将管道编写为简单的 Python 函数链，而无需处理容器化、运行时配置和像 Spark 这样的专用大数据框架。

强大。 通过使用 Git-for-data 和我们独特的 Refs 系统，我们确保每个管道运行、每个表和每个模型都会自动进行版本控制、可重现和可审计。

主要特性

Pythonic 设计。 使用您最喜欢的 IDE 中的原生 Python 构建工作流——无需 DSL、YAML，也无需 Spark。
直接在 S3 中处理表。 只需一行代码即可将您的 Parquet 和 CSV 文件转换为 Apache Iceberg 表。获取 ACID 事务、模式和分区演变、时间旅行和优化查询——无需离开您的 S3 bucket。
Git-for-data。 立即创建数据湖的零拷贝分支。安全地协作处理真实数据，而不会冒下游中断的风险。
Serverless 管道。 在云中运行快速、无状态的 Python 函数。将它们链接在一起以构建完整的管道——无需容器，无需运行时烦恼。
无处不在的 SQL。 在 S3 中的分支和表上运行交互式或异步 SQL 查询，完全支持版本化数据。
数据的 CI/CD。 使用数据分支和我们的 Python SDK 自动化数据管道的测试和部署——就像您的代码一样，具有即时反馈循环。
使用 Refs 进行版本控制和重现。 每次管道运行都会通过数据和代码版本控制进行跟踪。使用 Refs 重现结果、审计更改并放心地回滚。

使用场景

运行 AI 应用、ML 工作负载和数据管道。在这里，您将找到许多示例，展示了我们的客户如何使用该平台来解决现实世界中的问题。