欢迎来到 Delta Lake 文档

Delta Lake 是一个开源项目，它支持在数据湖之上构建湖仓一体架构。Delta Lake 提供ACID 事务、可扩展的元数据处理，并统一了在现有数据湖（如 S3、ADLS、GCS 和 HDFS）之上的流式和批处理数据处理。

具体而言，Delta Lake 提供

Spark 上的ACID 事务：可序列化隔离级别确保读取器永远不会看到不一致的数据。
可扩展的元数据处理：利用 Spark 分布式处理能力，轻松处理PB级表和数十亿文件的所有元数据。
流式和批处理统一：Delta Lake 中的表既是批处理表，也是流式源和汇。流式数据摄取、批处理历史回填、交互式查询都开箱即用。
Schema 强制：自动处理 schema 变体，防止在摄取过程中插入错误记录。
时间旅行：数据版本控制支持回滚、完整的历史审计跟踪和可重现的机器学习实验。
Upserts 和删除：支持合并、更新和删除操作，以实现复杂用例，如变更数据捕获（CDC）、慢变维度（SCD）操作、流式 upsert 等。
活跃的连接器生态系统：Delta Lake 具有用于从各种数据处理引擎（如 Apache Spark、Apache Flink、Apache Hive、Apache Trino、AWS Athena 等）读取和写入 Delta 表的连接器。

要开始使用，请遵循快速入门指南，了解如何将 Delta Lake 与 Apache Spark 结合使用。