跳到内容

欢迎来到 Delta Lake 文档

Delta Lake 是一个开源项目,它支持在数据湖之上构建湖仓一体架构。Delta Lake 提供ACID 事务、可扩展的元数据处理,并统一了在现有数据湖(如 S3、ADLS、GCS 和 HDFS)之上的流式批处理数据处理。

具体而言,Delta Lake 提供

  • Spark 上的ACID 事务:可序列化隔离级别确保读取器永远不会看到不一致的数据。
  • 可扩展的元数据处理:利用 Spark 分布式处理能力,轻松处理PB级表和数十亿文件的所有元数据。
  • 流式批处理统一:Delta Lake 中的表既是批处理表,也是流式源和汇。流式数据摄取、批处理历史回填、交互式查询都开箱即用。
  • Schema 强制:自动处理 schema 变体,防止在摄取过程中插入错误记录。
  • 时间旅行:数据版本控制支持回滚、完整的历史审计跟踪和可重现的机器学习实验。
  • Upserts删除:支持合并、更新和删除操作,以实现复杂用例,如变更数据捕获(CDC)、慢变维度(SCD)操作、流式 upsert 等。
  • 活跃的连接器生态系统:Delta Lake 具有用于从各种数据处理引擎(如 Apache Spark、Apache Flink、Apache Hive、Apache Trino、AWS Athena 等)读取和写入 Delta 表的连接器。

要开始使用,请遵循快速入门指南,了解如何将 Delta Lake 与 Apache Spark 结合使用。