跳到内容

Delta Lake API

Delta Spark 是一个使用 Apache Spark™ 读取和写入 Delta 表的库。对于 Delta 表的大多数读写操作,您可以使用 Apache Spark 读写器 API。有关示例,请参阅表批处理读写表流处理读写

但是,有些操作是 Delta Lake 特有的,您必须使用 Delta Lake API。有关示例,请参阅表实用程序命令

Delta Kernel 是一个用于操作 Delta 表的库。具体来说,它提供了简单而精简的 API,用于读写 Delta 表,而无需理解 Delta 协议的详细信息。您可以使用此库执行以下操作:

  • 从您的应用程序读取 Delta 表。
  • 为 Apache Spark™、Apache Flink 或 Trino 等分布式引擎构建连接器,以读取大型 Delta 表。

更多详细信息请参阅此处

这个允许 Rust(带有 Python 绑定)低级访问 Delta 表,旨在与 datafusionballistarust-dataframevega 等数据处理框架一起使用。

Delta Standalone,前身为 Delta Standalone Reader (DSR),是一个用于读写 Delta 表的 JVM 库。与 Delta-Spark 不同,此库不使用 Spark 读写表,并且只有少量传递依赖项。它可供任何无法使用 Spark 集群的应用程序使用。更多详细信息请参阅此处

Flink/Delta 连接器是一个 JVM 库,用于利用 Delta Standalone JVM 库从 Apache Flink 应用程序读取和写入 Delta 表。更多详细信息请参阅此处