Apache Beam 概觀

Apache Beam 是一個開放原始碼、統一的模型，用於定義批次和串流資料並行處理管道。您可以使用其中一個開放原始碼 Beam SDK 來建構定義管道的程式。然後，管道會由 Beam 支援的分散式處理後端之一執行，其中包括 Apache Flink、Apache Spark 和 Google Cloud Dataflow。

Beam 特別適用於非常適合並行處理的資料處理任務，其中問題可以分解為許多較小的資料包，這些資料包可以獨立且並行地處理。您也可以將 Beam 用於提取、轉換和載入 (ETL) 任務以及純粹的資料整合。這些任務對於在不同儲存媒體和資料來源之間移動資料、將資料轉換為更理想的格式，或將資料載入新系統非常有用。

Apache Beam SDK

Beam SDK 提供了一個統一的程式設計模型，可以表示和轉換任何大小的資料集，無論輸入是來自批次資料來源的有限資料集，還是來自串流資料來源的無限資料集。Beam SDK 使用相同的類別來表示有界和無界資料，並使用相同的轉換來處理這些資料。您可以使用您選擇的 Beam SDK 來建構一個程式，該程式會定義您的資料處理管道。

Beam 目前支援以下特定語言的 SDK