Apache Beam 文件

此頁面提供 Beam 程式設計模型、SDK 和執行器的概念資訊和參考資料的連結。

概念

了解 Beam 程式設計模型和所有 Beam SDK 和執行器通用的概念。

管線基礎

SDK

尋找所有可用的 Beam SDK 的狀態和參考資訊。

轉換目錄

Beam 的轉換目錄包含 Beam 內建轉換的說明和程式碼片段。

執行器

Beam 執行器會在特定的(通常是分散式)資料處理系統上執行 Beam 管線。

可用的執行器

DirectRunner

在您的機器上本機執行 - 非常適合開發、測試和偵錯。

PrismRunner

在您的機器上本機執行 - 非常適合開發、測試和偵錯。

FlinkRunner

Apache Flink 上執行。

SparkRunner

Apache Spark 上執行。

DataflowRunner

Google Cloud Dataflow 上執行,這是 Google Cloud Platform 中完全受管理的服務。

SamzaRunner

Apache Samza 上執行。

選擇執行器

Beam 旨在讓管線可以在不同的執行器之間移植。但是,鑑於每個執行器都有不同的功能,它們在實作 Beam 模型中的核心概念時也具有不同的能力。功能矩陣提供了執行器功能的詳細比較。

選擇要使用的執行器之後,請參閱該執行器的頁面,以取得有關任何初始執行器特定設定以及任何用於組態其執行所需的或選用的 PipelineOptions 的詳細資訊。您可能還想參考JavaPythonGo 的快速入門,以取得有關執行範例 WordCount 管線的說明。