關於

為什麼選擇 Apache Beam?

Apache Beam 是一個開源的統一程式設計模型,用於批次和串流資料處理管線,簡化了大規模資料處理的動態。由於其獨特的資料處理功能、經驗證的規模以及強大且可擴展的功能,全球數千個組織選擇了 Apache Beam。

Batch and Stream Processing Batch and Stream Processing


Apache Beam 是資料處理的未來,因為它提供了

強大的抽象化

Apache Beam 模型提供了強大的抽象化,使您免於分散式資料處理的底層細節,例如協調個別工作者、從來源讀取和寫入到接收器等。

管線抽象化封裝了資料處理任務中的所有資料和步驟。您可以根據這些抽象化來思考資料處理任務。

較高層次的抽象化將資料與執行階段特性巧妙地分開,並簡化了大規模分散式資料處理的機制。您專注於為客戶和業務創造價值,而 Dataflow 模型會處理其餘部分。

統一的批次和串流程式設計模型

Apache Beam 提供彈性,只需表達一次業務邏輯,即可在批次和串流資料管線上執行,無論是在內部透過 OSS 執行器還是在雲端透過託管服務(例如 Google Cloud Dataflow 或 AWS Kinesis Data Analytics)。

Apache Beam 將多個資料處理引擎和 SDK 統一在其獨特的 Beam 模型周圍。這提供了一種跨使用資料的不同應用程式輕鬆建立大規模通用資料基礎架構的方式。

跨語言功能

您可以從各種語言 SDK 中選擇程式設計語言:Java、Python、Go、SQL、TypeScript、Scala(透過 Scio),或利用多語言功能來讓每個團隊成員都能以他們最喜歡的程式設計語言編寫轉換,並在一個穩健的多語言管線中一起使用它們。Apache Beam 消除了技能組合的依賴性,並有助於避免被特定技術技能組合和堆疊所束縛。

可移植性

Apache Beam 提供了在各種執行引擎之間進行選擇的自由、輕鬆地在各種執行器之間切換,並保持與供應商無關。Apache Beam 的建置目標是「編寫一次,隨處執行」,您可以編寫可在語言和執行階段環境之間移植的資料管線,包括開源(例如 Apache Flink 和 Spark)和專有(例如 Google Cloud Dataflow 和 AWS KDA)。

可擴展性

Apache Beam 是開源且可擴展的。多個專案,例如 TensorFlow Extended 和 Apache Hop,都是在 Apache Beam 之上建置的,並利用其「編寫一次,隨處執行」的能力。

新的和新興產品擴大了使用案例的數量,並為 Apache Beam 使用者創造了額外的附加價值。

彈性

Apache Beam 易於採用和實施,因為它可以使您免於底層細節,並提供程式設計語言選擇的自由。

Apache Beam 資料管線使用通用轉換來表達,因此它們是可理解和可維護的,這有助於加速 Apache Beam 的採用和新團隊成員的加入。

Apache Beam 使用者回報他們體驗到令人印象深刻的價值實現時間。最值得注意的是,他們注意到開發和部署管線所需的時間減少了,從幾天縮短到幾個小時。

易於採用

Apache Beam 易於採用和實施,因為它可以使您免於底層細節,並提供程式設計語言選擇的自由。

Apache Beam 資料管線使用通用轉換來表達,因此它們是可理解和可維護的,這有助於加速 Apache Beam 的採用和新團隊成員的加入。Apache Beam 使用者回報他們體驗到令人印象深刻的價值實現時間。

最值得注意的是,他們注意到開發和部署管線所需的時間減少了,從幾天縮短到幾個小時。

若要深入了解 Apache Beam 如何為各行各業的領先者實現自訂使用案例並協調大數據生態系統的複雜業務邏輯,請瀏覽我們的案例研究章節。

關於 Apache Beam 專案

Apache Beam 是 Apache 的頂級專案,Apache 是全球最大、最受歡迎的開源社群。世界各地的資料處理領導者都為 Apache Beam 的開發做出貢獻,並透過將下一代分散式資料處理和先進技術解決方案變為現實來產生影響。

Apache Beam 於 2016 年初成立,當時 Google 和其他合作夥伴(Cloud Dataflow 的貢獻者)決定將 Google Cloud Dataflow SDK 和執行器移至 Apache Beam Incubator。

Apache Beam 於 2016 年發布,並已成為一個隨時可用且定義完善的統一程式設計模型,可以在批次和串流管線中表達業務邏輯,並允許獨立於引擎的統一執行。

Apache Beam 背後的願景是讓開發人員可以根據 Beam 模型(=Dataflow 模型)輕鬆表達資料管線,並在引擎和程式設計語言之間自由選擇。

Apache Beam 統一程式設計模型正在快速發展,不斷擴展其支援的使用案例、執行器、語言 SDK 以及內建和自訂可插入的 I/O 轉換。