Strata+Hadoop World 與 Beam

Tyler Akidau 和我於 2016 年在 Strata+Hadoop World 上進行了為期三小時的 Apache Beam 教學。我們從助教那裡得到了很多幫助:Kenn Knowles、Reuven Lax、Felipe Hoffa、Slava Chernyak 和 Jamie Grier。總共有 66 人參加了該課程。

Exercise time

如果您想查看教學材料,我們已將其放在GitHub 上。這包括實際的投影片以及我們涵蓋的練習。如果您想了解一些關於 Beam 的知識,這是一個很好的起點。這些練習是基於一個虛構的手機遊戲,其中數據需要處理,並且基於Beam 範例目錄中的程式碼。程式碼中有 TODO,您需要在其中填寫程式碼,或者有完整的範例解決方案可以查看我們的程式碼。您可以使用 Beam 支援的執行器在您自己的電腦或叢集上執行這些範例。

我想分享一些我在會議期間對 Beam 的看法。

數據工程師正在尋求將 Beam 作為一種未來驗證的方式,這表示程式碼可以在各種大數據框架之間移植。事實上,許多與會者仍然在使用 Hadoop MapReduce,並希望轉移到新的框架。他們意識到不斷重寫程式碼並不是最具生產力的方法。

數據科學家對使用 Beam 非常感興趣。他們有興趣使用單一 API 進行分析,而不是使用多個不同的 API。我們談論了 Beam 在 Python API 上的進展。如果您想先睹為快,它正在功能分支上積極開發中。隨著 Beam 的成熟,我們希望加入其他支援的語言。

我們從 Beam 用戶那裡清楚地聽到,出色的執行器支援對於採用至關重要。我們有出色的 Apache Flink 支援。在會議期間,我們有一些更多的志願者表示願意幫助開發 Spark 執行器。

在管理和思想領袖方面,Beam 從先前會議的「什麼是 Beam?」轉變為這次會議的「我對 Beam 感興趣」或「我對 Beam 形成了明確的看法」。這是我在早期技術採用中尋找的指標之一。

So much brainpower answering questions

我們以 Beam 在 Apache Spark、Apache Flink、本地執行器和 DataFlow 執行器上運行的現場演示結束了本教學。然後,我們引入了強大的智囊團並舉行了問答環節。

如果您要參加會議,我們鼓勵您尋找 Beam 課程。如果您想使用這些材料來進行您自己的 Beam 演講或教學,我們很樂意為您提供幫助。除了本教學之外,我們還有其他簡報材料。您可以透過使用者郵件列表與我們聯繫。