Apache Beam:孵化六個月

自 Apache Beam 正式被 Apache 軟體基金會接受進入孵化器以來,已經過去六個多月。作為一個社群,我們一直努力讓 Beam 啟動運作。

僅看這前六個月的原始數字,就是

  • Cloudera、dataArtisans 和 Google 捐贈的 48,238 行現有程式碼。
  • 45 位貢獻者提出的 761 個 Pull Request。
  • 開啟 498 個 Jira 問題並解決 245 個。
  • 1 個孵化中的版本(以及另一個正在進行中)。
  • 4,200 小時的自動化測試。
  • user@ 上有 161 位訂閱者 / 606 則訊息。
  • dev@ 上有 217 位訂閱者 / 1205 則訊息。
  • 在 GitHub 上有 277 個星星和 174 個 Fork。

在這些數字背後,有大量的技術進展,包括

  • 重構整個程式碼庫、範例和測試,使其真正獨立於執行器。
  • Apache Flink 執行器中批次處理的的時間戳/視窗和串流模式中有限來源和側輸入的新功能。
  • 正在進行將 Apache Spark 執行器升級到使用 Spark 2.0 的工作。
  • 來自更廣泛的 Apache 社群的幾個新執行器 - Apache Gearpump 有自己的功能分支、Apache Apex 有一個 PR,並且開始了關於 Apache Storm 和其他執行器的對話。
  • 用於公開 Beam 模型的新的 SDK/DSL - 來自 Google 的 Python SDK 位於一個功能分支中,並且計劃添加來自 Spotify 的 Scio DSL。
  • 支援其他資料來源和接收器 - Apache Kafka 和 JMS 已經加入,Amazon Kinesis、Apache Cassandra 和 MongoDB 的 PR 正在進行中,並且正在計劃更多連接器。

但也許最重要的是,我們致力於建立一個積極參與、熱情友好的社群。到目前為止,我們已經

  • 開始建立一個活躍的開發者社群,就諸如 DoFn 重新使用語義、序列化技術和用於存取狀態的 API 等功能進行了詳細的設計討論。
  • 開始建立一個使用者社群,其中包含活躍的郵件列表以及對網站和文件的改進。
  • 在包括 ApacheCon、Hadoop Summit、Kafka Summit、JBCN Barcelona 和 Strata 在內的各種場所就 Beam 進行了多次演講。
  • 在多個現有的聚會上進行了簡報,並開始組織我們自己的一些聚會。

雖然回顧我們所做的一切很棒,但我們正全力以赴朝著穩定的版本和從孵化器的畢業邁進。我們很樂意得到您的幫助 - 加入郵件列表,查看貢獻指南,並從 Jira 中獲取一個入門任務