「Apache Beam 及其執行引擎的抽象化對我們來說非常重要。它節省了大量的工作...如果完全靠自己,很難為 Dataflow 或 Spark 建立這種支援。這項技術的存在首先就令人驚嘆,真的太驚人了!不必擔心所有底層平台 - 這真是太棒了!」

Matt Casters
Neo4j 首席解決方案架構師,Apache Hop 共同創辦人

使用 Apache Hop 進行可視化的 Apache Beam 管線設計和編排

背景

Apache Hop 是一個開源的資料編排和資料工程平台,旨在透過可視化管線開發環境來促進資料處理的各個方面。這個易於使用、快速且彈性的平台使開發人員能夠在 Hop GUI 中建立和管理 Apache Beam 批次和串流管線。Apache Hop 使用元數據和核心來描述資料應如何處理,並使用 Apache Beam 來「設計一次,隨處執行」。

Neo4j 的首席解決方案架構師 Matt Casters 是 Apache Beam 及其執行引擎抽象化的早期採用者。Matt 多年來一直是 Apache 開源社群的活躍成員,並利用 Apache Beam 作為執行引擎來建構 Apache Hop。

Apache Hop 專案

Apache Beam 在全球範圍內日益普及和不斷增長的用戶數量激發了 Matt Casters 將抽象概念擴展到可視化管線生命週期管理和開發的想法。Matt 共同創立並孵化了 Apache Hop 專案,該專案於 2021 年 12 月成為 Apache 軟體基金會 的頂級專案。該平台使所有技能水平的用戶都可以在不編寫程式碼的情況下建立、測試、啟動和部署強大的資料工作流程。Apache Hop 直觀的拖放介面提供了 Apache Beam 管線的可視化表示,簡化了管線設計、執行、預覽、監視和除錯。

我從一開始就非常喜歡 Beam。Apache Beam 現在是 Apache Hop 專案非常重要的一部分。

Matt Casters
Neo4j 首席解決方案架構師,
Apache Hop 共同創辦人

Apache Hop GUI 允許資料專業人員以可視化的方式工作,並專注於他們需要執行的「什麼」而不是「如何」,使用元數據來描述應如何處理 Apache Beam 管線。Apache Hop 的 與轉換無關的 動作外掛程式(「hops」)將轉換連接在一起,建立一個管線。各種 Apache Beam 執行器,例如 SparkFlinkDataflowDirect 執行器,在 Apache Hop 的 元數據提供者工作流程引擎(外掛程式) 的幫助下讀取元數據,並執行管線。

Apache Hop 用於 一些最受歡迎的技術(例如 Neo4j)的自訂外掛程式和元數據物件,使使用者能夠在 Apache Beam 管線中執行特定於資料庫和技術的轉換,從而實現原生的最佳化連接和彈性的 Apache Beam 管線配置。例如,Apache Hop 的 Neo4j 外掛程式 將 Apache Beam 管線的記錄和執行歷程記錄儲存在 Neo4j 圖形資料庫中,並使使用者能夠查詢此資訊以獲取更多詳細資訊,例如快速跳轉到發生錯誤的位置。Apache Hop 轉換、Apache Beam 內建 I/O 和 Apache Beam 驅動的資料處理的組合為更多接收器和來源以及自訂用例開闢了新的視野。

Apache Hop 旨在為 Apache Beam 資料管線帶來無程式碼的方法。有時,特定程式設計語言、框架或引擎的選擇是由開發人員的偏好驅動的,這導致企業被綁定到特定的技術技能組合和堆疊。Apache Hop 透過使用完全可插入的執行階段支援抽象化 I/O 並在 Apache Beam 管線之上提供圖形使用者介面來消除此依賴性。管線元素的所有設定都在 Hop 的可視化編輯器中執行一次,並且管線會以 JSON 和 CSV 格式自動描述為元數據。程式設計資料管線的原始程式碼成為一種選項,而不是必要條件。Apache Hop 不需要特定的程式設計語言知識即可建立管線,從而有助於採用 Apache Beam 統一串流和批次處理技術。

一般而言,可視化管線設計介面對非開發人員受眾來說真的很有價值...當涉及到降低設定成本、維護成本、提高投資報酬率和長期保護投資時,我們明確地選擇站在組織的一方。

Matt Casters
Neo4j 首席解決方案架構師,
Apache Hop 共同創辦人

結果

Apache Beam 不斷擴展其支援的用例和情境數量,並使將先進的技術解決方案變為現實成為可能。作為 Apache Beam 及其強大抽象化的早期採用者,Matt Casters 利用這些知識和經驗來建立 Apache Hop。該平台透過啟用可視化管線開發和生命週期管理,為 Apache Beam 使用者創造了附加價值。

Matt 認為 Apache Beam 是 Apache Hop 背後的基礎和驅動力。Apache Beam 和 Apache Hop 專案之間的溝通不斷促進共同創造,並透過新功能豐富這兩個產品。

Apache Hop 專案是 Apache 開源社群推動持續改進並由協作組織放大的範例。

知識共享和協作是社群中自然而然的事情。如果我們看到一些改進的空間,我們會交流想法,這樣,我們會不斷推動 Apache Beam 和 Apache Hop 專案向前發展。透過共同努力,我們可以處理最複雜的問題並解決它們。

Matt Casters
Neo4j 首席解決方案架構師,
Apache Hop 共同創辦人

這個資訊有用嗎?