Apache Beam Summit 2024：釋放機器學習在資料處理上的力量

部落格

2024/10/16

Apache Beam Summit 2024：釋放機器學習在資料處理上的力量

XQ Hu , Danny McCormick & Reza Rokni [@rarokni]

在最近結束的 Beam Summit 2024 中，這個從 9 月 4 日至 5 日為期兩天的活動，眾多引人入勝的演講展示了 Beam 在解決廣泛挑戰方面的潛力，重點是機器學習（ML）。這些挑戰包括大規模分散式資料的特徵工程、資料豐富化和模型推論。總而言之，峰會包括 47 場演講，其中 16 場專注於機器學習用例或功能，還有許多演講觸及這些主題。

這些演講展示了 Beam 社群的廣度和多樣性。在演講者和參與者中，有來自 23 個國家的代表。與會者包括 Beam 使用者、Beam 專案的提交者、Beam Google Summer of Code 的貢獻者以及資料處理/機器學習專家。

適用於機器學習的易用、交鑰匙式轉換

隨著最近新增至 Beam 的功能，Beam 現在為機器學習使用者提供一組豐富的交鑰匙式轉換，可處理廣泛的機器學習營運任務。這些轉換包括

RunInference：在 CPU 和 GPU 上部署機器學習模型
豐富化：豐富用於機器學習特徵增強的資料
MLTransform：將資料轉換為機器學習特徵

峰會演講涵蓋了如何使用這些功能以及人們如何已經在使用它們。重點包括

關於在 Cruise 擴展自動駕駛的演講
關於部署用於批次和串流推論的 LLM 的多個演講
三個關於 RAG 的串流處理的不同演講（包括來自一位 Beam Google Summer of Code 貢獻者的演講！）

Beam YAML：簡化機器學習資料處理

Beam 管道建立可能具有挑戰性，通常需要學習概念、管理相依性、除錯和維護機器學習任務的程式碼。為了簡化入口點，Beam YAML 引入了一種宣告式方法，該方法使用 YAML 組態檔來建立資料處理管道。不需要編碼。

Beam Summit 是 Beam 社群首次有機會展示 Beam YAML 的一些用例。它重點介紹了幾個關於 Beam YAML 如何已經成為 MavenCode 和 ChartBoost 等公司許多使用者工作流程的核心部分的演講。借助 Beam YAML，這些公司能夠建立基於組態的資料處理系統，顯著降低了公司內部的入門門檻。

Prism：為本機和遠端執行器環境提供統一的機器學習管道開發框架

Beam 為可攜式執行器提供各種支援，但開發本機管道傳統上一直很麻煩。本機執行器通常不完整且與遠端執行器（例如 DataflowRunner 和 FlinkRunner）不相容。

在 Beam Summit 上，Beam 貢獻者向社群介紹了 Prism 本機執行器。Prism 極大地改善了本機開發人員的體驗，並縮小了本機執行和遠端執行之間的差距。特別是，在處理複雜的機器學習任務時，Prism 可確保這些執行器之間的一致執行器行為，這項任務以前缺乏一致的支援。

總結

Beam Summit 2024 展示了 Apache Beam 在解決廣泛的資料處理和機器學習挑戰方面的巨大潛力。我們期待在未來看到更多創新的用例和貢獻。

若要隨時了解最新的 Beam 開發和活動，請造訪 Apache Beam 網站，並在社群媒體上關注我們。我們鼓勵您加入 Beam 社群並為專案做出貢獻。讓我們共同釋放 Beam 的全部潛力，並塑造資料處理和機器學習的未來。

適用於機器學習的易用、交鑰匙式轉換

Beam YAML：簡化機器學習資料處理

Prism：為本機和遠端執行器環境提供統一的機器學習管道開發框架

總結

部落格最新消息