部落格
2024/10/16
Apache Beam Summit 2024:釋放機器學習在資料處理上的力量
在最近結束的 Beam Summit 2024 中,這個從 9 月 4 日至 5 日為期兩天的活動,眾多引人入勝的演講展示了 Beam 在解決廣泛挑戰方面的潛力,重點是機器學習(ML)。這些挑戰包括大規模分散式資料的特徵工程、資料豐富化和模型推論。總而言之,峰會包括 47 場演講,其中 16 場專注於機器學習用例或功能,還有許多演講觸及這些主題。
這些演講展示了 Beam 社群的廣度和多樣性。在演講者和參與者中,有來自 23 個國家的代表。與會者包括 Beam 使用者、Beam 專案的提交者、Beam Google Summer of Code 的貢獻者以及資料處理/機器學習專家。
適用於機器學習的易用、交鑰匙式轉換
隨著最近新增至 Beam 的功能,Beam 現在為機器學習使用者提供一組豐富的交鑰匙式轉換,可處理廣泛的機器學習營運任務。這些轉換包括
- RunInference:在 CPU 和 GPU 上部署機器學習模型
- 豐富化:豐富用於機器學習特徵增強的資料
- MLTransform:將資料轉換為機器學習特徵
峰會演講涵蓋了如何使用這些功能以及人們如何已經在使用它們。重點包括
- 關於 在 Cruise 擴展自動駕駛的演講
- 關於部署用於批次和串流推論的 LLM 的多個演講
- 三個關於 RAG 的串流處理的不同演講(包括來自一位 Beam Google Summer of Code 貢獻者的 演講!)
Beam YAML:簡化機器學習資料處理
Beam 管道建立可能具有挑戰性,通常需要學習概念、管理相依性、除錯和維護機器學習任務的程式碼。為了簡化入口點,Beam YAML 引入了一種宣告式方法,該方法使用 YAML 組態檔來建立資料處理管道。不需要編碼。
Beam Summit 是 Beam 社群首次有機會展示 Beam YAML 的一些用例。它重點介紹了幾個關於 Beam YAML 如何已經成為 MavenCode 和 ChartBoost 等公司許多使用者工作流程的核心部分的演講。借助 Beam YAML,這些公司能夠建立基於組態的資料處理系統,顯著降低了公司內部的入門門檻。
Prism:為本機和遠端執行器環境提供統一的機器學習管道開發框架
Beam 為可攜式執行器提供各種支援,但開發本機管道傳統上一直很麻煩。本機執行器通常不完整且與遠端執行器(例如 DataflowRunner 和 FlinkRunner)不相容。
在 Beam Summit 上,Beam 貢獻者向社群介紹了 Prism 本機執行器。Prism 極大地改善了本機開發人員的體驗,並縮小了本機執行和遠端執行之間的差距。特別是,在處理複雜的機器學習任務時,Prism 可確保這些執行器之間的一致執行器行為,這項任務以前缺乏一致的支援。
總結
Beam Summit 2024 展示了 Apache Beam 在解決廣泛的資料處理和機器學習挑戰方面的巨大潛力。我們期待在未來看到更多創新的用例和貢獻。
若要隨時了解最新的 Beam 開發和活動,請造訪 Apache Beam 網站,並在 社群媒體上關注我們。我們鼓勵您加入 Beam 社群並為專案做出貢獻。讓我們共同釋放 Beam 的全部潛力,並塑造資料處理和機器學習的未來。