Apache Beam Python SDK
Apache Beam 的 Python SDK 提供了一個簡單而強大的 API,用於建置批次和串流資料處理管線。
開始使用 Python SDK
開始使用 Beam Python SDK 快速入門 來設定您的 Python 開發環境、取得 Beam SDK for Python,並執行範例管線。然後,閱讀 Beam 程式設計指南 以了解適用於 Beam 中所有 SDK 的基本概念。
請參閱 Python API 參考 以取得有關個別 API 的更多資訊。
Python 串流管線
從 Beam SDK 2.5.0 版開始,可以使用 Python 串流管線執行(有一些 限制)。
Python 類型安全
Python 是一種動態類型語言,沒有靜態類型檢查。 Beam SDK for Python 在管線建構和執行期間使用類型提示,試圖模擬真正的靜態類型檢查所達到的正確性保證。 確保 Python 類型安全 將逐步說明如何使用類型提示,這有助於您使用 Direct Runner 預先找出潛在的錯誤。
管理 Python 管線相依性
當您在本機執行管線時,您的管線所依賴的套件會在本機電腦上安裝,因此可以使用。但是,當您想要遠端執行管線時,必須確保這些相依性在遠端電腦上可以使用。管理 Python 管線相依性 將說明如何使您的相依性可供遠端工作程式使用。
為 Python 開發新的 I/O 連接器
Beam SDK for Python 提供了一個可擴展的 API,您可以使用它來建立新的 I/O 連接器。請參閱開發 I/O 連接器概觀 以取得有關開發新 I/O 連接器的資訊,以及語言特定的實作指南連結。
使用 Python 進行機器學習推論
若要將機器學習模型整合到您的管線中以進行推論,請使用 PyTorch 和 Scikit-learn 模型的 RunInference API。如果您使用的是 TensorFlow 模型,則可以使用 來自 tfx_bsl
的程式庫。
您可以使用 RunInference API 建立多種類型的轉換:API 從模型處理常式取得多種類型的設定參數,參數類型決定了模型的實作。如需更多資訊,請參閱關於 Beam ML。
TensorFlow Extended (TFX) 是一個用於部署生產 ML 管線的端對端平台。TFX 與 Beam 整合。如需更多資訊,請參閱TFX 使用者指南。
Python 多語言管線快速入門
Apache Beam 可讓您結合以任何支援的 SDK 語言編寫的轉換,並在一個多語言管線中使用它們。若要了解如何使用 Python SDK 建立多語言管線,請參閱Python 多語言管線快速入門。
Beam Python 中無法復原的錯誤
一些常見的錯誤可能會在工作程式啟動期間發生,並阻止作業開始。若要了解這些錯誤以及如何在 Python SDK 中對其進行疑難排解,請參閱Beam Python 中無法復原的錯誤。