Python 轉換目錄概觀

逐元素

轉換描述
擴充使用遠端服務執行資料擴充。
篩選給定一個謂詞,篩選出所有不符合謂詞的元素。
FlatMap將傳回集合的函數套用至輸入中的每個元素,並輸出所有產生的元素。
Keys從鍵值對集合中的每個元素提取鍵。
KvSwap交換鍵值對集合中每個元素的鍵和值。
Map將函數套用至輸入中的每個元素,並輸出結果。
MLTransform將資料處理轉換套用至資料集。
ParDo將使用者定義的 DoFn 套用至輸入集合中每個元素的最通用機制。
Partition根據某些分割函數,將每個輸入元素路由至特定的輸出集合。
Regex根據正規表示式篩選輸入字串元素。也可以根據比對群組轉換它們。
Reify用於在各種 Beam 值的顯式和隱式形式之間進行轉換的轉換。
RunInference使用機器學習 (ML) 模型執行本機和遠端推論。
ToString將輸入集合中的每個元素轉換為字串。
WithTimestamps套用函數以確定輸出集合中每個元素的時間戳記,並更新與每個輸入相關聯的隱式時間戳記。請注意,僅將時間戳記向前調整是安全的。
Values從鍵值對集合中的每個元素提取值。

聚合

轉換描述
ApproximateQuantiles給定一個分佈,尋找大約 N 個四分位數。
ApproximateUnique給定一個 pcollection,傳回唯一元素的估計數量。
BatchElements轉換將元素批次化以進行攤銷處理。
CoGroupByKey取得幾個鍵控的元素集合,並產生一個集合,其中每個元素由鍵和與該鍵相關聯的所有值組成。
CombineGlobally轉換以組合元素。
CombinePerKey轉換以組合每個鍵的元素。
CombineValues轉換以組合鍵控的可迭代物件。
Count計算每個聚合中的元素數量。
Distinct產生一個包含來自輸入集合的不同元素的集合。
GroupByKey取得一個鍵控的元素集合,並產生一個集合,其中每個元素由鍵和與該鍵相關聯的所有值組成。
GroupBy取得元素集合,並產生一個集合,該集合按這些元素的屬性分組。與 GroupByKey 不同,鍵是從元素本身動態建立的。
GroupIntoBatches將輸入批次化為所需的批次大小。
Latest取得具有最新時間戳記的元素。
Max取得每個聚合中具有最大值的元素。
Mean計算每個聚合內的平均值。
Min取得每個聚合中具有最小值的元素。
Sample從每個聚合中隨機選取一些元素。
Sum將每個聚合中的所有元素加總。
ToList將所有元素聚合到單一清單中。
Top計算每個聚合中最大的元素。

其他

轉換描述
Create從記憶體中的清單建立集合。
Flatten給定多個輸入集合,產生一個包含來自所有輸入集合的所有元素的單一輸出集合。
Reshuffle給定一個輸入集合,在工作器之間重新分配元素。這對於調整平行處理或防止耦合失敗最有用。
WindowInto根據函數在邏輯上將集合的元素分割或分組為有限的視窗。