部落格 & 發布
2024/02/14
Apache Beam 2.54.0
我們很高興推出 Beam 的新版本 2.54.0。此版本包含改進和新功能。請參閱下載頁面了解此版本。
有關 2.54.0 變更的更多資訊,請查看詳細發行說明。
重點
- 富化轉換 以及添加到 Python SDK 的 GCP BigTable 處理器 (#30001)。
- 從這個版本開始,在 Google Cloud Dataflow 上運行的 Beam Java 批次管線預設使用可移植執行器 (v2)。 (所有其他語言已在執行器 V2 上。)請參閱 執行器 V2 文件,了解如何有意啟用或停用它。
I/O
- 新增了使用 Python 的儲存寫入 API 寫入 BigQuery 動態目標的支援 (#30045)
- 新增了在 ClickHouse(Java)中支援 Tuples DataType 的功能 (#29715)。
- 新增了對 FileIO、TextIO、AvroIO 處理錯誤記錄的支援 (#29670)。
- 新增了對 BigtableIO 處理錯誤記錄的支援 (#29885)。
新功能/改進
重大變更
- 不適用
已棄用
- 不適用
錯誤修復
- 修復了自 2.46.0 以來影響某些 Go SDK 的記憶體洩漏問題。 (#28142)
安全性修復
- 不適用
已知問題
- 某些使用 2.52.0-2.54.0 SDK 執行並使用大型實體化側邊輸入的 Python 管線可能會受到效能回歸的影響。若要在這些 SDK 版本上恢復先前的行為,請提供
--max_cache_memory_usage_mb=0
管線選項。 (#30360)。 - 使用 2.53.0-2.54.0 SDK 執行並在 GCS 上執行檔案操作的 Python 管線可能會受到過多 HTTP 請求的影響。這可能會導致效能回歸或權限問題。 (#28398)
- 在 Python 管線中,當關閉非活動的捆綁處理器時,關閉邏輯可能會過度積極地持有鎖,從而阻止接受新工作。此問題的症狀包括長時間運行的作業速度緩慢或停滯。已在 2.56.0 中修復 (#30679)。
- 使用 2.53.0-2.58.0 SDK 執行並從 GCS 讀取資料的 Python 管線可能會受到資料損毀問題的影響 (#32169)。此問題將在 2.59.0 中修復 (#32135)。若要解決此問題,請將 google-cloud-storage 套件更新至 2.18.2 或更新版本。
如需最新的已知問題清單,請參閱 https://github.com/apache/beam/blob/master/CHANGES.md
貢獻者列表
根據 git shortlog,以下人員對 2.54.0 版本做出了貢獻。感謝所有貢獻者!
Ahmed Abualsaud
Alexey Romanenko
Anand Inguva
Andrew Crites
Arun Pandian
Bruno Volpato
caneff
Chamikara Jayalath
Changyu Li
Cheskel Twersky
Claire McGinty
clmccart
Damon
Danny McCormick
dependabot[bot]
Edward Cheng
Ferran Fernández Garrido
Hai Joey Tran
hugo-syn
Issac
Jack McCluskey
Jan Lukavský
JayajP
Jeffrey Kinard
Jerry Wang
Jing
Joey Tran
johnjcasey
Kenneth Knowles
Knut Olav Løite
liferoad
Marc
Mark Zitnik
martin trieu
Mattie Fu
Naireen Hussain
Neeraj Bansal
Niel Markwick
Oleh Borysevych
pablo rodriguez defino
Rebecca Szper
Ritesh Ghorse
Robert Bradshaw
Robert Burke
Sam Whittle
Shunping Huang
Svetak Sundhar
S. Veyrié
Talat UYARER
tvalentyn
Vlado Djerek
Yi Hu
Zechen Jian