Apache Beam 2.54.0

我們很高興推出 Beam 的新版本 2.54.0。此版本包含改進和新功能。請參閱下載頁面了解此版本。

有關 2.54.0 變更的更多資訊,請查看詳細發行說明

重點

  • 富化轉換 以及添加到 Python SDK 的 GCP BigTable 處理器 (#30001)。
  • 從這個版本開始,在 Google Cloud Dataflow 上運行的 Beam Java 批次管線預設使用可移植執行器 (v2)。 (所有其他語言已在執行器 V2 上。)請參閱 執行器 V2 文件,了解如何有意啟用或停用它。

I/O

  • 新增了使用 Python 的儲存寫入 API 寫入 BigQuery 動態目標的支援 (#30045)
  • 新增了在 ClickHouse(Java)中支援 Tuples DataType 的功能 (#29715)。
  • 新增了對 FileIO、TextIO、AvroIO 處理錯誤記錄的支援 (#29670)。
  • 新增了對 BigtableIO 處理錯誤記錄的支援 (#29885)。

新功能/改進

重大變更

  • 不適用

已棄用

  • 不適用

錯誤修復

  • 修復了自 2.46.0 以來影響某些 Go SDK 的記憶體洩漏問題。 (#28142)

安全性修復

  • 不適用

已知問題

  • 某些使用 2.52.0-2.54.0 SDK 執行並使用大型實體化側邊輸入的 Python 管線可能會受到效能回歸的影響。若要在這些 SDK 版本上恢復先前的行為,請提供 --max_cache_memory_usage_mb=0 管線選項。 (#30360)。
  • 使用 2.53.0-2.54.0 SDK 執行並在 GCS 上執行檔案操作的 Python 管線可能會受到過多 HTTP 請求的影響。這可能會導致效能回歸或權限問題。 (#28398)
  • 在 Python 管線中,當關閉非活動的捆綁處理器時,關閉邏輯可能會過度積極地持有鎖,從而阻止接受新工作。此問題的症狀包括長時間運行的作業速度緩慢或停滯。已在 2.56.0 中修復 (#30679)。
  • 使用 2.53.0-2.58.0 SDK 執行並從 GCS 讀取資料的 Python 管線可能會受到資料損毀問題的影響 (#32169)。此問題將在 2.59.0 中修復 (#32135)。若要解決此問題,請將 google-cloud-storage 套件更新至 2.18.2 或更新版本。

如需最新的已知問題清單,請參閱 https://github.com/apache/beam/blob/master/CHANGES.md

貢獻者列表

根據 git shortlog,以下人員對 2.54.0 版本做出了貢獻。感謝所有貢獻者!

Ahmed Abualsaud

Alexey Romanenko

Anand Inguva

Andrew Crites

Arun Pandian

Bruno Volpato

caneff

Chamikara Jayalath

Changyu Li

Cheskel Twersky

Claire McGinty

clmccart

Damon

Danny McCormick

dependabot[bot]

Edward Cheng

Ferran Fernández Garrido

Hai Joey Tran

hugo-syn

Issac

Jack McCluskey

Jan Lukavský

JayajP

Jeffrey Kinard

Jerry Wang

Jing

Joey Tran

johnjcasey

Kenneth Knowles

Knut Olav Løite

liferoad

Marc

Mark Zitnik

martin trieu

Mattie Fu

Naireen Hussain

Neeraj Bansal

Niel Markwick

Oleh Borysevych

pablo rodriguez defino

Rebecca Szper

Ritesh Ghorse

Robert Bradshaw

Robert Burke

Sam Whittle

Shunping Huang

Svetak Sundhar

S. Veyrié

Talat UYARER

tvalentyn

Vlado Djerek

Yi Hu

Zechen Jian