部落格 & 發布
2021/02/22
Apache Beam 2.28.0
我們很高興推出 Apache Beam 的新版本 2.28.0。此版本包含改進和新功能。請參閱此版本的下載頁面。有關 2.28.0 中變更的更多資訊,請查看詳細發行說明。
重點
- 許多與 Parquet 支援相關的改進 (BEAM-11460、BEAM-8202 和 BEAM-11526)
- BeamSQL 中的雜湊函數 (BEAM-10074)
- ZetaSQL 中的雜湊函數 (BEAM-11624)
- 使用 HLL Impl 建立 ApproximateDistinct (BEAM-10324)
I/O
- SpannerIO 支援將 BigDecimal 用於 Numeric 欄位 (BEAM-11643)
- 將 Beam schema 支援新增至 ParquetIO (BEAM-11526)
- 支援 ParquetTable Writer (BEAM-8202)
- GCP BigQuery sink (串流插入) 使用執行器決定的分片 (BEAM-11408)
- PubSub 支援類型:TIMESTAMP、DATE、TIME、DATETIME (BEAM-11533)
新功能 / 改進
- ParquetIO 新增方法 readGenericRecords 和 readFilesGenericRecords 可以讀取具有未知 schema 的檔案。請參閱 PR-13554 和 (BEAM-11460)
- 在 KafkaTableProvider 中新增 thrift 的支援 (BEAM-11482)
- 新增 HadoopFormatIO 略過鍵/值複製的支援 (BEAM-11457)
- 支援在 Convert.to 轉換中轉換為 GenericRecords (BEAM-11571)。
- 支援在 Beam SQL 中寫入 Parquet 資料表 (BEAM-8202)。
- 支援讀取具有未知 schema 的 Parquet 檔案 (BEAM-11460)
- 支援 ParquetIO 的使用者可配置 Hadoop Configuration 標誌 (BEAM-11527)
- 向 ReadFromKafka 公開 commit_offset_in_finalize 和 timestamp_policy (BEAM-11677)
- 使用 FlinkRunner 和 Beam worker pool 容器時,未將 S3 選項提供給 boto3 client (BEAM-11799)
- HDFS 未重複資料刪除相同的組態路徑 (BEAM-11329)
- BeamSQL 中的雜湊函數 (BEAM-10074)
- 使用 HLL Impl 建立 ApproximateDistinct (BEAM-10324)
- 將 Beam schema 支援新增至 ParquetIO (BEAM-11526)
- 新增 Deque 編碼器 (BEAM-11538)
- ZetaSQL 中的雜湊函數 (BEAM-11624)
- 重構 ParquetTableProvider ()
- 將 JVM 屬性新增至 JavaJobServer (BEAM-8344)
- 支援的 Flink 版本之單一事實來源 ()
- 使用指標進行 Python BigQuery 串流插入 API 延遲記錄 (BEAM-11018)
- 使用指標進行 Java BigQuery 串流插入 API 延遲記錄 (BEAM-11032)
- 將 Flink 執行器升級至 Flink 版本 1.12.1 和 1.11.3 (BEAM-11697)
- 將 Beam 基本映像檔升級為使用 Tensorflow 2.4.1 (BEAM-11762)
- 建立 Beam GCP BOM (BEAM-11665)
重大變更
- Java 成品 "beam-sdks-java-io-kinesis"、"beam-sdks-java-io-google-cloud-platform" 和 "beam-sdks-java-extensions-sql-zetasql" 宣告 Guava 30.1-jre 依賴 (在 Beam 2.27.0 中為 25.1-jre)。如果您的專案或依賴項依賴已移除的 API,這個新的 Guava 版本可能會導致依賴項衝突。如果受到影響,請確保在 Maven 中透過
dependencyManagement
和在 Gradle 中透過force
使用適當的 Guava 版本。
貢獻者清單
根據 git shortlog,下列人員為 2.28.0 版本做出了貢獻。感謝所有貢獻者!
Ahmet Altay, Alex Amato, Alexey Romanenko, Allen Pradeep Xavier, Anant Damle, Artur Khanin, Boyuan Zhang, Brian Hulette, Chamikara Jayalath, Chris Roth, Costi Ciudatu, Damon Douglas, Daniel Collins, Daniel Oliveira, David Cavazos, David Huntsperger, Elliotte Rusty Harold, Emily Ye, Etienne Chauchot, Etta Rapp, Evan Palmer, Eyal, Filip Krakowski, Fokko Driesprong, Heejong Lee, Ismaël Mejía, janeliulwq, Jan Lukavský, John Edmonds, Jozef Vilcek, Kenneth Knowles Ke Wu, kileys, Kyle Weaver, MabelYC, masahitojp, Masato Nakamura, Milena Bukal, Miraç Vuslat Başaran, Nelson Osacky, Niel Markwick, Ning Kang, omarismail94, Pablo Estrada, Piotr Szuberski, ramazan-yapparov, Reuven Lax, Reza Rokni, rHermes, Robert Bradshaw, Robert Burke, Robert Gruener, Romster, Rui Wang, Sam Whittle, shehzaadn-vd, Siyuan Chen, Sonam Ramchand, Tobiasz Kędzierski, Tomo Suzuki, tszerszen, tvalentyn, Tyson Hamilton, Udi Meiri, Xinbin Huang, Yichi Zhang, Yifan Mai, yoshiki.obata, Yueyang Qiu, Yusaku Matsuki