Go 的 WordCount 快速入門

此快速入門將引導您執行您的第一個 Beam 管道,以在您選擇的執行器上執行使用 Beam 的 Go SDK 撰寫的 WordCount

如果您有興趣為 Apache Beam Go 程式碼庫貢獻,請參閱貢獻指南

設定您的環境

Beam SDK for Go 需要 go 1.20 或更新版本。可以從這裡下載。執行以下命令來檢查您擁有的 go 版本

go version

如果您不熟悉 Go,請參閱Go 入門教學

執行 wordcount

Apache Beam 範例目錄中有許多範例。所有範例都可以通過傳遞範例中描述的必要參數來執行。

例如,要執行 wordcount,請執行

go run github.com/apache/beam/sdks/v2/go/examples/wordcount@latest --input "gs://apache-beam-samples/shakespeare/kinglear.txt" --output counts
less counts
go run github.com/apache/beam/sdks/v2/go/examples/wordcount@latest --input gs://dataflow-samples/shakespeare/kinglear.txt \
            --output gs://<your-gcs-bucket>/counts \
            --runner dataflow \
            --project your-gcp-project \
            --region your-gcp-region \
            --temp_location gs://<your-gcs-bucket>/tmp/ \
            --staging_location gs://<your-gcs-bucket>/binaries/
# Build and run the Spark job server from Beam source.
# -PsparkMasterUrl is optional. If it is unset the job will be run inside an embedded Spark cluster.
./gradlew :runners:spark:3:job-server:runShadow -PsparkMasterUrl=spark://127.0.0.1:7077

# In a separate terminal, run:
go run github.com/apache/beam/sdks/v2/go/examples/wordcount@latest --input <PATH_TO_INPUT_FILE> \
            --output counts \
            --runner spark \
            --endpoint localhost:8099

下一步

如果您遇到任何問題,請隨時與我們聯繫