前回の記事に引き続きCloud Dataflowで機械学習パイプラインを動かす手順の備忘録。 やりたいこと 前回はCloud Dataflowで使われるノードにプリインストールされていたscikit-learnとpandasを使って機械学習を行いましたが、実際の機械学習のパイプラインではOpenCVなど前処理加工するライブラリを入れたり、好きな機械学習ライブラリをインストールして分析してみたくなると思います。 今回はCloud Dataflowへの任意ライブラリのインストール手順の例としてKaggleでも人気のXGBoostをインストールして動かす方法を書いていきたいと思います。 Dataflowへのライブラリのインストール手段 Cloud Dataflow(Python)で好きなライブラリをインストールする手段としては公式ドキュメントにあるとおり、大きく以下3つの手段があるようです。 P