エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
horovodを用いたPytorchの分散学習 - Stimulator
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
horovodを用いたPytorchの分散学習 - Stimulator
- はじめに - 近年、分散深層学習の研究、ライブラリ開発が盛んに行われている。 本記事はuber社が公開... - はじめに - 近年、分散深層学習の研究、ライブラリ開発が盛んに行われている。 本記事はuber社が公開しているhorovodを利用した分散CNNのメモである。 - 前提 - horovodとは、バックエンドをOpenMPIとしTensorFlow、Keras、PyTorchを最小限のコード変更で分散学習できるようにするためのパッケージである。 github.com 現状TensorFlowを使って書かれたコードをDistributed TensorFlowに対応させるにはパラメータサーバやマスタサーバの動きを理解した上で多くの変更を要するが、horovodではそれらをncclのall reduceを利用しwrappingしてあるため、最小限のコード変更で分散学習が可能となる。 また、公式によると普通に書くより早いらしい(未検証) 複数ノードで利用する場合、各ノードがOpenMPIを通し