タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

GPUとdeep learningに関するR2Mのブックマーク (2)

  • GTC Japan 2017 - NVIDIAのVoltaを読み解く(2) V100で新設されたTensorコア

    Voltaで新たに追加されたTensorコア V100で新設されたTensorコアであるが、4行4列の行列AとBを掛け、それを行列Cに足しこむという演算を行う。行列AとBはFP16形式、行列Cと演算結果の行列DはFP16あるいはFP32形式である。 V100 GPUのSMは、Tensorコアの追加によりディープラーニング性能を大幅に引き上げ、SIMTモデルの改良などプログラムの生産性を向上させるため、命令セットを一新した ディープラーニングの計算では、A、Bの積をFP16で計算しても、結果を累積するCの計算をFP32で行えば、必要な精度は確保できるということから、Tensorコアは乗算はFP16、加算はFP32という混合精度の演算を行っている。 Tensorコアは、全体で128演算を必要とするこの計算を1サイクルで実行できる。このため、V100 GPUは、非常に高いディープラーニング性能を

    GTC Japan 2017 - NVIDIAのVoltaを読み解く(2) V100で新設されたTensorコア
  • Tensorflowを使ったDeep LearningにおけるGPU性能調査 - 株式会社カブク

    Kabukuエンジニアブログを始めます どうも、おはこんばんちわ、カブクの足立です。 カブクのエンジニアって何やっているのか分かりにくいね、と言われ続け、我々のことを知ってもらうためにエンジニアブログなどで発信していかねば。 と、一念発起してはや半年。 忙しさにかまけて先延ばしにし続けるあるある状況を打開すべくKabukuエンジニアブログを始めます! 会社のエンジニアブログは重厚長大で、会社ブランディングを意識し、自社が技術的に優れている事をアピールする風潮があります。我々はそこに風穴を空けるべく、重厚長大ではないブログも書いていこう! 重厚長大じゃなくても世の中のためになることはある。 もっとライトにエンジニアがオフィシャルブログで情報発信していってもいいじゃないか。 と、言い訳たっぷり、ハードルを地中に埋めたところで、記念すべき第一回は会社のビジネス活動に関係ないDeep Learni

    Tensorflowを使ったDeep LearningにおけるGPU性能調査 - 株式会社カブク
  • 1