タグ

apache-sparkとscikit-learnに関するnabinnoのブックマーク (1)

  • PySparkで学習済みのscikit-learnのモデルを使う - Qiita

    やりたいこと Sparkで機械学習といえばMLlibだけど、まだまだscikit-learnには機能面で劣っているように思えます。例えば、scikit-learnでは学習時に正例と負例の数が不均等な場合の補正とかできますが、mllibの1.5ではまだそのような機能はありません1。こんな時にメモリに乗る程度のデータで事前にscikit-learnで学習器を作成しておき、それをpysparkで大規模データの予測に使用できるとsklearnとsparkの両者のメリットが活かせるのではと思っています。 Let's Try 方針 データをndarrayのRDDに変換し、RDDのmapで学習済みのモデルのpredictに渡せばいいのですが、そのままやると関数呼び出しのオーバーヘッドが大きそうなのである程度の大きさのバッチ単位で処理したいと思います。 事前準備 Anaconda等のscikit-lear

    PySparkで学習済みのscikit-learnのモデルを使う - Qiita
  • 1