タグ

ブックマーク / dropout009.hatenablog.com (7)

  • バイアス-バリアンスの分解と、アンサンブルの話 - Dropout

    はじめに バイアスとバリアンスの分解 シミュレーションでバイアスとバリアンスの関係を確認する シミュレーションの設定 シミュレーション結果の確認 バイアスとバリアンスのトレードオフを可視化する モデルのアンサンブルでばらつきを抑える アンサンブルの効果を数式で確認する バイアス バリアンス アンサンブルの効果をシミュレーションで確認する まとめ 参考文献 はじめに この記事では、バイアス(偏り)とバリアンス(分散、ばらつき)の分解について、数式とシミュレーションの両面から確認し、 ある種の予測誤差はモデルのバイアスとバリアンスに分解できること バイアスとバリアンスにはトレードオフの関係があること モデルのアンサンブルはバリアンスの減少を通じて予測精度を改善できること アンサンブルはモデル同士の相関が小さいほど有効なこと を示します。 バイアスとバリアンスの分解 バイアスとバリアンスの分解を

    バイアス-バリアンスの分解と、アンサンブルの話 - Dropout
  • 多重共線性と回帰係数の信頼性の話。あとリッジ回帰。 - Dropout

    はじめに 多重共線性とOLS推定量の信頼度 線形回帰モデルの導入 OLS推定量 Annihilator Matrix OLS推定量の別表現 補助回帰 OLS推定量の分散を解釈する シミュレーションによる信頼度の確認 シミュレーションの設定 多重共線性とOLS推定量の信頼度 サンプルサイズとOLS推定量の信頼度 リッジ推定量で推定量の信頼性を高める リッジ推定量の導入 リッジ推定量の性質 変換行列の準備 リッジ推定量の期待値 リッジ推定量の分散 シミュレーションによる確認 まとめ 参考文献 はじめに 先日、多重共線性に関する @hizakayuさんや@M123Takahashiさんのコメントを目にしました。 多重共線性の問題は,どの説明変数に強い相関があるかにより変わります.たとえば,y=b0+b1x1+b2x2+b3x3で,x1からyへの効果b1に興味があり,x2とx3は交絡因子とします.

    多重共線性と回帰係数の信頼性の話。あとリッジ回帰。 - Dropout
  • tidymodelsとDALEXによるtidyで解釈可能な機械学習 - Dropout

    はじめに パッケージ シミュレーション1 データ モデル DALEXによる解釈 変数重要度 PDP シミュレーション2 データの作成 DALEXによる解釈 PDP ICE Plot Conditional PDP clusterd ICE Plot まとめ 参考文献 ※この記事をベースにした2020年1月25日に行われた第83回Japan.Rでの発表資料は以下になります。 speakerdeck.com ※この記事で紹介するSHAPを含んだ、機械学習の解釈手法に関するを書きました! 機械学習を解釈する技術〜予測力と説明力を両立する実践テクニック 作者:森下 光之助技術評論社Amazon はじめに 記事では、tidymodelsを用いて機械学習モデルを作成し、それをDALEXを用いて解釈する方法をまとめています。 DALEXは Collection of tools for Visual

    tidymodelsとDALEXによるtidyで解釈可能な機械学習 - Dropout
  • tidymodelsによるtidyな機械学習(その3:ハイパーパラメータのチューニング) - Dropout

    はじめに 前処理 ハイパーパラメータのサーチ Train/Validationデータ 前処理レシピ 学習用モデル ハイパーパラメータ チューニング まとめ 参考文献 はじめに 前回の記事ではハイパーパラメータのチューニングをfor loopを用いたgrid searchでやっっていました。 tidymodels配下のdialsとtuneを用いることで、より簡単にハイパーパラメータのサーチを行えるので、記事ではその使い方を紹介したいと思います。 なお、パラメータサーチ以外のtidymodelsの使い方には記事では言及しないので、以下の記事を参考にして頂ければと思います。 dropout009.hatenablog.com dropout009.hatenablog.com 前処理 まずは前回の記事と同様、rsampleで訓練/テストデータの分割を行います。なお、例によってデータはdiam

    tidymodelsによるtidyな機械学習(その3:ハイパーパラメータのチューニング) - Dropout
    Aobei
    Aobei 2020/04/05
    大変参考になりました。
  • purrrとbroomで複数の回帰モデルを効率的に管理する - Dropout

    私は探索的にデータを見てく段階では、可視化に加えて複数の回帰モデルを作成して比較をする、ということをよくやっています。 モデルの数が少ない場合は個別にモデルを作成してsummary()で見ていく事もできますが、モデルの数が増えるにつれてそのやり方では管理が難しくなってきます。 そこで、記事では、purrrのmap()とbroomのtidy(), glance()を用いて複数の回帰モデルを効率的に扱う方法を紹介したいと思います。 まずはライブラリを読み込みます。tidyverseはおなじみのデータハンドリングと可視化のためのパッケージ群です。tidymodelsはモデリングをtidyなやり方で統一的に扱えるようにするパッケージ群になります。今回はbroomのみ用いますが、後日他のパッケージの紹介記事も書ければと思っています。 library(tidyverse) library(tidym

    purrrとbroomで複数の回帰モデルを効率的に管理する - Dropout
    Aobei
    Aobei 2019/03/21
  • 変数重要度とPartial Dependence Plotで機械学習モデルを解釈する - Dropout

    はじめに モデルの学習 変数重要度 Partial Dependence Plot まとめ 参考 はじめに RF/GBDT/NNなどの機械学習モデルは古典的な線形回帰モデルよりも高い予測精度が得られる一方で、インプットとアウトプットの関係がよくわからないという解釈性の問題を抱えています。 この予測精度と解釈性のトレードオフでどちらに重点を置くかは解くべきタスクによって変わってくると思いますが、私が仕事で行うデータ分析はクライアントの意思決定に繋げる必要があり、解釈性に重きを置いていることが多いです。 とはいえ機械学習モデルの高い予測精度は惜しく、悩ましかったのですが、学習アルゴリズムによらずモデルに解釈性を与えられる手法が注目され始めました。 記事では変数重要度とPDP/ICE Plot (Partial Dependence/Individual Conditional Expecta

    変数重要度とPartial Dependence Plotで機械学習モデルを解釈する - Dropout
    Aobei
    Aobei 2019/03/21
    randomforest
  • tidymodelsによるtidyな機械学習(その1:データ分割と前処理から学習と性能評価まで) - Dropout

    目次 目次 はじめに tidyな機械学習フロー 訓練データとテストデータの分割 特徴量エンジニアリング モデルの学習 モデルの精度評価 まとめ 参考文献 ※この記事をベースにした2019年12月7日に行われたJapan.R 2019での発表資料は以下になります。 tidymodelsによるtidyな機械学習 - Speaker Deck はじめに 記事ではtidymodelsを用いたtidyな機械学習フローを紹介したいと思います。 tidyverseはデータハンドリングと可視化のためのメタパッケージでしたが、tidymodelsはtydyverseにフィットするやり方で統計モデリング/機械学習をするためのメタパッケージになります。 tidymodels配下のパッケージは量が多く使い所が限られているパッケージも多いため、一度に全ては紹介できません。 ですので、今回は典型的な 訓練データとテ

    tidymodelsによるtidyな機械学習(その1:データ分割と前処理から学習と性能評価まで) - Dropout
  • 1