タグ

相関係数に関するH58のブックマーク (3)

  • 「そのモデルの精度、高過ぎませんか?」過学習・汎化性能・交差検証のはなし - 渋谷駅前で働くデータサイエンティストのブログ

    今年の1月にこんな話題を取り上げたわけですが。 この記事の最後にちょろっと書いた通り、実際にはこういう"too good to be true"即ち「そのモデルの精度いくら何でも高過ぎるんじゃないの?」→「実は汎化性能見てませんでした」みたいなケースって、想像よりも遥かに多くこの世の中存在するみたいなんですね。ということで、それこそ『はじパタ』の2章とかPRMLの最初の方に出てくる初歩中の初歩なんですが、その辺の話を改めてだらだら書いてみようと思います。 そもそも「精度100%」とか「相関係数0.9以上」とか見たら身構えるべき 冒頭に挙げた例は、そもそも「精度100%なんておかしい」という声があちこちから挙がったことで話題になり、蓋を開けてみたらleakageはあるわ訓練誤差でしか評価してないわで散々だったわけです。 一般に、実世界のデータセットで統計モデリングにせよ機械学習にせよモデリン

    「そのモデルの精度、高過ぎませんか?」過学習・汎化性能・交差検証のはなし - 渋谷駅前で働くデータサイエンティストのブログ
  • R 大量の変数間の相関行列を求め、有意で相関の高いペアのみ抽出する - Qiita

    目的 Rの標準で入っているライブラリlibrary(stats)の関数cor.testを使い、変数間の相関行列を求めます。 Rでは、変数のデータフレームを与えて一気に変数間の相関行列を出力させることが可能です。ですが変数が膨大にある場合、相関行列が出力されてもその読みとりは困難です。そこで、相関が強いと判定されたペアのみデータとして出力するスクリプトを作りました。 想定 「相関が強い」の閾値は、絶対値で0.4としています。 母相関係数の無相関の検定の有意水準は5%です。 アウトプットイメージ こんな感じになります(結果はダミーです)。 i列とj列:変数の列番号 cor: 相関係数 p_val : p値 データ準備 全ての列が量的な変数のデータ。 (factorの変数があれば、あらかじめ除去します) 変数ラベルリスト データとは別に変数ラベルリストを用意。 下記のvar_no は連番 ファイ

    R 大量の変数間の相関行列を求め、有意で相関の高いペアのみ抽出する - Qiita
  • 文系のための「数の可視化」(8)

    さて、そのような愚痴はさておき、 日は多次元データの要約を可視化する方法について考える。 ケトレーの話にも通じるが、データを観察する上で最も基となるのは、 データの中心からのバラツキであって、 分散、標準偏差、共分散、相関係数といった指標があった。 また、これらの指標に加えて、四分位やヒンジというのもあった。 さらに、それを可視化する方法として、 ヒストグラム、散布図、箱ヒゲ図、などがあった。 ところで、分散と共分散あるいは相関係数を同時に表現する方法として、 分散共分散行列と相関係数行列があった。 そこで、今回は分散共分散行列と相関係数行列を可視化する方法について述べる。 分散共分散行列と相関係数行列はどのような構造であったか? 確か、分散共分散行列の場合は、対角成分に分散が入っていて、 その他の成分には共分散が入っているような対象行列であった。 一方、相関係数行列は、対角成分が「1

    文系のための「数の可視化」(8)
  • 1