タグ

多変量解析と統計に関するbabydaemonsのブックマーク (2)

  • 文系のための「多次元データ解析」

    まずは、基的な用語と、Rでの基的なコマンドをここで学ぶ。何も知らずに、回帰分析や主成分分析、クラスター分析をするのは「無謀」というもの。気持ちは理解できなくは無いのだが。以下のトピックを見て、一つでも知らない用語があるならば、先に進まずに、最初から順にチュートリアルをこなした方が良い。また、理解できている人も、一般的な教科書とは異なった説明もある。軽く目を通した方が良いかもしれない。 文系のための「行列の構造」 文系のための「行列」(1):行列データの構造について 文系のための「行列」(2):多次元データについて 文系のための「行列」(3):行列の種類について 文系のための「行列」(4):「変数」と「添字」について 文系のための「行列の演算」 文系のための「行列の演算」:行列の「足し算」と「引き算」 文系のための「内積」(1):行列の「掛け算」の方法 文系のための「内積」(2):行列の

    文系のための「多次元データ解析」
  • マハラノビス距離を学んだ - 元データ分析の会社で働いていた人の四方山話

    判別分析に用いられる二つの尺度のうち、線形判別関数でない方がマハラノビス距離である。 ということで、調べてみたけどなんだか難しめな感じ。 マハラノビス距離 - Wikipedia でもそんなに難しくなかった。 マハラノビス距離とは データ分布の広がりを加味した距離のことです。 この辺がユークリッド距離との違いです。 前提条件 マハラノビス距離では、各グループのデータが正規分布に従って存在していると仮定します。 なので、正規分布に従わないデータについてはどうなるんでしょう?って感じですね。 求め方 データの平均との偏差の絶対値を標準偏差で割ります。 標準偏差で割ることで、分布の幅を考慮した距離が求まります。 ただし、これは一変数のときだけです。 マハラノビス距離の意味 マハラノビス距離が大きいということは、正規分布の中心付近から離れているということになります。 なので、マハラノビス距離が大き

    マハラノビス距離を学んだ - 元データ分析の会社で働いていた人の四方山話
  • 1