この記事について 以下の観点から高次元空間の性質についてまとめます。 次元数と最近傍・最遠傍との距離の関係 データ数と最近傍・最遠傍との距離の関係 人工データと実データの比較 はじめに 機械学習を使って何らかのタスクを解く上で、データの次元数は常に気にする必要があります。なぜなら、機械学習で扱う多くの問題はデータの次元数が大きくなるごとに難易度が跳ね上がるからです。 「次元の呪い」とも呼ばれるこの問題の原因は、高次元空間の性質にあると言われています。 データの次元数を大きくすると、私達の直感に反する興味深い挙動が確認できます。今回は、高次元空間の性質を簡単な数値実験で調べてみました。 次元の呪いとは データの次元数が高次元になると、データが空間の外側に集中して分布する現象です。 高次元空間の直感的な理解のためには下記が参考になると思います。 次元の呪い、あるいは「サクサクメロンパン問題」