タグ

ブックマーク / morning-reading.hatenadiary.org (1)

  • データマイニングの基礎 第4章 前処理・データ変換 その1 - 毎朝30分読書会

    今日から第4章に入ります。 数値属性の離散化 数値を区間に分割してグルーブ化する シンボルを対象とする手法で数値属性を扱うためには離散化が必要 分割が粗すぎると情報が失われるし、細かすぎると1つの区間のデータが少なくなってしまうのでうまい分割が必要 複数の数値属性をそれぞれ分割する時は属性の軸に直行しない分割や非線形な分割もありえるが、だいたいは軸に直行する超平面で分割 分類器構築と同時に離散化するのを「動的離散化」、あらかじめ離散化しておくのを「静的離散化」と呼ぶ クラス分類の情報を用いて分割する手法もある 各属性単体の離散化 等間隔区間(EWI)と等頻度区間 なんとなく名前からわかる印象の通り、等間隔に分割/区間に含まれるデータ数を等価にするように分割 ChiMerge χ二乗検定を用いた離散化手法。クラス情報を用いる 区間を結合することで離散化とクラス分布が独立であるという仮説がχ^

    データマイニングの基礎 第4章 前処理・データ変換 その1 - 毎朝30分読書会
  • 1