タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

algorithmとStreamDataに関するInoHiroのブックマーク (1)

  • 大量のデータから一定個数のデータをランダムに採取するReservoirサンプリング - 本当は怖いHPC

    大量の実験データがあるが、馬鹿正直に全部プロット等すると時間がかかりすぎる。実験の初期段階とかで試行錯誤しながら素早く作業をしたい時には、一定個数のデータをランダムに抜き出してプロット等したい事が多い。 そのとき、全体の個数の見当がついていれば、大体の見当で割合を設定して確率的に取得すればよい。例えば、データの全数が約100万個で、とりあえず1000個取り出したいなら、乱数を用いて0.1%の割合でデータを採取すれば良い(ぴったり1000個にはならないだろうがそれは問題ではない)。 全体の個数が不明の場合はそうはいかない。最初に全体の個数を数えてから割合を設定しようとすると、全データを2回走査、つまり2パスの操作が必要になるし、標準入力からデータが流れてくる場合(いわゆるストリーム処理)の場合は、個数を取得するためには全体を保存しておかなければならない。これらの操作は、大規模なデータにおいて

    大量のデータから一定個数のデータをランダムに採取するReservoirサンプリング - 本当は怖いHPC
  • 1