[B! algorithm][StreamData] InoHiroのブックマーク

InoHiro id:InoHiro

algorithmとStreamDataに関するInoHiroのブックマーク (1)

大量のデータから一定個数のデータをランダムに採取するReservoirサンプリング - 本当は怖いHPC
大量の実験データがあるが、馬鹿正直に全部プロット等すると時間がかかりすぎる。実験の初期段階とかで試行錯誤しながら素早く作業をしたい時には、一定個数のデータをランダムに抜き出してプロット等したい事が多い。そのとき、全体の個数の見当がついていれば、大体の見当で割合を設定して確率的に取得すればよい。例えば、データの全数が約100万個で、とりあえず1000個取り出したいなら、乱数を用いて0.1%の割合でデータを採取すれば良い（ぴったり1000個にはならないだろうがそれは問題ではない）。全体の個数が不明の場合はそうはいかない。最初に全体の個数を数えてから割合を設定しようとすると、全データを2回走査、つまり2パスの操作が必要になるし、標準入力からデータが流れてくる場合（いわゆるストリーム処理）の場合は、個数を取得するためには全体を保存しておかなければならない。これらの操作は、大規模なデータにおいて
InoHiro 2013/11/18
algorithm

StreamData
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx