[B! tool][考え方] indicationのブックマーク

indication id:indication

toolと考え方に関するindicationのブックマーク (1)

大規模テキストにおけるN-gram統計 - Negative/Positive Thinking
はじめに大規模なテキストデータでのN-gram統計を取る場合、特にNが大きい場合(N>=3)は、組み合わせの数が多くなり出てくるN-gramをすべてメモリに保持しながら個数をカウントするのが難しい。効率的な方法があるのを知ったのでちょっと試してみた。大規模テキストにおけるN-gram統計の取り方岩波講座ソフトウェア科学15「自然言語処理」論文: http://ci.nii.ac.jp/naid/110002934647 手順 ngramを取りたい文章を1つの文として扱うこの文をメモリに読み込み、各文字の先頭アドレスを保持する配列を作成その先頭アドレスの場所の文字から文最後までの部分文字列を1つの単語とみるこの単語を辞書順に並び替える(アドレス配列だけ) ソートした単語の順番で、次の単語と「先頭から共通している文字数」を保持する配列を作成 Ngramをカウントするときは、単語の
indication 2011/10/13
あとで読む

考え方

読み物

WEBサービス

tool

tips

ネタ
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx