タグ

ブックマーク / jetbead.hatenablog.com (1)

  • 検索エンジンの日本語トークナイズメモ - Negative/Positive Thinking

    はじめに 検索エンジンのトークナイズ処理の部分で行われている基処理や工夫を少し調べてみたのでメモ。 トークナイズ処理 「検索クエリ」に対してマッチする「ドキュメント」を高速に検索するためにインデクス(索引)を作成する の最後の方にある「用語 - ページ」のような感じで、速く目的の用語が書いてあるページを調べられる インデクスは、日語の場合文字が連続しているため、「形態素」や「(文字)N-gram」などが使われる 文1「六木ヒルズに行った」 文2「青山さんから電話があった」 【形態素でインデクスを作成する場合の例】 文1:「六木ヒルズ」「に」「行く」「た」 文2:「青山」「さん」「から」「電話」「が」「あっ」「た」 【文字2-gram(bigram)でインデクスを作成する場合】 文1:「六」「木」「木ヒ」「ヒル」「ルズ」「ズに」「に行」「行っ」「った」 文2:「青山」「山さ」「

    検索エンジンの日本語トークナイズメモ - Negative/Positive Thinking
    mzi
    mzi 2016/04/18
    まとまってる
  • 1