エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
Elasticsearchのひらがなでの検索時のトリックについて雑談 - はてだBlog(仮称)
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Elasticsearchのひらがなでの検索時のトリックについて雑談 - はてだBlog(仮称)
はじめに Elasticsearch(kuromoji)では、アナライザーに「kuromoji_readingform」というものがあり、こ... はじめに Elasticsearch(kuromoji)では、アナライザーに「kuromoji_readingform」というものがあり、これを使うと「読み」に関して、表記揺れや曖昧検索相当に対応できます。 ただし、この「読み」部分については、実は、kuromojiの形態素解析(分かち書き/token化)とセットになる話なので、一番ベーシックなアナライズの設定組み合わせの範囲では実は次のようなことが発生します。 「渡辺」「渡邊」のような「端」「橋」のような、(そのようになるように検索クエリを用いれば)期待どおり互いに検索時にヒットする 一方で、 ひらがな「わたなべ」で、漢字の「渡辺」や「渡邊」を(ただしく読めていると思われるにもかかわらず)これらをヒットさせられない これは、「読み」は当てられているものの、形態素解析でトークン化されたものに対して、転置インデックスの各エントリに対して当ては