タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

全文検索に関するseal2501のブックマーク (2)

  • Elasticsearchのひらがなでの検索時のトリックについて雑談 - はてだBlog(仮称)

    はじめに Elasticsearch(kuromoji)では、アナライザーに「kuromoji_readingform」というものがあり、これを使うと「読み」に関して、表記揺れや曖昧検索相当に対応できます。 ただし、この「読み」部分については、実は、kuromojiの形態素解析(分かち書き/token化)とセットになる話なので、一番ベーシックなアナライズの設定組み合わせの範囲では実は次のようなことが発生します。 「渡辺」「渡邊」のような「端」「橋」のような、(そのようになるように検索クエリを用いれば)期待どおり互いに検索時にヒットする 一方で、 ひらがな「わたなべ」で、漢字の「渡辺」や「渡邊」を(ただしく読めていると思われるにもかかわらず)これらをヒットさせられない これは、「読み」は当てられているものの、形態素解析でトークン化されたものに対して、転置インデックスの各エントリに対して当ては

    Elasticsearchのひらがなでの検索時のトリックについて雑談 - はてだBlog(仮称)
  • 乗るしかないこのビッグウェーブに〜Gatsby 移行〜 – ちとくのホームページ

    2019/02 まで WordPress で管理していた chitoku.jp ですがこの度 Gatsby に移行しました! TL;DRGatsby で TypeScript なら gatsby-plugin-ts-loader + tsconfig-paths-webpack-pluginAlgolia で日語の検索をするときは Keep diacritics on characters に注意babel-plugin-react-intl-auto に出した PR がマージされた1gatsby-transformer-remark に出した PR がマージされた2remark-grid-tables に出した PR がマージされた3Gatsby の IE サポートは半分嘘なので残り半分は自分でやるGatsby とはGatsby は React 製の静的サイトジェネレーターです。Mar

    乗るしかないこのビッグウェーブに〜Gatsby 移行〜 – ちとくのホームページ
    seal2501
    seal2501 2024/03/09
    昔と挙動変わったのかな... それとも自分の投入データが意図した通りトークナイズできてないだけ? “Remove all diacritics (eg accents) が日本語の濁点・半濁点を対象としており、「ハハ」と「パパ」が区別なく検索される”
  • 1