タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

tokenizerとsearchに関するsh19910711のブックマーク (2)

  • 検索基盤チームのElasticsearch×Sudachi移行戦略と実践 - エムスリーテックブログ

    エムスリーエンジニアリンググループ AI機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。最近、AI機械学習チーム配下の検索基盤チームでElasticsearchのAnalyzerをKuromojiからSudachiに移行しました。今回はSudachi移行の背景と、Sudachiの概要、実際に移行するにあたってのプロセスや注意事項をお話しします。 対象読者 なぜSudahchiに移行したのか 検索基盤チームが抱えていた検索の課題 Sudachiとは Sudachiへの移行戦略と実践 今使っているKuromojiユーザー辞書をSudachiユーザー辞書に移行する 今使っているシノニム辞書からSudachi正規化機能でまかなえるものを削除する 平仮名/カタカナの正規化辞書を作る 移行時のSudachi切り替え戦略 移行後の影響の事前確認 Sudachi移行時のハ

    検索基盤チームのElasticsearch×Sudachi移行戦略と実践 - エムスリーテックブログ
    sh19910711
    sh19910711 2021/08/15
    "multi-fields > 同じフィールドに複数の方法でドキュメントを格納 / APIを修正前にAliasを切り替えても、対象フィールドがtitleで変わらないので影響なく / データ投入Batchなどが投入する先のフィールドの変更が必要ない"
  • Elasticsearchのための新しい形態素解析器 「Sudachi」 - Qiita

    tl;dr (要約) Kuromojiに代わる新しい形態素解析器「Sudachi」 なにが良いの? 最新の辞書 企業(ワークスアプリケーションズ)による継続的な更新 複数の分割単位 → 検索用途での再現率と適合率の向上 プラグインによる拡張 省メモリ Elasticsearchで使いたい プラグイン: WorksApplications/elasticsearch-sudachi 使い方は当記事の後半をご覧ください 注: この記事の執筆者はSudachiの開発に関わっています さまざまな形態素解析形態素解析は、伝統的な自然言語処理(Natural Language Processing, NLP)において基盤となる技術です。そして世の中にはさまざまな形態素解析器が存在します。販売されているものもありますが、一般に公開されているものだけでもいくつか例をあげると、JUMANとRNNLMを利

    Elasticsearchのための新しい形態素解析器 「Sudachi」 - Qiita
  • 1