タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

luceneに関するcl-gakuのブックマーク (6)

  • Elasticsearchでの文字列の正規化 - Carpe Diem

    概要 検索システムを扱う上で文字列の正規化は非常に重要な要素です。 大抵納品されるデータはフォーマットがバラバラ(全角半角、カタカナひらがなが統一されないなど)なので、この正規化によってある程度統一させることで検索の精度を向上できます。 環境 Elasticsearch 2.3 NFC、NFD、NFKC、NFKD Unicode正規化形式は主に4つあります。簡単にまとめると以下です。 名称 説明 具体例 NFC 正規分解して合成 「か」+「゛」→「が」 NFD 正規分解して分解 「が」→「か」+「゛」 NFKC 互換分解して合成 NFCと大体同じ。さらに「㌢」→「センチ」と展開 NFKD 互換分解して分解 NFDと大体同じ。さらに「㌢」→「センチ」と展開 解析フロー Elasticsearchの文字列の解析は以下の順で行われます。特にchar_filterとtoken_filterの順番に

    Elasticsearchでの文字列の正規化 - Carpe Diem
  • Analyze設定のマイフェイバリット(Elasticsearch) - はてだBlog(仮称)

    ◯◯たるもの、嗜みの一つとして、Elasticsearchの日語関連のAnalyze設定のフェイバリットのひとつ、ふたつはお持ちかと思います。 検索要件次第のところもありますが、そこがはっきりしない場合など、自分の脳内基設定の軸があることで、それとの比較でトレードオフがあぶり出されることになると思いますので、スポンサーから特に指定がない場合は、この設定でまずはやってみようというものがあった方がなにかと効率的です。 2018年12月現在の自分の好みの初期設定的なものを自分の頭の整理ということで書き出してみます&背景を述べてみます。 (なんらかの知見っぽいものを炙り出せれば、あるいは勘違いなどあればそれはそれで誰かの役に立つと思って書いていますが、思ったより膨らまないかもしれません。その場合はごめんなさい。) 初期設定のスタート版 トークナイザーについて modeについて 品詞指定によるイ

    Analyze設定のマイフェイバリット(Elasticsearch) - はてだBlog(仮称)
  • LuceneのFuzzyQueryとMoreLikeThisで遊んでみました - CLOVER🍀

    最近読んでいたSolrやElasticsearch関連ので、ちょっと気になっていたクエリで遊んでみました。Luceneで。 気になっていたクエリとは、 FuzzyQuery MoreLikeThisQuery です。 FuzzyQueryはあいまい検索、MoreLikeThisは似たドキュメントを取得するためのクエリです。 まあ、使っていってみましょう。 準備 とりあえず、依存関係の定義を。 build.sbt name := "lucene-fuzzy-more-like-this" version := "0.0.1-SNAPSHOT" scalaVersion := "2.11.0" organization := "org.littlewings" scalacOptions ++= Seq("-Xlint", "-deprecation", "-unchecked", "-fe

    LuceneのFuzzyQueryとMoreLikeThisで遊んでみました - CLOVER🍀
  • 【Lucene】PhraseQueryについて

  • moco(beta)'s backup: Lucene in Action 4章: カスタム TokenFilter, Analyzer...

    Lucene in Action 4章: カスタム TokenFilter, Analyzer を作る Lucene in Action の Chapter 4 Lucene’s analysis process を読んだところです。4章の内容としては、LuceneのAnalysisプロセスとビルトインのAnalyzerについて細かく触れたあと、カスタムAnalyzerの実装例が掲載されています。最後に non-English の Analysis についてさわりだけ。 カスタム TokenFilter, Analyzer の例が載っていたので、 Lucene 4.1 ベースに直してみました。 【準備】 Analyzerの説明等々は、関口さんの解説 やエメラルドアオキロックさんの解説 (図解されててわかりやすい!)をどうぞ。。。とはいえ説明だけだとピンとこないので、ソースコードを眺めてクラ

  • Luceneでのインデックス作成と検索 - Qiita

    Luceneでのインデックスの作成と、検索、IntPointのインデックスの仕方による検索結果についてです。 環境 lucene-7.2.1 準備 luceneをダウンロードしてきて、 lucene-analyzers-common-7.2.1 lucene-core-7.2.1 このあたりをAdd External JARsで追加しておきます。 public void feed() { // Analyzerを何か選ぶ Analyzer analyzer = new WhitespaceAnalyzer(); IndexWriterConfig iwc = new IndexWriterConfig(analyzer); // OpenMode.CREATE_OR_APPENDならあったら追記 // OpenMode.APPENDなら追記 // OpenMode.CREATEは新規作成

    Luceneでのインデックス作成と検索 - Qiita
  • 1