[B! lucene] cl-gakuのブックマーク

Elasticsearchでの文字列の正規化 - Carpe Diem

概要検索システムを扱う上で文字列の正規化は非常に重要な要素です。大抵納品されるデータはフォーマットがバラバラ（全角半角、カタカナひらがなが統一されないなど）なので、この正規化によってある程度統一させることで検索の精度を向上できます。環境 Elasticsearch 2.3 NFC、NFD、NFKC、NFKD Unicode正規化形式は主に４つあります。簡単にまとめると以下です。名称説明具体例 NFC 正規分解して合成「か」＋「゛」→「が」 NFD 正規分解して分解「が」→「か」＋「゛」 NFKC 互換分解して合成 NFCと大体同じ。さらに「㌢」→「センチ」と展開 NFKD 互換分解して分解 NFDと大体同じ。さらに「㌢」→「センチ」と展開解析フロー Elasticsearchの文字列の解析は以下の順で行われます。特にchar_filterとtoken_filterの順番に

cl-gaku 2019/03/25

lucene

リンク

Analyze設定のマイフェイバリット（Elasticsearch） - はてだBlog（仮称）

◯◯たるもの、嗜みの一つとして、Elasticsearchの日本語関連のAnalyze設定のフェイバリットのひとつ、ふたつはお持ちかと思います。検索要件次第のところもありますが、そこがはっきりしない場合など、自分の脳内基本設定の軸があることで、それとの比較でトレードオフがあぶり出されることになると思いますので、スポンサーから特に指定がない場合は、この設定でまずはやってみようというものがあった方がなにかと効率的です。 2018年12月現在の自分の好みの初期設定的なものを自分の頭の整理ということで書き出してみます&背景を述べてみます。（なんらかの知見っぽいものを炙り出せれば、あるいは勘違いなどあればそれはそれで誰かの役に立つと思って書いていますが、思ったより膨らまないかもしれません。その場合はごめんなさい。）初期設定のスタート版トークナイザーについて modeについて品詞指定によるイ

cl-gaku 2019/03/25

lucene

リンク

LuceneのFuzzyQueryとMoreLikeThisで遊んでみました - CLOVER🍀

最近読んでいたSolrやElasticsearch関連の本で、ちょっと気になっていたクエリで遊んでみました。Luceneで。気になっていたクエリとは、 FuzzyQuery MoreLikeThisQuery です。 FuzzyQueryはあいまい検索、MoreLikeThisは似たドキュメントを取得するためのクエリです。まあ、使っていってみましょう。準備とりあえず、依存関係の定義を。 build.sbt name := "lucene-fuzzy-more-like-this" version := "0.0.1-SNAPSHOT" scalaVersion := "2.11.0" organization := "org.littlewings" scalacOptions ++= Seq("-Xlint", "-deprecation", "-unchecked", "-fe

cl-gaku 2019/03/25

lucene

リンク

【Lucene】PhraseQueryについて

cl-gaku 2019/03/25

lucene

リンク

moco(beta)'s backup: Lucene in Action 4章: カスタム TokenFilter, Analyzer...

Lucene in Action 4章: カスタム TokenFilter, Analyzer を作る Lucene in Action の Chapter 4 Lucene’s analysis process を読んだところです。4章の内容としては、LuceneのAnalysisプロセスとビルトインのAnalyzerについて細かく触れたあと、カスタムAnalyzerの実装例が掲載されています。最後に non-English の Analysis についてさわりだけ。カスタム TokenFilter, Analyzer の例が載っていたので、 Lucene 4.1 ベースに直してみました。【準備】 Analyzerの説明等々は、関口さんの解説やエメラルドアオキロックさんの解説（図解されててわかりやすい！）をどうぞ。。。とはいえ説明だけだとピンとこないので、ソースコードを眺めてクラ

cl-gaku 2019/03/22

Java
Lucene

リンク

Luceneでのインデックス作成と検索 - Qiita

Luceneでのインデックスの作成と、検索、IntPointのインデックスの仕方による検索結果についてです。環境 lucene-7.2.1 準備 luceneをダウンロードしてきて、 lucene-analyzers-common-7.2.1 lucene-core-7.2.1 このあたりをAdd External JARsで追加しておきます。 public void feed() { // Analyzerを何か選ぶ Analyzer analyzer = new WhitespaceAnalyzer(); IndexWriterConfig iwc = new IndexWriterConfig(analyzer); // OpenMode.CREATE_OR_APPENDならあったら追記 // OpenMode.APPENDなら追記 // OpenMode.CREATEは新規作成

cl-gaku 2019/03/22

Java
Lucene

リンク

はてなブックマーク

タグ

関連タグで絞り込む (2)

luceneに関するcl-gakuのブックマーク (6)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

今週のはてなブックマーク数ランキング（2024年4月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス