タグ

全文検索に関するmarukot-chのブックマーク (2)

  • 日本語が使える、Rust製の全文検索エンジン「Bayard」を試してみた!! - 虎の穴開発室ブログ

    こんにちは、虎の穴ラボの古賀です。 みなさま、全文検索エンジンを使っていますか? クラウドだと「Amazon Elasticsearch Service」や「Azure Cognitive Search」など、さまざまな選択肢があると思います。 今回は、虎の穴ラボの社内のWebツールに導入できそうな、簡易的な全文検索エンジンにどのようなものがあるか調べた際に見つけた、「Bayard」という全文検索エンジンを試してみました。 「Bayard」は、Rust製の高速かつ軽量で日語の全文検索ができる検索エンジンです。導入手順が比較的簡単で、Webツールの検索機能の改善に使えそうです。 Bayardとは? Bayardは、Raft Consensus Algorithm と gRPC を実装する、 Rustで記述された全文検索およびインデックス作成のサーバーです。 Tantivy(Rust製 全文

    日本語が使える、Rust製の全文検索エンジン「Bayard」を試してみた!! - 虎の穴開発室ブログ
  • xdoc2txt

    ■ 概要 xdoc2txtはPDF,WORD,EXCEL,一太郎などの各種バイナリ文書から、テキスト要素を抽出 する汎用テキストコンバータであり、Windowsのコマンドラインで動作します。 xdoc2txtは各種文書の構造を直接解析しているため、単独で変換できます。WORDや Acrobatなど、作成元のアプリケーションをインストールする必要はありません。 高速に動作するので、各種全文検索エンジンのフィルタに最適です。 ワープロ文書の種類は、拡張子から判別します。次の拡張子のファイルに対応してい ます。

    marukot-ch
    marukot-ch 2020/08/14
    テキストを取り出したいときに使うかもしれない
  • 1