並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 131件

新着順 人気順

全文検索の検索結果1 - 40 件 / 131件

  • Twitter/Blueskyの自己ポストの全文検索サービスをNext.js App Router(RSC)で書きなおした方法/設計/感想

    mytweetsという自分の Twitter/Bluesky の自己ポストの全部検索サービスをNext.js App Router(RSC)で書きなおしました。 mytweets は Twitter のアーカイブや Bluesky の API を使って自分のポストを S3 に保存しておき、 S3 Selectを使って全文検索ができる自分専用の Twilog のようなサービスです。 自分の Tweets をインクリメンタル検索できるサービス作成キット と Tweets をまとめて削除するツールを書いた | Web Scratch 過去の Tweets を全文検索できる mytweets を Bluesky に対応した。自分用 Twilog みたいなもの | Web Scratch 最初は CloudFront + Lambda@Edge + Next.js Pages Router で動かし

      Twitter/Blueskyの自己ポストの全文検索サービスをNext.js App Router(RSC)で書きなおした方法/設計/感想
    • 運用コストを低く抑えつつ全文検索機能を実現したい: SQLite3 で全文検索を実現する fts5 、ベクトル検索を実現する sqlite-vss

      運用コストを低く抑えつつ全文検索機能を実現したい: SQLite3 で全文検索を実現する fts5 、ベクトル検索を実現する sqlite-vss 2024-02-22 ドキュメント数が 1 万件に満たない状況で全文検索をしたいドキュメントは頻繁に更新はされずに日時の更新で十分オンラインでのインデキシングを考えなくてよいので、バッチで十分みたいな状態でポータビリティが高く運用コストが低い状態で全文検索を実現したいなと調べていたら SQLite3 が良さそうだったというお話。 全文検索を実現する拡張機能: https://www.sqlite.org/fts5.htmlfts5 から relevancy による order by が使えるようになったらしく、version 4 以前は、relevance をチューニングして改善するのは難しそうだなと思った。この拡張機能が作成された経緯としては

        運用コストを低く抑えつつ全文検索機能を実現したい: SQLite3 で全文検索を実現する fts5 、ベクトル検索を実現する sqlite-vss
      • A search engine in 80 lines of Python

        February 05, 2024 · 26 mins · 4728 words Discussion on HackerNews. Last September I hopped on board with Wallapop as a Search Data Scientist and since then part of my work has been working with Solr, an open source search engine based on Lucene. I’ve got the basics of how a search engine works, but I had this itch to understand it even better. So, I rolled up my sleeves and decided to build one fr

        • 静的サイトに特化した全文検索ライブラリ「Pagefind」、さくらのレンタルサーバで動かしてみた

          先日、静的サイトに特化した全文検索ライブラリとして「Pagefind」というソフトウェアがあることを、下記の記事が話題になったことで知りました。 参考:静的サイトに特化した検索ライブラリ Pagefind を試す | grip on minds 実は、いまお読みのPublickeyはまさに、Movable TypeというCMSを用いて生成された静的なWebサイトです。現在、PublickeyではGoogleが提供している「Googleカスタム検索エンジン」を全文検索エンジンとして採用しています(右上の虫眼鏡アイコンから呼び出せます)。 しかしPublickeyでは以前からGoogleに依存しない、自前の全文検索エンジンを持てないかと模索しており、まさにPagefindは私が探し求めていたソフトウェアだったと言えます。 そこでさっそくPagefindがPublickeyに導入できるかどうか、

            静的サイトに特化した全文検索ライブラリ「Pagefind」、さくらのレンタルサーバで動かしてみた
          • 静的サイト向けの全文検索エンジンと UI ライブラリの Pagefind

            デモとして、このブログに Pagefind を導入してみました。ヘッダーの検索アイコンをクリックすると検索フォームが表示されるので、キーワードを入力して検索してみてください。 使い方 Pagefind は構築済みの UI ライブラリと、CLI コマンドとしてインデックスを作成するためのツールから構成されています。まずは UI ライブラリの部分から見てみましょう。 UI ライブラリ Pagefind の UI ライブラリは、検索フォームと検索結果を表示するためのコンポーネントから構成されています。この UI は以下のコードを追加するだけで簡単に利用できます。 <link href="/pagefind/pagefind-ui.css" rel="stylesheet" /> <script src="/pagefind/pagefind-ui.js"></script> <div id="s

              静的サイト向けの全文検索エンジンと UI ライブラリの Pagefind
            • ElasticsearchのANNを利用して100万件のベクトル検索を高速化! - Taste of Tech Topics

              この記事は Elastic Stack (Elasticsearch) Advent Calendar 2023 18日目の記事です。 こんにちは。 Acroquestのデータサイエンスチーム「YAMALEX」に所属する@shin0higuchiです😊 YAMALEXチームでは、コンペティションへの参加や自社製品開発、技術研究などに日々取り組んでいます。 さて、最近はLLMの発展に伴ってRAG(Retrieval-Augumented Generation)が盛んに活用されています。 その中で、キーワードベースの検索だけでなくベクトル検索を併用するケースが多く見られ、実際にElasticsearchが利用されているケースも多く目にします。そのため、Elasticsearchのベクトル検索に興味を持っている方も多いと思います。今回の記事では、Elasticsearchのベクトル検索の速度な

                ElasticsearchのANNを利用して100万件のベクトル検索を高速化! - Taste of Tech Topics
              • 「ベクトル検索 vs 全文検索」〜Amazon Bedrockの埋め込みモデルを用いたプロトタイピング〜 - コネヒト開発者ブログ

                ※ この記事は、AWS (Amazon Web Services) の技術支援を受けて執筆しています。 はじめに この記事はコネヒトアドベントカレンダー 8日目の記事です。 コネヒト Advent Calendar 2023って? コネヒトのエンジニアやデザイナーやPdMがお送りするアドベント カレンダーです。 コネヒトは「家族像」というテーマを取りまく様々な課題の解決を 目指す会社で、 ママの一歩を支えるアプリ「ママリ」などを 運営しています。 adventar.org こんにちは!コネヒトの機械学習エンジニア y.ikenoueです。 突然ですがみなさん、Amazon Bedrockをご存知でしょうか。 aws.amazon.com Amazon Bedrock(以下、Bedrock)は、テキスト生成AIをはじめとする基盤モデル (Foundation Model)*1を提供するAWS

                  「ベクトル検索 vs 全文検索」〜Amazon Bedrockの埋め込みモデルを用いたプロトタイピング〜 - コネヒト開発者ブログ
                • SQLiteでLinderaを使った日本語全文検索 - *iroi*

                  これは はてなエンジニアアドベントカレンダー2023 3日目の記事です。 はてなエンジニア Advent Calendar 2023 - Hatena Developer Blog はてなエンジニアのカレンダー | Advent Calendar 2023 - Qiita 昨日は id:pokutuna さんの blog.pokutuna.com でした。私も若い頃に同僚とGitHub上で白熱してしまい観光名所になってしまっていたような気がします。気を付けていきましょう。 さて、この記事では SQLiteでLinderaを使った日本語全文検索をする話を紹介します。 モチベーション laiso.hatenablog.com 上の記事でも話題になっているように個人開発ではDBのコストは問題です。同様に全文検索したいときにもコストに頭を悩ませているのではないでしょうか? たとえば Amazon

                    SQLiteでLinderaを使った日本語全文検索 - *iroi*
                  • 分散型SNS「マストドン」、待望の全文検索機能を追加。他サーバーの公開投稿もまとめて検索可能に【やじうまWatch】

                      分散型SNS「マストドン」、待望の全文検索機能を追加。他サーバーの公開投稿もまとめて検索可能に【やじうまWatch】
                    • SQLite FTS : trigram tokenizerでunigram&bigram検索までサポート-日本語全文検索

                      SQLite FTS : trigram tokenizerでunigram&bigram検索までサポート-日本語全文検索 2023.06.20 ### 前段 2023年現在、全文検索システムをセルフホストしようとした場合に、 Elasticsearch、OpenSearch、Meilisearch(最近勢いありますね) がまずメジャーどころで候補にあがるとおもいますが、これ以外にSQliteという選択肢もあります。 SQLiteには、デフォルトで有効の拡張機能として全文検索 FTS(Full-Text-Search)があります。 SQLite FTSはSQLite自体の特徴である優秀なポータビリティ、SQLで扱える習得運用コストの低さ、何より必要十分過ぎる検索速度があります。 ローカル/エッジといった環境向けなら個人的にはかなりオススメと感じています。 今回は SQLite FTS での

                        SQLite FTS : trigram tokenizerでunigram&bigram検索までサポート-日本語全文検索
                      • Elasticsearch vs OpenSearch ー パフォーマンス比較の結果が公開

                        8月8日、ElasticsearchとOpenSearchのパフォーマンスとリソース利用に関する分析結果が発表されました。 この比較によると、ElasticsearchはOpenSearchに比べて40%〜140%高速であり、より少ない計算リソースを使用しています。 この記事では、テキストクエリ、ソート、日付のヒストグラム、範囲、および用語などの6つの主要な領域でのパフォーマンス比較結果を詳しく紹介します。 以下に詳細をご紹介します。 Elastic社は、2023年8月9日、ElasticsearchとOpenSearchの性能とリソース利用に関する比較結果を公開した(Elasticsearch vs OpenSearch: Performance and Resource Utilization Analysis)。 Elasticsearchは、Elastic社によって開発された検索エ

                          Elasticsearch vs OpenSearch ー パフォーマンス比較の結果が公開
                        • Aurora MySQL 5.7とRailsで実現する全文検索機能 - dely Tech Blog

                          こんにちは。 クラシル開発部、バックエンドエンジニアの松嶋です。 delyに入社してから約3年間、私はSREチームに所属していましたが、昨年10月にバックエンドに転向しました。バックエンドに転向してからは、主にクラシルアプリの公式レシピおよびCGMコンテンツの検索機能に関する開発・改善に取り組んでいます。 クラシルは、2016年2月にサービスを開始してから、管理栄養士監修の「誰でも安全に・おいしい料理を作ることができるレシピ動画」を5万件以上提供してきました。 昨年12月には、クラシルのブランドリニューアルを行い、今後はシェフや料理研究家を中心としたクリエイターとともに多様化したユーザーの食の好みや課題解決に応えられるよう、幅広い食のコンテンツを提供するプラットフォームを目指しています。 ブランドリニューアルの詳細に関しては、こちらを御覧ください。 www.kurashiru.com この

                            Aurora MySQL 5.7とRailsで実現する全文検索機能 - dely Tech Blog
                          • 青空文庫を全文検索できる「Aozorasearch」が話題に ~「文明の発展に貢献できるレベル」/作者や年代、ジャンルで絞り込むこともできる【やじうまの杜】

                              青空文庫を全文検索できる「Aozorasearch」が話題に ~「文明の発展に貢献できるレベル」/作者や年代、ジャンルで絞り込むこともできる【やじうまの杜】
                            • 自然な対話で商品検索!OpenAI と全文検索エンジンで対話型ゆるふわ検索 AI アシスタントを作ってみた | DevelopersIO

                              自然な対話で商品検索!OpenAI と全文検索エンジンで対話型ゆるふわ検索 AI アシスタントを作ってみた ChatGPT(GPT-4)を対話のインタフェースに利用し、検索は自社で持つ商品 DB(OpenSearch)を組み合わせることで、店員さんと対話で商品を絞り込む体験を提供する商品検索AIアシスタントを作成したプロジェクトの結果報告です。 こんにちは。CX 事業本部 Delivery 部のきんじょーです。 突然ですが皆さん、 ECサイトと実店舗での商品購入をどのように使い分けていますか? 私は欲しいものが決まっている場合、もっぱら Amazon を利用しています。 一方で、家具・家電や洋服など、詳しい店員さんに相談したい場合は実店舗に足を運ぶことが多いです。 両者の違いは何でしょうか? 自分の中に具体的な欲しいものが見えている場合、EC サイトでキーワードを入力して検索し、欲しい商品

                                自然な対話で商品検索!OpenAI と全文検索エンジンで対話型ゆるふわ検索 AI アシスタントを作ってみた | DevelopersIO
                              • YouTubeチャンネルの字幕データを検索可能で「あの発言はどのムービーだったっけ?」が一気に解消するツール「Youtube Full Text Search」を使ってみた

                                YouTubeでは視聴後に自動で別のムービーが再生されたり、関連動画欄の面白そうなムービーをクリックしてしまったりするため、時間を忘れてたくさんのムービーを視聴してしまうことがよくあります。たくさん見過ぎて、後から振り返ったときに「面白いシーンを見つけたはずだったのにどれだったか思い出せない」なんてことも。そんなときに便利なのが字幕を使って文字でシーンを検索してくれるツール「Youtube Full Text Search」です。 NotJoeMartinez/yt-fts: Youtube Full Text Search - Search all of a YouTube channel's subtitles from the command line https://github.com/NotJoeMartinez/yt-fts Youtube Full Text Searchを

                                  YouTubeチャンネルの字幕データを検索可能で「あの発言はどのムービーだったっけ?」が一気に解消するツール「Youtube Full Text Search」を使ってみた
                                • セマンティック検索の活用で、Elasticsearchの検索が根本的に変わる!? - Taste of Tech Topics

                                  こんにちは、@shin0higuchiです😊 業務では、Elasticsearchに関するコンサルティングを担当しています。 最近すっかり春らしく、暖かくなってきました。 新年を迎えたばかりの感覚でしたが、あっという間に時が経ちますね。 さて、今回の記事では、Elasticsearchの検索を根本的に変える可能性を秘めたセマンティック検索に関して書かせていただきます。 概要 Elasticsearchは元々、キーワードベースのアプローチを主に取っており、クエリで指定されたキーワードを対象のドキュメント内で検索し、それらの出現頻度や位置に基づいて結果をランク付けしています。この方法では、文脈や意図に関係なく、単純にキーワードの一致度に基づいて検索結果が返されます。 一方、セマンティック検索とは、ユーザーのクエリの背後にある文脈と意図を理解しようとする検索手法で、キーワードだけに頼るのではな

                                    セマンティック検索の活用で、Elasticsearchの検索が根本的に変わる!? - Taste of Tech Topics
                                  • PythonとElasticSearchとMetabaseを使ったデータ探索、分析、可視化 - Qiita

                                    業務上でElasticSearchというテキストやログなどのデータの中から高速かつ正確に検索を行える オーブンソースの検索エンジンが使われていたので調べてみました。 Kibanaを組み合わせてデータを可視化したり、分析したりできるクライアントアプリを作成できることが可能です。 Kibanaは有料でしたので(無料トライアウトあり)、無料で使えるものを探していたところMetabaseというサービスがあったので、今回はPythonとElasticSearchとMetabaseでデータを探索したり分析、可視化できるツールの設計を考えてみます。 ・Metabaseについて https://www.metabase.com/ (https://www.metabase.com/docs/latest/ より引用) ・Kibanaについて https://www.elastic.co/jp/kibana

                                      PythonとElasticSearchとMetabaseを使ったデータ探索、分析、可視化 - Qiita
                                    • Amazon KendraでPowerPoint, Excel, Wordファイルの全文検索を試してみた | DevelopersIO

                                      Amazon Kendra で Microsoft PowerPoint, Excel, Word ファイル内の文字を検索する全文検索を試してみました。 Amazon Kendra は次ファイル形式に対応してり、Excel ファイルの検索は既にブログになっています。 HTML files Microsoft PowerPoint (PPT) presentations MS WORD documents Plain text documents PDFs Comma Separated Values (CSV) files Microsoft Excel (MS EXCEL) files XML files JSON files Markdown Documentation (MD) files Rich Text Format (RTF) files Extensible Stylesh

                                        Amazon KendraでPowerPoint, Excel, Wordファイルの全文検索を試してみた | DevelopersIO
                                      • noteの検索をCloudSearch からElasticsearchに移行しつつある話|chov

                                        記事の概要を3行でまとめ検索システムの移行や導入は組織化しましょう 指標に気を取られすぎないようにしましょう 検索を見ると様々なドメインに触れるので知識が増えてお得 はじめにnote株式会社で検索エンジニアをしているchovです。 早速ですが、noteでは全文検索エンジンを以下の箇所で利用しています。 ハッシュタグの検索 ユーザの検索 マガジンの検索 記事の検索 メンバーシップの検索 CloudSearchを利用した検索結果これまではCloudSearchを利用していましたが、2022年の4月ごろからElasticsearchへの移行プロジェクトを始め、この記事が公開される2023年2月時点でほとんどの検索をElasticsearchに移行するところまで進みました。 本稿では移行プロジェクトの進め方や検証の手法について解説しますが、これから全文検索エンジンの導入・移行を行う方の参考になれば

                                          noteの検索をCloudSearch からElasticsearchに移行しつつある話|chov
                                        • 「あのページ何だったっけ……」を激減して情報収集効率を爆上げできる履歴全文検索アドオン「Falcon」レビュー

                                          インターネットで調べ物をしていると、「過去に閲覧したページをもう一度閲覧したいけど、タイトルを忘れて検索できない!」という困った状態が頻繁に発生します。ブラウザ拡張機能「Falcon」を使えば、閲覧したページの本文を自動保存して「記事内のかろうじて覚えているワード」を用いた全文検索が可能になるとのこと。めちゃくちゃ便利そうだったので、実際にインストールして使ってみました。 Falcon - Chrome ウェブストア https://chrome.google.com/webstore/detail/falcon/mmifbbohghecjloeklpbinkjpbplfalb Falcon – 🦊 Firefox (ja) 向け拡張機能を入手 https://addons.mozilla.org/ja/firefox/addon/falcon_extension/ FalconにはCh

                                            「あのページ何だったっけ……」を激減して情報収集効率を爆上げできる履歴全文検索アドオン「Falcon」レビュー
                                          • 「モノタロウの1900万商品を検索するElasticsearch構築運用事例」のポイント深掘り〜第50回 Elasticsearch勉強会後記〜 - MonotaRO Tech Blog

                                            こんにちは。 EC基盤グループ サーチチームの 山村です。 この記事は、 Elastic Stack (Elasticsearch) Advent Calendar 2022 の 23日目です。 2か月ほど前になりますが、2022年10月26日に実施された 第50回 Elasticsearch勉強会 で発表させていただきました。 私が外部での発表するのは、2016年6月のSolr勉強会 以来で、非常に緊張しました。 日々の業務にかまけて、ブログが後回しになっていたことで大変遅くなってしまいましたが、上記の発表で話した内容とスライド資料から、話したかったポイントを抜粋するとともに、勉強会で不足していた部分について補足をします。 当日、発表を終えたところで気が抜けてしまい、Twitter で頂いていた質問に満足に答えられませんでしたので、この場で補足説明を含めて出来るだけ回答したいと思います。

                                              「モノタロウの1900万商品を検索するElasticsearch構築運用事例」のポイント深掘り〜第50回 Elasticsearch勉強会後記〜 - MonotaRO Tech Blog
                                            • ElasticsearchのアーキテクチャとStateless / Serverless

                                              本記事は情報検索・検索技術 Advent Calendar 2022の9日目の記事です。 だいぶ間が空いてしまいましたが、日本語のオートコンプリートに関する記事の続きです。 という感じで、Suggesterのデータ構造とか仕組みを書こうと思っていたのですが、思ったよりも調べないといけないことが多くて挫折しました。。。 (これの続きは年末年始で調べて書くはず?) ということで、代わりにElasticsearch/OpenSearchのアーキテクチャの変更に関してさらっとまとめてお茶を濁してみようと思います。 発端はElasticON Tokyo? 先週の11月30日に、ElasticのオフラインイベントであるElasticON Tokyoが開催され参加しました。 参加しようと思ったのは、10月の頭にElasticのブログで公開された「Stateless — your new state of

                                                ElasticsearchのアーキテクチャとStateless / Serverless
                                              • 【Elasticsearch】1900万点に及ぶ商品データ作成の時間を約67%短縮できた構成と工夫 - MonotaRO Tech Blog

                                                初めまして、EC基盤グループ サーチチームの壷井です。 モノタロウでは2019年10月頃より新規検索システムの設計・開発を進め、今年の4月頃にECサイト(monotaro.com) 検索ページの裏側の検索システムを従来のSolrからElasticsearchに100%移行*1しました。この移行は将来の商品点数やリクエスト数の増加を見据えたバックエンドの大規模な改修で、ここまで約2年半ほどプロジェクトを進めてきました。今後もECサイトのすべてのページの完全移行に向け引き続き開発・運用を行っていきます。 今回はこのプロジェクトのなかで私が担当してきたElasticsearchへの日々のデータの洗い替え(日次更新と呼んでいます)ワークフローのシステム構成と工夫などについてお話します。 モノタロウの検索システムの紹介 日次更新のシステム構成 処理の流れ ① リアルタイムデータ同期 ② 日次商品デー

                                                  【Elasticsearch】1900万点に及ぶ商品データ作成の時間を約67%短縮できた構成と工夫 - MonotaRO Tech Blog
                                                • 世界一わかりやすい FULLTEXT INDEX の説明と気を付けるべきポイント

                                                  FULLTEXT INDEX とは インデックス(索引)は、データベースの性能を向上させる方法の一つです。 しかし、通常のIndex では text ベースのカラム(CHAR型、VARCHAR型、TEXT型) から特定の文字列を検索する全文検索には向いていません。 それは、通常のIndex はカラムの値の一部ではなく、値全体に対する検索に最適化されているからです。 そのため、全文検索 (カラムの値の一部が一致している結果を取得) するには、別のインデックス FULLTEXT INDEX が必要です。 MySQL で FULLTEXT INDEX を利用するには MATCH 関数(*1)を利用する必要があります。 通常の LIKE 検索では、FULLTEXTIndex が利用されないため、速度的に不利です。(*2) (*1 DBMSによって様々、MS SQL では CONTAIN 関数を利用

                                                    世界一わかりやすい FULLTEXT INDEX の説明と気を付けるべきポイント
                                                  • オンラインドキュメントと日本語全文検索

                                                    自社では Sphinx というドキュメントツールを利用しているのですが、残念ながらこれに付属している検索機能の日本語検索はかなり厳しいです。また残念ながら Sphinx 開発側も検索周りを改善するという予定は直近ではないようです。 そして検索というのはとても難しい技術なため自分のような素人では導入して「普通に期待する動作」をさせるまでの距離はとても遠いです。 ただ、なんとかして日本語全文検索を実現したいという思いはここ10 年くらいずっと思っていました。これは自社の Sphinx テーマを作ってくれている社員ともよく話をしていたのですが、どうしてもリソースをつぎ込めずにいました。 まとめ日本語検索に対応している Meilisearch を採用したドキュメントスクレイパーの実行は GItHub Actions (Self-hosted Runner) を採用した自社 Sphinx テーマの検

                                                      オンラインドキュメントと日本語全文検索
                                                    • Meilisearch を利用して Sphinx で日本語全文検索を実現する

                                                      モチベーション ドキュメントツール Sphinx から出力した HTML オンラインドキュメントに日本語対応の全文検索機能を追加したい。 結果 オンラインドキュメントと日本語全文検索 前提 日本語全文検索に対応する OSS を利用する ドキュメントツールは Sphinx を利用する Sphinx の検索バーを置き換える サーバレスの検索は諦める サーバ運用を検討する 企業利用前提なので費用がかかっても良い 検索は難しいので検索部分は頑張らない 完璧は求めない reStructuredText を解析するのではなく HTML を解析して処理する Meilisearch を採用 いろいろ調べたりしていたが Meilisearch が良さそうと判断した。 Meilisearch 日本語検索に対応している Rust で書かれており性能がでそう Rust であれば問題が起きた際、会社でなんとかできる

                                                        Meilisearch を利用して Sphinx で日本語全文検索を実現する
                                                      • 前編:Elasticsearchの機械学習分析による類似ドメイン検知  | IIJ Engineers Blog

                                                        九州支社で技術リサーチやビジネス開発などの業務を行っています。将棋が好きで、棋力はウォーズ二段ぐらいです。 Elasticsearchの機械学習機能 今回はElasticsearchの教師あり機械学習(ML)機能とそれを使った類似ドメイン検知についてご紹介します。 Elasticsearchは無償(一部機能を除く)で利用できるデータ分析・可視化ツールです。一般的にはログやテキストデータの保存や検索、可視化などで使われることが多いでしょう。そのElasticsearchでML機能が使えることはご存知でしょうか。 ElasticsearchのML機能は、2016年に Elastic社がPrelert社を買収したことで、バージョン6.1から追加されました。有償なのですが、試用ライセンスで30日間試すことが可能です。今回も試用ライセンスで検証しています。 MLには教師なし型と教師あり型があります。

                                                          前編:Elasticsearchの機械学習分析による類似ドメイン検知  | IIJ Engineers Blog
                                                        • 超高速検索にこだわったオープンソースのElasticsearch代替・「Manticore Search」

                                                          Manticore Searchは超高速検索にこだわったオープンソースのElasticsearch代替です。2017年にSphinxをフォークし、現在まで開発を進めていたようで、特にパフォーマンスを最重要視しており、ビッグデータ分析をElasticsearcの4倍の速さで検索できるそうです。 以前もZincというオープンソースのElasticsearch代替をご紹介した事がありましたが、Zincは使いやすさを重視していましたのでパフォーマンスを重視したOSS代替は欲しかった方も多いのではないでしょうか。 また、ログ解析はElasticsearchの29倍、中規模データ処理は5倍、小規模データで15倍の速さ、MySQLの182倍の速さを実現したそうで、再現性もあるそうです。OSSながらもElasticsearchよりも高いパフォーマンスを期待できるものとなっています。 ドキュメントなども豊富

                                                            超高速検索にこだわったオープンソースのElasticsearch代替・「Manticore Search」
                                                          • GitHub - YadaYuki/omochi: Full text search engine from scratch by Goʕ◔ϖ◔ʔ (Just a toy) 😊

                                                            You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                              GitHub - YadaYuki/omochi: Full text search engine from scratch by Goʕ◔ϖ◔ʔ (Just a toy) 😊
                                                            • Go製の全文検索エンジンOmochiを作った.

                                                              1.はじめに 膨大な量の電子データから目的となるデータを取得・抽出する情報検索。その技術は広く普及し、多くの人々が、様々な場面でその恩恵を受けています。GoogleやBingをはじめとした、世の中に大きなインパクトを与えるWeb検索がその代表例ですが、物件検索や論文検索、メール検索などその応用は様々です。 さて、今回取り組んだのは、Goによる転置インデックスを用いた全文検索エンジンのスクラッチ実装です。研究で自然言語処理を学んだことをきっかけに、情報検索や転置インデックスといったトピックに強い興味が湧いたので、Elasticsearch等には頼らず、ゼロから実装を行いました。以下、リポジトリになります。 本記事では、Omochiの設計・実装に関する説明を行なっていきます。 2.転置インデックス型・全文検索エンジンOmochi リポジトリのREADME.mdにも記載がありますが、今回実装した

                                                                Go製の全文検索エンジンOmochiを作った.
                                                              • さようならElasticsearch、よろしくElastic Cloud - Nota TechConf

                                                                by yuiseki yuiseki.icon 2022/5/19 20:25 - 20:40 (明らかに15分で収まる内容の資料ではないですが、資料はモリモリで発表はスカスカでもScrapboxで盛り上がれるか、という仮説の検証を兼ねています) yuisekiですyuiseki.icon Gyazoのプロジェクトマネージャー兼ソフトウェアエンジニアです 本日お集まりいただいたみなさん、ありがとうございます 本日お集まりいただいたみなさん ノバウサギ…?nyanco.icon ユニコーンガンダム…?issac.icon タイマーちゃん!takker.icon 12年間運用を続けているB2C SaaSの検索インフラの実態(14分まで、1分間) Gyazoは2021年、「画像の瞬間発見」をテーマに、検索に力を入れていた Nota Tech Conf 2021 Springでのyuiseki.i

                                                                  さようならElasticsearch、よろしくElastic Cloud - Nota TechConf
                                                                • Rust 製の全文検索システム Tantivy を Ruby で使える Tantiny を導入した

                                                                  過去記事ページの UI 考察 ずっと過去記事をどうやって効率よく見せるか(自分自身が効率よく読むか)ばかり考えている。一つ前の記事では絞り込み UI について書いた。ブログというものが生まれたとき、誰も 10 年以上にわたっ... portalshit.net ブログのアクティビティダッシュボード Archive ページにこだわってしまう理由、グラフを表示させてみて(ブログ過去記事をカテゴリーごとに集計してグラフ化 - portal shit!)何となくわかった気がする。過去記事ページとい... portalshit.net このブログの維持管理で一番時間を割いているのが Archives ページだ。しかしアクセスログを見ると自分以外はほとんど利用していない。完全に自己満なのだが、過去の自分を振り返ることができてとても自分には有意義なページだ。 過去記事を振り返るときには検索をしたくなる。

                                                                    Rust 製の全文検索システム Tantivy を Ruby で使える Tantiny を導入した
                                                                  • 新刊『検索システム ― 実務者のための開発改善ガイドブック』の発売を開始しました

                                                                    PDF版を先行発売していた新刊、『検索システム ― 実務者のための開発改善ガイドブック』(打田智子・古澤智裕・大谷 純・加藤 遼・鈴木翔吾・河野晋策 共著)の発売を開始しました。 本書は、Webサイトをはじめ現代のITシステムで当たり前のように提供されている「検索」の仕組みを実装、運用、改善したい人のためのガイドです。これから作りたい人はもちろん、より進んだユーザー体験を提供したい人まで、検索システムの実務にかかわる多くのエンジニアのために書かれました。以下のような側面から、「よい検索システム」を提供するための知見が網羅的に整理されています。 全文検索エンジンを支えるデータ構造、アルゴリズム、テキスト処理 検索の対象とするデータの整備 さまざまな検索機能のためのユーザーインターフェース 検索システムを定量的に評価し、それをもとに改善していく考え方 検索クエリから検索者の本来の意図を推測する

                                                                      新刊『検索システム ― 実務者のための開発改善ガイドブック』の発売を開始しました
                                                                    • ElasticsearchのMore like this内部実装とパフォーマンス問題の解決 - エムスリーテックブログ

                                                                      エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(po3rin) です。検索とGoが好きです。 今回はLuceneのMore like this(MLT)機能のコードリーディングでMLTの実装を理解して、エムスリーで問題になっていたMLTパフォーマンス問題を解決したお話をします。 What's MLT MLTの利用ケースとパーフォーマンス問題 高速化のポイント1: ドキュメント指定かID指定か 高速化のポイント2: Fieldの数とテキスト長 高速化のポイント3: max_query_termsの設定 結果 まとめ We're hiring !!! What's MLT MLTを簡単に説明すると、入力ドキュメントを形態素解析し、て入力ドキュメントを形態素解析して、TF-IDFスコアが高いタームを使って、文書検索をかけるElasticsearch

                                                                        ElasticsearchのMore like this内部実装とパフォーマンス問題の解決 - エムスリーテックブログ
                                                                      • GitHub - baygeldin/tantiny: Tiny full-text search for Ruby powered by Tantivy

                                                                        Need a fast full-text search for your Ruby script, but Solr and Elasticsearch are an overkill? 😏 You're in the right place. Tantiny is a minimalistic full-text search library for Ruby based on Tantivy (an awesome alternative to Apache Lucene written in Rust). It's great for cases when your task at hand requires a full-text search, but configuring a full-blown distributed search engine would take

                                                                          GitHub - baygeldin/tantiny: Tiny full-text search for Ruby powered by Tantivy
                                                                        • Elasticsearch運用ノウハウ | メルカリエンジニアリング

                                                                          こんにちは、メルカリMicroservices SREチームの藤本(@jimo1001)です。 私は現在、Embedded SRE として サーチインフラチームに入り活動しています。このサーチインフラチームは、Elasticsearchを使用した検索基盤を管理し、様々なマイクロサービスに検索機能を提供するチームです。この検索基盤は非常に巨大なプラットフォームで、メルカリ全体のマシンリソースの高い割合を占めており、メルカリの検索を支える非常に重要なものです。私の Embedded SRE としてのミッションは検索基盤の信頼性の向上と自動化を推進することです。 今回は、メルカリの検索基盤で利用している Elasticsearch における運用のノウハウを紹介したいと思います。 Elasticsearch とは Elasticsearch は、Elastic社が開発する Apache Lucen

                                                                            Elasticsearch運用ノウハウ | メルカリエンジニアリング
                                                                          • Elastic、AWSとの「Elasticsearch」に関する商標問題が解決したと発表。今後「Elasticsearch」を名乗るのはElasticのみに

                                                                            Elastic、AWSとの「Elasticsearch」に関する商標問題が解決したと発表。今後「Elasticsearch」を名乗るのはElasticのみに Elasticは、Amazon Web Services(AWS)との「Elasticsearch」に関する商標問題の訴訟が解決したと発表しました。 Elastic and @amazon have resolved the Elasticsearch trademark infringement lawsuit. Learn more on our blog: https://t.co/738RR78bRD — Elastic (@elastic) February 16, 2022 発表によると、今後AWSおよびAWS Marketplace上でElasticsearchサービスと名乗るのは、Elasticが提供するElastic

                                                                              Elastic、AWSとの「Elasticsearch」に関する商標問題が解決したと発表。今後「Elasticsearch」を名乗るのはElasticのみに
                                                                            • イケてる全文検索サービス「Algolia」を触ってみよう - Qiita

                                                                              はじめに この記事は、株式会社メディアドゥのアドベントカレンダー19日目の記事です。 みなさん、「Algolia」って知っていますか? Algoliaなんて知らないよー、聞いたこともないよー、というそこのあなた。 そんなあなたのためにこの記事を書いたといっても過言ではありません。 拙い記事ではありますが、ぜひ読んでみてください。 Algoliaとは? 以下のような特徴をもつ検索APIサービスです。 https://www.algolia.com/ 全文検索サービスをSaaSとして提供 GUIから検索ロジックを柔軟に設定可能 レコード数/APIアクセス数による従量課金 世界各地にデータセンターがあり、どのロケーションでも高速な検索が可能 様々なプログラミング言語向けにAPIを提供 様々なフロントエンドフレームワーク向けに便利なライブラリを提供 本記事で書くこと すでに知ってる・使ったことがあ

                                                                                イケてる全文検索サービス「Algolia」を触ってみよう - Qiita
                                                                              • Inazuma Search

                                                                                Inazuma Searchとは あなたのPCやネットワークの共有フォルダ上にある、Officeなどの文書ファイル (Word, Excel, PowerPoint, OpenDocument, PDF, 一太郎, html, テキストファイルなど) を高速に全文検索することができる、Windows用のフリーソフトです。 あらかじめ「クロール」処理を行って文書情報を集めておくことで、数千件の文書ファイルを1秒程度で検索することが可能です。 かつて存在した「Googleデスクトップ」に近い使い心地のアプリケーションを目指して制作しました。 スクリーンショット 特徴 大量の文書ファイルを高速に検索 (数千件の文書ファイルを1秒程度で検索可能) Googleライクで見やすい検索結果画面 タスクバーに常駐して、PC内のファイルが変更されたら自動的に登録し、検索可能にする「常駐クロールモード」搭載

                                                                                • フロントエンド完結の検索エンジン完全に理解した - Qiita

                                                                                  本記事は「完全に理解したTalk Advent Calendar 2021」の25日目の記事です。 すみません、遅刻しました。 こんにちは、最近、検索エンジンに入門したエンジニアです。 先日、友人との会話の中で「機密性の高い情報だからサーバーには送れないんだけど、件数が多いからどうにかフロントエンドだけで完結する検索システムが作れないかなあ」という話がありました。 そこで今回は、バックエンドに一切サーバーを用意せず、フロントエンドだけで完結する検索エンジンがないか調べてみました。 ちなみに、私は普段はバックエンドのシステムを作っている人間なので、フロントエンドも検索エンジンも完全に理解したクオリティであることはご承知おきください。 そもそもどんな機能が欲しい? 検索システムというと、Apache SolrやElasticsearchといったミドルウェアを思い浮かべると思います。 これらは、

                                                                                    フロントエンド完結の検索エンジン完全に理解した - Qiita