タグ

searchに関するsh19910711のブックマーク (444)

  • BigQueryのシャーディングされたテーブルをOpenSearchへ連携する方法 - コネヒト開発者ブログ

    皆さん,こんにちは!最近は検索エンジニアとしての仕事がメインの柏木(@asteriam)です. はじめに 今回はTips的な記事になります.背景としては,アプリの検索ログをBigQueryに溜めているのですが,それを検索エンジンのサジェスト機能で使用するために,BigQueryからAmazon OpenSearch Serviceへデータ連携を実施しました.その際にBigQueryのシャーディングされたテーブルをどのようにして連携したかというお話になります. 検索システムのデータ基盤構築に関する過去のブログでも紹介していますが,我々はGlueを用いて検索エンジン(OpenSearch)へのデータ連携を行っています.今回はGlueを用いる点は同じですが,データソースはBigQuery,ターゲットソースをOpenSearchとしてデータ連携しました. 今回は以下の内容を紹介していこうと思います

    BigQueryのシャーディングされたテーブルをOpenSearchへ連携する方法 - コネヒト開発者ブログ
    sh19910711
    sh19910711 2022/11/25
    "BigQueryからAmazon OpenSearch Serviceへデータ連携 / テーブルは日付でシャーディング > table suffixが日付 / Glue Connector for Google BigQuery: queryというkeyを使うことでシャーディングされたテーブルの連携に対応"
  • 食べログのレストラン検索を支える Debezium と Apache Kafka - Qiita

    こんにちは。べログシステム技術部マイクロサービス化チームの @weakboson です。 今年の Advent Calendar ではべログに Debezium と Apache Kafka (以下 Kafka) を導入してレストラン検索インデックス同期システムのパフォーマンスを爆上げした事例を紹介します。 マイクロサービス化チームとは? 私の所属するマイクロサービス化チームには「巨大なモノリシックサービスにおける開発の辛さを解消し、少人数のチームが自律的に意思決定しながら開発するためのシステム基盤を作る」というミッションがあります。 べログは2007年に Ruby on Rails でリプレイスしてから約15年の長期にわたって抜的なアーキテクチャ刷新なしに開発と運用を継続しており、モノリシックで巨大なコード、かつ巨大なデータを持つ状態になっています。正直なところ現在の開発効率

    食べログのレストラン検索を支える Debezium と Apache Kafka - Qiita
    sh19910711
    sh19910711 2022/11/23
    2021 / "Debezium と Apache Kafka を導入してレストラン検索インデックス同期システムのパフォーマンスを爆上げした事例 / RedHat 社の技術ブログに大変よくまとまった Debezium の特長説明がある"
  • Elasticsearch 8.4 から利用可能な従来の検索機能と近似近傍探索を組み合わせたハイブリッド検索を試す

    2022-10-29 表題の通り、Elasticsearch 8.4 から待望の近似近傍探索と従来の検索を組み合わたハイブリッド検索が可能になったらしいので、試してみました。 Elascticsearch 8 で導入された近似近傍探索についてElasticsearch 公式の記事1がわかりやすく近似近傍探索について語られています。 また、日語では@pakio さんの紹介記事2も非常にわかりやすいので、そちらも御覧ください。 嬉しいけど物足りない点公式の資料3や@pakio さんの資料でも触れられていますが、 You can’t currently use the Query DSL to filter documents for an approximate kNN search. If you need to filter the documents, consider using e

    Elasticsearch 8.4 から利用可能な従来の検索機能と近似近傍探索を組み合わせたハイブリッド検索を試す
    sh19910711
    sh19910711 2022/11/09
    おお、めっちゃ便利そう / "Elasticsearch 8.4 から待望の近似近傍探索と従来の検索を組み合わたハイブリッド検索が可能になった / Linkedin の投稿で Elasticsearch のエンジニアの方が遂に実現できたよ!!と紹介しており"
  • 最近のニュース記事推薦手法まとめ 〜固有表現の利用から多様性の向上まで〜 - Gunosyデータ分析ブログ

    はじめに 他ドメインと比較したニュース記事推薦の特徴 1. ライフサイクルの短さがもたらすコールドスタート問題 2. 深い言語理解の必要性 3. 明示的なフィードバックの利用の難しさ トピック別ニュース記事推薦手法 記事の人気度合い(popularity)の考慮 概要 既存研究 固有表現(Named Entity)の明示的な考慮 概要 知識グラフと知識グラフ埋め込み 既存研究 リッチな言語表現の利用 概要 既存研究 明示的なユーザーフィードバック・post click指標の利用 概要 既存研究 ユーザーの興味をより正確に捉えるアーキテクチャ 概要 既存研究 今後のチャレンジ おわりに はじめに こんにちは、Gunosy Tech Lab (GTL) Media ML チームの大竹です。Gunosyでは「情報を世界中の人に最適に届ける」というミッションのもと、グノシー・ニュースパス・LUCR

    最近のニュース記事推薦手法まとめ 〜固有表現の利用から多様性の向上まで〜 - Gunosyデータ分析ブログ
    sh19910711
    sh19910711 2022/10/13
    "Wang18: タイトルとタイトルに含まれる entity からニュースの埋め込み / Liu19: Microsoft が開発している Satori と呼ばれる知識グラフを~ / Lee20: 予測されたトピックの関係を知識グラフに付加、拡張された知識グラフ上で学習"
  • 検索システムで再現率向上に取り組んだ話 - コネヒト開発者ブログ

    こんにちは。エンジニアの永井(shnagai)です。 今回は、現在進めている検索システム内製化プロジェクトの中で、検索エンジニアとしてはほぼ未経験に近い自分が半年ほど試行錯誤した内容の一部を書き記していこうと思います。 ※筆者の経験としては、Elasticsearch✕kibanaのログ基盤は複数構築経験はありで、Elasticsearch周りの設定への知識は0ではないレベル この記事を見て、検索に詳しい方や自分もやってみたいという方がいたら是非お声がけいただけるとうれしいです。 内容は、ざっくり下記の構成になっています。 作りながら身にしみた検索システムの奥深さ 初回ABテストでは既存エンジンに惜敗。再現率向上を目指すためのチューニング これから 作りながら身にしみた検索システムの奥深さ プロジェクトの開始前に、そもそも検索システムを自社で作り運用していけるのかの当たりをつけるために、マ

    検索システムで再現率向上に取り組んだ話 - コネヒト開発者ブログ
    sh19910711
    sh19910711 2022/10/06
    "検索システムの役目: 検索クエリからいかに意図を汲み取り次のアクションにつながる結果を返せるか / 検索クエリは検索者の検索意図を必ずしも表したものではない"
  • 私たちはいつどこで「ルー語」を身につけるのか|ヤフー・データソリューション

    こんにちは、データアナリストの小川知紘です。 以前「ルー語」が面白いと流行りましたが、最近ではすっかり私もカタカナ語を自然と使っています。※ルー語:ルー大柴さんが話す日語をカタカナ語に置き換えた言葉 社会人になる前は「どうして伝わりづらいのにわざわざ英語やカタカナ語を使うんだろう」と思うこともよくありました。 自分は社会人になってもそうならない!と当時は思っていたはずですが、今では「MTGリスケさせてください」「ブレイクダウンしてKPI決めましょう」といった有様です… 実際仕事においてはその方が伝わる場面も多く便利ですが、日常生活でも出てしまうと自分にがっかりすることがあります。 ある日ふと、カタカナ語や外来語の浸透率を出せないかなと思い調べてみたところ、既に文化庁や国立国語研究所などで認知率などの調査がされていました。 そこで今回は少し違う切り口として、「○○とは」検索を使い、意味が分

    私たちはいつどこで「ルー語」を身につけるのか|ヤフー・データソリューション
    sh19910711
    sh19910711 2022/09/30
    "「とは」検索: 上位1000キーワードのうち約50%がカタカナのみ もしくはアルファベットのみ / 「ガクチカ」(※学生時代力を入れたこと の略)のように私がこの年齢の時には無かった言葉も出てきており"
  • 【Log Analytics Tech Meetup】オープンソースで実現するログ分析技術入門

    sh19910711
    sh19910711 2022/09/22
    2019 / "まずは小さくはじめてみる / いきなり高度なことは出来ない、ニーズに応じて徐々に育てていく / 全文検索と時系列データの違い: 「読み取り」と「書き込み」の性質の違いが顕著 + Cacheの使い方が大きく異なる"
  • 〇〇みたいな検索作ってと言われたときに考えること / thinking before developing search system like that one

    〇〇みたいな検索作ってと言われたときに考えること / thinking before developing search system like that one

    〇〇みたいな検索作ってと言われたときに考えること / thinking before developing search system like that one
    sh19910711
    sh19910711 2022/09/17
    "検索と行動は一つじゃない: 「検索する人は何かを探したい」という認識は雑 / 誰がどういう動機・目的で何を探している(ニーズ)によって「検索する」という行為も様々 / データ品質は検索体験に大きく影響する"
  • 宣言的かつ安全に管理するElasticsearch/Declarative management for Elasticsearch

    第49回Elasticsearch勉強会での発表資料です。 https://www.meetup.com/tokyo-elastic-fantastics/events/287299123/

    宣言的かつ安全に管理するElasticsearch/Declarative management for Elasticsearch
    sh19910711
    sh19910711 2022/09/02
    "Elasticsearch GitHub Action: Elasticから提供 / Terraform Provider Elastic Stack: リリースが2021/12と比較的歴史が浅く、まだまだ発展途上 + JSONで定義可能な設定が少なく、定義が煩雑 / 直近1~2年で多くのツールが登場しており"
  • Elasticsearch の検索精度のチューニング 〜テストを作って高速かつ安全に〜

    MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...NTT DATA Technology & Innovation

    Elasticsearch の検索精度のチューニング 〜テストを作って高速かつ安全に〜
    sh19910711
    sh19910711 2022/08/26
    "検索精度: テストする機構がない + デグレが発生しても見落とす + 昔のインデクス、クエリでどのようなランキングが出力されていたのか分からない / Ranking Evaluation API: ランキングがどの程度期待したものかを計算"
  • ニアリアルタイムで同期される検索基盤を構築 ~AWS Glueによるデータ同期編~ - コネヒト開発者ブログ

    皆さん,こんにちは!MLエンジニアの柏木(@asteriam)です. ここ最近は検索エンジン内製化プロジェクトに携わっていて,検索エンジニアとして,検索基盤の主にデータ連携・同期の実装を1から構築したりしていました.7月中旬にABテストまで持っていくことが出来たので,ひとまず安心しているところです.ここからはユーザーの検索体験向上のために検索品質の改善に力を入れていく予定です! はじめに 今回新しく検索基盤をAWSのマネージドサービスを活用して構築しました!エントリーでは,タイトルにもあるように,検索基盤の肝であるDBから検索エンジンへのデータ同期をAWS Glueを用いてニアリアルタイムで実施したお話になります.我々は以下の構成で今回の検索基盤を構築しています. 検索エンジン:Amazon OpenSearch Service データベース:Amazon Aurora データ同期(ET

    ニアリアルタイムで同期される検索基盤を構築 ~AWS Glueによるデータ同期編~ - コネヒト開発者ブログ
    sh19910711
    sh19910711 2022/08/26
    "Glue Studioという新しいUIがあり,見やすく簡単に設定できてめっちゃ使いやすい / Job bookmark機能が言うことを聞かない問題 / Glue→OpenSearch間でエラーが発生した場合,なかなか原因を調査して特定するのが難しい"
  • 検索基盤移行時の思考

    Build with AI 2024 Seoul - 제로부터 시작하는 Flutter with Gemini 생활 - 박제창

    検索基盤移行時の思考
    sh19910711
    sh19910711 2022/08/23
    "検索改善と検索基盤移行は同時にやらない / 検索基盤ごとのユーザーの検索動向 > カスタム辞書やシノニム辞書構築、クエリ構築時に必要な情報が見えてくる / eskeeper: yamlをいじればreindex済みindexをすぐに作ってくれる"
  • 【Lucene コードリーディングから学ぶ Elasticsearch】 ハイライト&フラグメンターの仕組み - エムスリーテックブログ

    エムスリーエンジニアリンググループ AI機械学習チームの中村(@po3rin) です。 好きな言語はGo仕事では主に検索周りを担当しています。 エムスリーでは検索エンジンとしてElasticsearchを利用しているのですが、Highlightingのフラグメント機能でとある問題が発生しました。その問題を解決する中でElasticsearch Highlighting の内部的な仕組みを理解することの重要性を改めて感じました。 今回はエムスリーで発生した問題の共有からはじめ、どのように解決したのかはもちろん、Elasticsearch Highlighting の内部的な仕組みも一部紹介します。ちなみに今回見ていくLucene のバージョンは 8.6.2 です。 「検索結果画面がすごく伸びてるんですが...」 ElasticsearchレイヤーでみるHighlighter Plain

    【Lucene コードリーディングから学ぶ Elasticsearch】 ハイライト&フラグメンターの仕組み - エムスリーテックブログ
    sh19910711
    sh19910711 2022/08/14
    2020 / "検索結果画面がすごく伸びてる / Plain highlighter: ゼロから小さなインメモリインデックスを作成し、元のクエリを再実行 + 複雑なクエリや対象のフィールドが多い場合はパフォーマンスの為に別のHighlighterを使用"
  • ブログを支える技術

    sh19910711
    sh19910711 2022/08/06
    2017 / "ChangeLogメモ: Unix Magazine 2002年1月号『Unixのメモ術』で世に知られる / 情報が1つのファイルにまとまる。ポケット1つ原則 + 新しいメモは必ず1番上 + テキストファイルなので、使い慣れたエディタで素早く編集できる"
  • システムの特徴と検索機能について(検索システムに関する妄想その1)

    今年の頭からシステムの検索周りを手伝う仕事フリーランスとしてやっています。 検索の仕組みを知れば知るほど面白くなってきたからという理由になるのかな? LuceneやSolr、Elasticsearchなどを長く触っているというのもあるかと思います。 ということで、検索についていつも考えています。 頭の中でまとまっていない状況ですが、システムにおける検索機能についていくつか頭の中にあることを書き出して、 いろんな方にダメ出しやコメントをもらいたいなと思ったので、色々と書いてみようかと。 思いつきのままに書いているので、はなしがあちこち飛ぶ可能性もありますが、あしからず。 検索って難しい 「「検索」とは、データの集合から目的のデータを探し出すこと」By Wikipedia 一言で「検索」といっても、使う人、ユースケースによっていろいろな「検索」があります。 例えば、新しいスマホを買ったときに

    システムの特徴と検索機能について(検索システムに関する妄想その1)
    sh19910711
    sh19910711 2022/08/03
    2020 / "いろいろな「検索」 / 検索機能のコアな部分を考えるだけでなく、提供しているシステム、コンテンツがどんなものかなど、システム全体を考えながら検索機能を考えていく事が検索をより良いものとして行く"
  • Elasticsearch GEO系検索を試してみる(Geo-polygon、Geo-shape関連) - はてだBlog(仮称)

    ElasticsearchのGEO系検索のうち、ポリゴンをからめた検索について試してみました。 www.elastic.co なお、試したのはElasticsearch 6.8ですが、7系に橋渡ししやすいクエリやMapping設定の記述としたつもりです。ただし、紙面の都合・その他の理由によりでver6系とver7系の違いそのものについては割愛しています。 GEO系クエリ 検索してみる geo_polygon検索 geo_shape検索( 以下fieldtypeのgeo_shapeと紛らわしいと考えた場合は、Geo-Shape検索などと記載しているところがあります) 前準備 検索の例 GeoJSON GeoJSONをElasticsearch検索で使うにあたり理解のしどころポイントなど geo_shape データフィールドタイプ この話の続きなど GEO系クエリ まず、Elasticsear

    Elasticsearch GEO系検索を試してみる(Geo-polygon、Geo-shape関連) - はてだBlog(仮称)
    sh19910711
    sh19910711 2022/08/03
    2020 / "GEO系クエリDSLの四天王: geo_bounding_box + geo_distance + geo_polygon + geo_shape / geohashを用いた検索方法バリエーションなど、geo_polygonならではのものも / GeoJSON: Wikipediaの図解を見てから、もっと気になることがあれば公式を"
  • お手軽な検索API構築 | メルカリエンジニアリング

    こんにちは、メルペイソリューションチーム所属エンジニアの@orfeonです。 この記事は Merpay Tech Openness Month 2021 5日目の記事です。 メルペイソリューションチームでは、社内向けの技術コンサル技術研修、部門を跨いだ共通の問題を発見して解決するソリューションの提供などを行っています。 自分は主に社内のデータ周りの課題を解決するソリューションを提供しており、一部の成果はOSSとして公開しています。 この記事ではいろいろな場面で必要とされるものの、運用負荷などの問題から導入の敷居が高い検索機能を(条件付きで)簡易に提供するためのソリューションを紹介します。 基的なアイデア 全文検索や位置検索など、検索はいろいろな場面で必要とされる機能です。しかしいざ検索サーバを立てて運用するとなると、データの整合性やモニタリングなど考えないといけないことも多く、利用に二

    お手軽な検索API構築 | メルカリエンジニアリング
    sh19910711
    sh19910711 2022/07/14
    2021 / "Apache Solr + BigQuery + Cloud Run / データの更新をリアルタイムには行わない + サーバ1台で管理できない規模のデータを扱わない / インデックス変更などに伴うマイグレーションなどの面倒なデータの運用を無くします"
  • 10X の検索を 10x したい パートII - 10X Product Blog

    今 Q もお疲れさまでした!10X の @metalunk です. 3ヶ月前に 10X の検索を 10x したい というブログを書きました.その記事にあるとおり,1-3月で検索インフラの改善を実施し,検索速度 10x, インフラコスト 80% 削減という成果をあげました.そして,直近の3ヶ月では検索精度の改善に取り組みました.この記事では今 Q にリリースした機能と,それぞれの効果を説明します. 長い記事になったので飛ばし飛ばし読んでください. どんな Q だったか KPI の変化 Zero match rate Conversion rate リリースした機能 検索キーワードサジェスト システム概要 評価 カテゴリフィルタ 並び順の改善 評価 bigram 解説 評価 シノニム辞書を Search time に展開 解説 イベントログからシノニムルールの生成 解説 改善の背景 KPI D

    10X の検索を 10x したい パートII - 10X Product Blog
    sh19910711
    sh19910711 2022/07/12
    "行動ログからシノニム辞書: 「ポテチ」で検索したときに検索結果が0件 => 「ポテトチップス」で検索したら商品が出てきて,カート追加 > 同義語であることを表現 / esqa: 検索結果の保存,比較 + Ubie が OSS として提供"
  • 企業・業界情報プラットフォームSPEEDAにおけるElasticsearchの活用

    第16回elasticsearch勉強会の発表資料です https://elasticsearch.doorkeeper.jp/events/46539

    企業・業界情報プラットフォームSPEEDAにおけるElasticsearchの活用
    sh19910711
    sh19910711 2022/07/02
    2016 / "企業を様々な条件で絞り込んで探したい / 世界の困難さ in MySQL: 通貨変換?なにそれ?元データは現地通貨 > 世界の崩壊: それでも10万社 x 100科目ぐらいまでは遅いながらもMySQL+アプリ側の処理で頑張っていた"
  • クックパッドにおける推薦(と検索)の取り組み

    #mlpp の登壇資料です。 https://machine-learning-pitch.connpass.com/event/132858/

    クックパッドにおける推薦(と検索)の取り組み
    sh19910711
    sh19910711 2022/06/29
    2019 / "検索と推薦の目的が相反する(ように捉えられる)場合がある / CGMという特性上、人気のレシピだけを推薦すると、多くの投稿ユーザの満足につながらない / 5個やって1個あてるくらいの気持ちでやる"