タグ

*infraとsearchに関するsh19910711のブックマーク (57)

  • Knowledge Bases for Amazon Bedrock を OpenSearch Serverless で試してみる - Qiita

    Knowledge Bases for Amazon Bedrock を OpenSearch Serverless で試してみる AWSbedrockKnowledgeBaseForAmazonBedrock はじめに Knowledge Bases for Amazon Bedrock を利用すると、会社のデータなどを利用した RAG を簡単に構成できる機能です。OpenSearch Serverless などのベクトルデータストアと連携して、データの格納、利用などを便利に利用できます。以下のような機能が提供されています。 OpenSearch Serverless の自動作成 S3 上のデータを Embedding して、ベクトルデータストアに自動的に格納 入力したテキストに紐づくデータを、ベクトルデータストアから自動的に取得して、テキストを生成 など 今回は、Knowledge B

    Knowledge Bases for Amazon Bedrock を OpenSearch Serverless で試してみる - Qiita
    sh19910711
    sh19910711 2024/05/05
    "Bedrock と OpenSearch Serverless を連携 / ファイルに対する質問ができる機能が追加されている + データストアを構築しなくても API 呼び出しが可能 / Knowledge Base に追加可能な Data source の上限 (limit) は 5 個まで"
  • Heroku PostgresとAWS BedrockとHugging FaceでRAGを作ってみた - Qiita

    2023年11月にHeroku Postgresql 15 がpgvectorに対応しました。これによりHeroku Postgresがベクトルデータベースとして利用できるようになりました。 記事では、最近話題のClaude2.1やText Embeddingと組み合わせ、Heroku Postgres内データを元に生成AIが回答してくれる、 Retrieval Augment Generation (RAG) を試作し、実際どんな回答を返してくれるか?検証してみました。 今回使用したもの 個人的に興味のあるものや、使いやすいものを選びましたので、特にこの組み合わせでないといけないわけではないです。 ■ ベクトルデータベース & ナレッジベース Heroku Heroku Postgres (PostgreSQL) pgvector ※今回の主役! ■ 大規模言語モデル AWS Bedr

    Heroku PostgresとAWS BedrockとHugging FaceでRAGを作ってみた - Qiita
    sh19910711
    sh19910711 2024/04/25
    "Heroku Postgres: pgvectorに対応 + ベクトルデータベースとして利用できるように / Heroku Connectを使い、Heroku Postgres <=> Salesforce 同期しておけば、結構シンプルな構成で、Salesforceレコードのベクトルデータを管理できそう" 2023
  • お手軽な検索API構築 その2 ~マルチコア・ベクトル・分散検索 | メルカリエンジニアリング

    こんにちは。株式会社メルペイのSolutionsチームのデータエンジニアの@orfeonです。 この記事は、Merpay Advent Calendar 2023 の22日目の記事です。 Solutionsチームは、社内向けの技術コンサル技術研修、部門を跨いだ共通の問題を発見して解決するソリューションの提供などを行っています。 私は主に社内のデータ周りの課題を解決するソリューションを提供しており、一部の成果はOSSとして公開しています。 過去の記事では全文検索OSSであるApache SolrをCloud Run上で利用して手軽に検索APIを構築する構成を紹介しました。 社内向けのソリューションの一つとして社内向けの検索APIを使ったサービスなど小規模な検索システムの構成に役立てています。 前回の記事の時点では、検索対象として搭載できるデータサイズなどにいくつかの制約がありました。 今回

    お手軽な検索API構築 その2 ~マルチコア・ベクトル・分散検索 | メルカリエンジニアリング
    sh19910711
    sh19910711 2024/02/29
    "Solr: 9.0からベクトル検索がサポート + スタンドアロンモードでも複数ノードにまたがった分散検索に対応 / Cloud Runのサービスをシャードごとにデプロイ + リクエストのshardsパラメータで指定" / 2023
  • テキストで動画の内容を検索できるシステムの試作|jig.jp engineers

    この記事はjig.jp Advent Calendar 2023の12月18日(月)の記事です。 今年はAIの発展がものすごい一年でしたね。 この記事では、先日の AWS re:Invent 2023 で発表されたAI関係のサービスを利用して、テキストで動画の内容を検索できるシステムを試作してみます。 システムの全体像は以下のようになります。 動画ファイルがS3バケットに保存されたのをトリガーに起動したLambda関数で、動画から数秒間隔のスナップショット画像を取得してそれらのEmbeddingsを Titan Multimodal Embeddingsで計算します。そして、ファイルパスと経過秒数をスナップショット画像のEmbeddingsとともに OpenSearch Serverlessベクトルエンジン に保存することで動画ファイルを検索可能にします。 (上記リンクは両方ともDevel

    テキストで動画の内容を検索できるシステムの試作|jig.jp engineers
    sh19910711
    sh19910711 2024/02/20
    "動画から数秒間隔のスナップショット画像を取得してそれらのEmbeddingsを Titan Multimodal Embeddingsで計算 / ファイルパスと経過秒数をスナップショット画像のEmbeddingsとともに OpenSearch Serverlessベクトルエンジンに保存" / 2023
  • DynamoDBとOpenSearch Serverlessのzero-ETL統合をTerraformで自動構築する - Qiita

    はじめに 2023年のre:Inventで発表されたDynamoDBとOpenSearch Serviceのzero-ETL統合は、複雑なETLを作り込むことなくお手軽にOpenSearch ServiceにDynamoDBの情報を取り込むことができる優れモノだ。 が、お手軽と言いつつ、IAMのアクセス権の設定やOpenSearch ServiceのYAML定義にはハマりどころが多く、マニュアルも散らばっていてお手軽感が薄かったのでもっとお手軽にするためにIaCで冪等性を高めて動作するようにした。また、今回はOpenSearchはServerlessで動作をさせる。 基は最初に貼ったAWS公式のブログの流れで作っていくことにする。 DynamoDBの準備 DynamoDBの準備は特に難しいところはない。 AWS公式のブログに記載の通り、DynamoDB StreamsとPoint-in-

    DynamoDBとOpenSearch Serverlessのzero-ETL統合をTerraformで自動構築する - Qiita
    sh19910711
    sh19910711 2024/01/20
    ここも繋がってたのか / "DynamoDBとOpenSearch Serviceのzero-ETL統合 / 2023年のre:Inventで発表 / お手軽にOpenSearch ServiceにDynamoDBの情報を取り込むことができる / hashicorp/terraform-provider-awscc"
  • 検索に対する感想 - 検索基盤から検索エンジンの改善を始めて半年経て

    はじめに 最近,スタバで期間限定で販売しているの冬の新作「バターキャラメルミルフィーユ ラテ」のミルクをアーモンドミルクに変更して飲んだら激ウマでハマってしまいました笑.皆さんも是非飲んでみて下さい!(ちなみに寒いので,ホットで注文しました😋) 今回のポストは 情報検索・検索技術 Advent Calendar 2022 の20日目の記事になります. どんな内容の記事を書こうか悩みましたが,今回は技術的なものではなく,僕が今年の5月半ばぐらいから関わり出した「検索」に関しての取り組みやその感想を書こうと思います.具体的には,検索基盤の整備〜検索エンジンのチューニング〜輪読会などを通して感じたことを書きたいと思います. モチベーション的には,後から見返した時に当時の検索に対する初々しい気持ちはどんなものだったのかを残しておきたい気持ちです笑 検索する上で欠かせない検索基盤 何と言っても検索

    検索に対する感想 - 検索基盤から検索エンジンの改善を始めて半年経て
    sh19910711
    sh19910711 2023/05/13
    2022 / "「日々運用をしていく上で,何に気をつけるべきなのか?どういったことを意識すると良いのか?」を考えると,そういった話は調べてもなかなか出てこないし,環境によって違うしという感じで悩ましい"
  • 宣言的かつ安全に管理するElasticsearch/Declarative management for Elasticsearch

    第49回Elasticsearch勉強会での発表資料です。 https://www.meetup.com/tokyo-elastic-fantastics/events/287299123/

    宣言的かつ安全に管理するElasticsearch/Declarative management for Elasticsearch
    sh19910711
    sh19910711 2022/09/02
    "Elasticsearch GitHub Action: Elasticから提供 / Terraform Provider Elastic Stack: リリースが2021/12と比較的歴史が浅く、まだまだ発展途上 + JSONで定義可能な設定が少なく、定義が煩雑 / 直近1~2年で多くのツールが登場しており"
  • ニアリアルタイムで同期される検索基盤を構築 ~AWS Glueによるデータ同期編~ - コネヒト開発者ブログ

    皆さん,こんにちは!MLエンジニアの柏木(@asteriam)です. ここ最近は検索エンジン内製化プロジェクトに携わっていて,検索エンジニアとして,検索基盤の主にデータ連携・同期の実装を1から構築したりしていました.7月中旬にABテストまで持っていくことが出来たので,ひとまず安心しているところです.ここからはユーザーの検索体験向上のために検索品質の改善に力を入れていく予定です! はじめに 今回新しく検索基盤をAWSのマネージドサービスを活用して構築しました!エントリーでは,タイトルにもあるように,検索基盤の肝であるDBから検索エンジンへのデータ同期をAWS Glueを用いてニアリアルタイムで実施したお話になります.我々は以下の構成で今回の検索基盤を構築しています. 検索エンジン:Amazon OpenSearch Service データベース:Amazon Aurora データ同期(ET

    ニアリアルタイムで同期される検索基盤を構築 ~AWS Glueによるデータ同期編~ - コネヒト開発者ブログ
    sh19910711
    sh19910711 2022/08/26
    "Glue Studioという新しいUIがあり,見やすく簡単に設定できてめっちゃ使いやすい / Job bookmark機能が言うことを聞かない問題 / Glue→OpenSearch間でエラーが発生した場合,なかなか原因を調査して特定するのが難しい"
  • お手軽な検索API構築 | メルカリエンジニアリング

    こんにちは、メルペイソリューションチーム所属エンジニアの@orfeonです。 この記事は Merpay Tech Openness Month 2021 5日目の記事です。 メルペイソリューションチームでは、社内向けの技術コンサル技術研修、部門を跨いだ共通の問題を発見して解決するソリューションの提供などを行っています。 自分は主に社内のデータ周りの課題を解決するソリューションを提供しており、一部の成果はOSSとして公開しています。 この記事ではいろいろな場面で必要とされるものの、運用負荷などの問題から導入の敷居が高い検索機能を(条件付きで)簡易に提供するためのソリューションを紹介します。 基的なアイデア 全文検索や位置検索など、検索はいろいろな場面で必要とされる機能です。しかしいざ検索サーバを立てて運用するとなると、データの整合性やモニタリングなど考えないといけないことも多く、利用に二

    お手軽な検索API構築 | メルカリエンジニアリング
    sh19910711
    sh19910711 2022/07/14
    2021 / "Apache Solr + BigQuery + Cloud Run / データの更新をリアルタイムには行わない + サーバ1台で管理できない規模のデータを扱わない / インデックス変更などに伴うマイグレーションなどの面倒なデータの運用を無くします"
  • ゼロ円から始めるHTTP(S)ハニーポット | ninoseki.github.io

    # ゼロ円から始めるHTTP(S)ハニーポット 1 min read... # TL;DR Honeypot: Sleep Warm (opens new window) ELK: logz.io (opens new window) PaaS: Heroku (opens new window) を使用することで、ゼロ円で解析基盤まで含めて HTTP(S)ハニーポットを運用することができる。 # はじめに 多くの人にとって、ハニーポットを運用してみようと思った際に最初に直面する問題はお金だと思う。 解析基盤(ここでは ELK スタックとする)を含めると、少なく見積もっても月に数千円はかかってしまうのではないだろうか。 なるべくなら無料で運用したい・・・!という人のために、今回はゼロ円で HTTP(S)ハニーポットを解析基盤まで含めて運用する方法を紹介する。 # ハニーポット まずは今回使

    sh19910711
    sh19910711 2022/06/13
    2018 / "logz\.io は"AI-Powered ELK as a Service"を謳うサービス: 制約はあるものの、無料で ELK を使用することが可能 + Daily capacity: 3 GB + Data retention: 3 day / 大きな問題: Heroku 上の Web アプリに対し、ボット等からのスキャンは皆無"
  • 検索の応答性能を維持するための Benchmarking Automation | メルカリエンジニアリング

    ※この記事は、"Blog Series of Introduction of Developer Productivity Engineering at Mercari" の一環で書かれています。 はじめに こんにちは、メルカリMicroservices SREチームの藤(@jimo1001)です。 私は Embedded SRE としてメルカリJPの検索に関連するマイクロサービスを提供している サーチインフラチームに入り、サービスの信頼性向上やインフラ周りの自動化に従事しています。今回は、メルカリの商品検索の応答性能を維持するための Benchmarking Automation の取り組みについて紹介したいと思います。 検索基盤のアーキテクチャ まず、検索基盤のアーキテクチャについて簡単に説明します。主要なコンポーネントに絞ってシンプルに表現したものが以下の図になります。 各コンポー

    検索の応答性能を維持するための Benchmarking Automation | メルカリエンジニアリング
    sh19910711
    sh19910711 2022/02/09
    "Gatling: 検索クエリを並列で Search Middleware へリクエストし、レスポンスタイムやステータスを計測 / テストに使用する検索クエリは、BigQuery に保存されているクエリログからテストに必要な量のクエリを抽出"
  • ElasticsearchのSlowlog設定について - Qiita

    ElasticsearchのSlowlogについて 皆さん、ElasticsearchのSlowlog設定を利用されてますか? クエリのパフォーマンスチューニングや、インデキシングに時間がかかっている時の原因究明に大いに役立つ設定だと思いますので、Elastic CloudとDocker上でのSlowlogの設定をご紹介します。 目次 Slowlogとは Elastic CloudでのSlowlog設定 Docker上でのSlowlog設定 最後に Slowlogとは まず公式ドキュメントはこちらです。 概要としては、インデックスに対してwarn, info, debug, traceのレベル毎に時間を設定することで、設定時間を上回ったクエリが出力されます。対象はSearchとIndexになりSearchのSlowlogではQueryとFetchで別々の時間が設定できます。 PUT /it

    ElasticsearchのSlowlog設定について - Qiita
    sh19910711
    sh19910711 2021/12/05
    index.search.slowlog.* / "インデックスに対してwarn, info, debug, traceのレベル毎に時間を設定することで、設定時間を上回ったクエリが出力されます / SearchのSlowlogではQueryとFetchで別々の時間が設定できます"
  • 全社統合ログ基盤を構築して得た知見 - Sansan Tech Blog

    こんにちは。CSIRT の吉山です。 私は2020年の4月にセキュリティエンジニアとして新卒入社し、現在は主にログ基盤(SIEM)の構築・運用やインシデント対応などの業務に取り組んでいます。 今回はそのログ基盤構築や運用、その他検証で得た知見などについて紹介します。 まず初めにログ基盤の技術的な概要についてここで簡単に触れておきます。 ちなみに基盤構築の背景などについては、以前に同じく CSIRTの松田が記事にしているのでこちらもぜひ一読いただければと思います! buildersbox.corp-sansan.com 構成 ログの集め方 ログの取り込みスクリプト(es-loader) について ユーザーの管理と権限設定 アラーティング コスト 基盤の負荷 検証について 課題 最後に 構成 基盤は AWS 上で構築しており、Amazon OpenSearch Service (以下、Open

    全社統合ログ基盤を構築して得た知見 - Sansan Tech Blog
    sh19910711
    sh19910711 2021/10/24
    "es-loader は AWS が OSS として公開している SIEM ソリューション + 様々な AWS サービスのログに対応 + 分割処理にも対応 / Graviton2 系のインスタンスの優秀さも相まって 2xlarge クラスでも台数を増やせば十分な性能"
  • Elasticsearchのマッピング設定最適化によるインデキシングパフォーマンス改善への取り組み - ZOZO TECH BLOG

    こんにちは。EC基盤部 検索基盤部 検索基盤チームの有村(@paki0o)です。 みなさん、Elasticsearchのマッピングはどこまで厳密に管理されているでしょうか。 弊社では以前のテックブログでご紹介した通り、一部を除きExplicit Mappingにてデータを管理しています。 techblog.zozo.com 設定している項目は、フィールド名・タイプ・適用するアナライザなど一般的な項目であり、詳細まで詰め切れているとは言い切れない状況でした。今回、マッピング設定の変更がパフォーマンスに与える影響を検証しましたので、その内容についてご紹介いたします。 背景と課題 マッピングの設定について index doc_values enabled 3項目の比較 検証 前準備 比較項目 検証結果 平日での比較結果 休日での比較結果 考察 まとめ 背景と課題 ZOZOTOWNの商品情報イン

    Elasticsearchのマッピング設定最適化によるインデキシングパフォーマンス改善への取り組み - ZOZO TECH BLOG
    sh19910711
    sh19910711 2021/08/08
    doc_values / "ソートや集計クエリ、scriptクエリなどフィールド単位の処理が必要とされる際に利用される列指向なデータ"
  • GAになったGKE AutopilotでElastic Cloud on Kubernetes (ECK)を動かす - Qiita

    昨日(2021/02/25)に、GKE AutopilotがGAになりました 🎉 今までは、GKEを使う場合Podが動くNodeは自分で管理する必要がありましたが、GKE Autopilotを使うとNodeもGCPが管理してくれるようになり、運用負荷が大きく減少します。AWSのEKS for Fargateに近いサービスといったイメージでしょうか。Google Cloudの方が書いた日語の記事がとても分かりやすいので、詳しくは以下をご覧ください。 Elastic Cloud on Kubernetes (ECK)は動かせるのか? 公式ドキュメントやブログを漁っていたのですが、CRD (Custom Resource Definition)やOperatorに関する記述は見当たりませんでした(探し方が悪いだけかもしれませんが…)。そこで、私が普段運用していてCRDやOperatorが使わ

    GAになったGKE AutopilotでElastic Cloud on Kubernetes (ECK)を動かす - Qiita
  • ElasticsearchとKubernetesの組み合わせはかなりいい LegalForceの検索インフラ運用法と活用法

    リーガルテック領域のリーディングカンパニーである株式会社LegalForceが、「検索インフラTechTalk!」を開催しました。インフラ領域の中でも「検索インフラ」にフォーカスした今回は、検索インフラに関する具体的な事例や取り組みについて各スピーカーから発表がありました。浜地亮輔氏は、LegalForce社における全文検索インフラ活用事例について話しました。 株式会社LegalForceのSREチームメンバー 浜地亮輔氏(以下、浜地):浜地から発表します。最近風邪気味で、咳き込むことがあるかもしれません。お聞き苦しいところ大変恐縮なんですが、ご了承ください。 まず自己紹介です。浜地亮輔と申します。2020年9月に株式会社LegalForceにジョインして、SRE(サイト・リライアビリティ・エンジニアリング)で仕事をしています。Twitterでは、@aibouというIDで日々活動しています

    ElasticsearchとKubernetesの組み合わせはかなりいい LegalForceの検索インフラ運用法と活用法
    sh19910711
    sh19910711 2021/05/16
    "Elasticsearch 7.5から導入されたSnapshot Lifecycle Management / curatorを使わなくてもスナップショットを自動で管理して、古いものは自動的に捨てる設定ができる"
  • 検索基盤を安全にElasticsearchに置き換えるためにやったこと

    Feature Toggleとダークローンチで安全にElasticsearchクラスタをリリースした話。

    検索基盤を安全にElasticsearchに置き換えるためにやったこと
    sh19910711
    sh19910711 2021/05/16
    ダークローンチ / "ElasticsearchとDBの両方に検索要求 => 検索結果を比較 => 差分をログに吐く => 実際に返すのはDBの結果 => ズレが許容値を切るまで改善"
  • GKE上にElasticsearchとcerebro環境を構築する - Qiita

    この記事は ただの集団 AdventCalendar PtW.2019 の5日目の記事です。 前回はhajimeniさんのプログラミングする上で避けるべき命名パターン - はじめに。でした。 TL;DR ElasticsearchをGKE上に構築する方法と、やってみて気づいた注意点を書きます。 また、cerebroでのノード監視と、ESのノード1台を落とした場合に新ノードが作成されること(Self-healing)も検証します。 前提知識 Elasticsearchを複数ノードで構築したことがある GKEのチュートリアルをこなし、Kubernetesでアプリをデプロイしたことがある kubectlがローカルで使える 全体構成 ES構築手順 クラスタの作成 デフォルトのn1-standard-1だとESのメモリ不足になるので、n1-standard-2に変更します。 $ gcloud con

    GKE上にElasticsearchとcerebro環境を構築する - Qiita
    sh19910711
    sh19910711 2021/05/01
    "cerebroはESのノード状態をリアルタイムに監視したり、RESTAPIの実行、GUIでの設定変更が行える便利ツール"
  • LINEデリマでのElasticsearchの運用と監視の話

    渡邊 紘太朗 (LINE Corporaion) 【京都】LINE Developer Meetup #33での発表資料です https://line.connpass.com/event/84852/

    LINEデリマでのElasticsearchの運用と監視の話
  • elasticsearchでノード障害が起きたときの動作 #elastic - クリエーションライン株式会社

    こんにちは。木内です。elasticsearchは分散アーキテクチャで可用性を確保するデータベースです。今回はelasticsearchクラスタでノード障害が起きたときに、どのような挙動を取るかについて解説します。 elasticsearchのプライマリシャードとレプリカシャード elasticsearchのデータを考える際に、キーとなる要素は「プライマリシャード」と「レプリカシャード」です。それぞれ以下のような役割を果たします。 プライマリシャード : ドキュメント(つまりインデックスに保存されるデータのうちの1つ)がelasticsearchに記録されるときに、あらかじめ定義された関数に従い、できるだけ分散されるようにプライマリシャードに配置されます。(elasticsearchクラスタの中に、インデックスごとに作成される)プライマリシャード数のデフォルト値は 5 です。 レプリカシャ

    elasticsearchでノード障害が起きたときの動作 #elastic - クリエーションライン株式会社