[B! *infra][search] sh19910711のブックマーク

Knowledge Bases for Amazon Bedrock を OpenSearch Serverless で試してみる - Qiita

Knowledge Bases for Amazon Bedrock を OpenSearch Serverless で試してみる AWSbedrockKnowledgeBaseForAmazonBedrock はじめに Knowledge Bases for Amazon Bedrock を利用すると、会社のデータなどを利用した RAG を簡単に構成できる機能です。OpenSearch Serverless などのベクトルデータストアと連携して、データの格納、利用などを便利に利用できます。以下のような機能が提供されています。 OpenSearch Serverless の自動作成 S3 上のデータを Embedding して、ベクトルデータストアに自動的に格納入力したテキストに紐づくデータを、ベクトルデータストアから自動的に取得して、テキストを生成など今回は、Knowledge B

sh19910711 2024/05/05

"Bedrock と OpenSearch Serverless を連携 / ファイルに対する質問ができる機能が追加されている + データストアを構築しなくても API 呼び出しが可能 / Knowledge Base に追加可能な Data source の上限 (limit) は 5 個まで"

リンク

Heroku PostgresとAWS BedrockとHugging FaceでRAGを作ってみた - Qiita

2023年11月にHeroku Postgresql 15 がpgvectorに対応しました。これによりHeroku Postgresがベクトルデータベースとして利用できるようになりました。本記事では、最近話題のClaude2.1やText Embeddingと組み合わせ、Heroku Postgres内データを元に生成AIが回答してくれる、 Retrieval Augment Generation (RAG) を試作し、実際どんな回答を返してくれるか？検証してみました。今回使用したもの個人的に興味のあるものや、使いやすいものを選びましたので、特にこの組み合わせでないといけないわけではないです。 ■ ベクトルデータベース & ナレッジベース Heroku Heroku Postgres (PostgreSQL) pgvector ※今回の主役！ ■ 大規模言語モデル AWS Bedr

sh19910711 2024/04/25

"Heroku Postgres: pgvectorに対応 + ベクトルデータベースとして利用できるように / Heroku Connectを使い、Heroku Postgres <=> Salesforce 同期しておけば、結構シンプルな構成で、Salesforceレコードのベクトルデータを管理できそう" 2023

リンク

お手軽な検索API構築その2 ~マルチコア・ベクトル・分散検索 | メルカリエンジニアリング

こんにちは。株式会社メルペイのSolutionsチームのデータエンジニアの@orfeonです。この記事は、Merpay Advent Calendar 2023 の22日目の記事です。 Solutionsチームは、社内向けの技術コンサルや技術研修、部門を跨いだ共通の問題を発見して解決するソリューションの提供などを行っています。私は主に社内のデータ周りの課題を解決するソリューションを提供しており、一部の成果はOSSとして公開しています。過去の記事では全文検索OSSであるApache SolrをCloud Run上で利用して手軽に検索APIを構築する構成を紹介しました。社内向けのソリューションの一つとして社内向けの検索APIを使ったサービスなど小規模な検索システムの構成に役立てています。前回の記事の時点では、検索対象として搭載できるデータサイズなどにいくつかの制約がありました。今回

sh19910711 2024/02/29

"Solr: 9.0からベクトル検索がサポート + スタンドアロンモードでも複数ノードにまたがった分散検索に対応 / Cloud Runのサービスをシャードごとにデプロイ + リクエストのshardsパラメータで指定" / 2023

リンク

テキストで動画の内容を検索できるシステムの試作｜jig.jp engineers

この記事はjig.jp Advent Calendar 2023の12月18日(月)の記事です。今年はAIの発展がものすごい一年でしたね。この記事では、先日の AWS re:Invent 2023 で発表されたAI関係のサービスを利用して、テキストで動画の内容を検索できるシステムを試作してみます。システムの全体像は以下のようになります。動画ファイルがS3バケットに保存されたのをトリガーに起動したLambda関数で、動画から数秒間隔のスナップショット画像を取得してそれらのEmbeddingsを Titan Multimodal Embeddingsで計算します。そして、ファイルパスと経過秒数をスナップショット画像のEmbeddingsとともに OpenSearch Serverlessベクトルエンジンに保存することで動画ファイルを検索可能にします。（上記リンクは両方ともDevel

sh19910711 2024/02/20

"動画から数秒間隔のスナップショット画像を取得してそれらのEmbeddingsを Titan Multimodal Embeddingsで計算 / ファイルパスと経過秒数をスナップショット画像のEmbeddingsとともに OpenSearch Serverlessベクトルエンジンに保存" / 2023

リンク

DynamoDBとOpenSearch Serverlessのzero-ETL統合をTerraformで自動構築する - Qiita

はじめに 2023年のre:Inventで発表されたDynamoDBとOpenSearch Serviceのzero-ETL統合は、複雑なETLを作り込むことなくお手軽にOpenSearch ServiceにDynamoDBの情報を取り込むことができる優れモノだ。が、お手軽と言いつつ、IAMのアクセス権の設定やOpenSearch ServiceのYAML定義にはハマりどころが多く、マニュアルも散らばっていてお手軽感が薄かったのでもっとお手軽にするためにIaCで冪等性を高めて動作するようにした。また、今回はOpenSearchはServerlessで動作をさせる。基本は最初に貼ったAWS公式のブログの流れで作っていくことにする。 DynamoDBの準備 DynamoDBの準備は特に難しいところはない。 AWS公式のブログに記載の通り、DynamoDB StreamsとPoint-in-

sh19910711 2024/01/20

ここも繋がってたのか / "DynamoDBとOpenSearch Serviceのzero-ETL統合 / 2023年のre:Inventで発表 / お手軽にOpenSearch ServiceにDynamoDBの情報を取り込むことができる / hashicorp/terraform-provider-awscc"

リンク

検索に対する感想 - 検索基盤から検索エンジンの改善を始めて半年経て

はじめに最近，スタバで期間限定で販売しているの冬の新作「バターキャラメルミルフィーユラテ」のミルクをアーモンドミルクに変更して飲んだら激ウマでハマってしまいました笑．皆さんも是非飲んでみて下さい！（ちなみに寒いので，ホットで注文しました😋）今回のポストは情報検索・検索技術 Advent Calendar 2022 の20日目の記事になります．どんな内容の記事を書こうか悩みましたが，今回は技術的なものではなく，僕が今年の5月半ばぐらいから関わり出した「検索」に関しての取り組みやその感想を書こうと思います．具体的には，検索基盤の整備〜検索エンジンのチューニング〜輪読会などを通して感じたことを書きたいと思います．モチベーション的には，後から見返した時に当時の検索に対する初々しい気持ちはどんなものだったのかを残しておきたい気持ちです笑検索する上で欠かせない検索基盤何と言っても検索

sh19910711 2023/05/13

2022 / "「日々運用をしていく上で，何に気をつけるべきなのか？どういったことを意識すると良いのか？」を考えると，そういった話は調べてもなかなか出てこないし，環境によって違うしという感じで悩ましい"

リンク

宣言的かつ安全に管理するElasticsearch/Declarative management for Elasticsearch

第49回Elasticsearch勉強会での発表資料です。 https://www.meetup.com/tokyo-elastic-fantastics/events/287299123/

sh19910711 2022/09/02

"Elasticsearch GitHub Action: Elasticから提供 / Terraform Provider Elastic Stack: リリースが2021/12と比較的歴史が浅く、まだまだ発展途上 + JSONで定義可能な設定が少なく、定義が煩雑 / 直近1~2年で多くのツールが登場しており"

リンク

ニアリアルタイムで同期される検索基盤を構築 ~AWS Glueによるデータ同期編~ - コネヒト開発者ブログ

皆さん，こんにちは！MLエンジニアの柏木（@asteriam）です．ここ最近は検索エンジン内製化プロジェクトに携わっていて，検索エンジニアとして，検索基盤の主にデータ連携・同期の実装を1から構築したりしていました．7月中旬にABテストまで持っていくことが出来たので，ひとまず安心しているところです．ここからはユーザーの検索体験向上のために検索品質の改善に力を入れていく予定です！はじめに今回新しく検索基盤をAWSのマネージドサービスを活用して構築しました！本エントリーでは，タイトルにもあるように，検索基盤の肝であるDBから検索エンジンへのデータ同期をAWS Glueを用いてニアリアルタイムで実施したお話になります．我々は以下の構成で今回の検索基盤を構築しています．検索エンジン：Amazon OpenSearch Service データベース：Amazon Aurora データ同期（ET

sh19910711 2022/08/26

"Glue Studioという新しいUIがあり，見やすく簡単に設定できてめっちゃ使いやすい / Job bookmark機能が言うことを聞かない問題 / Glue→OpenSearch間でエラーが発生した場合，なかなか原因を調査して特定するのが難しい"

リンク

お手軽な検索API構築 | メルカリエンジニアリング

こんにちは、メルペイソリューションチーム所属エンジニアの＠orfeonです。この記事は Merpay Tech Openness Month 2021 5日目の記事です。メルペイソリューションチームでは、社内向けの技術コンサルや技術研修、部門を跨いだ共通の問題を発見して解決するソリューションの提供などを行っています。自分は主に社内のデータ周りの課題を解決するソリューションを提供しており、一部の成果はOSSとして公開しています。この記事ではいろいろな場面で必要とされるものの、運用負荷などの問題から導入の敷居が高い検索機能を(条件付きで)簡易に提供するためのソリューションを紹介します。基本的なアイデア全文検索や位置検索など、検索はいろいろな場面で必要とされる機能です。しかしいざ検索サーバを立てて運用するとなると、データの整合性やモニタリングなど考えないといけないことも多く、利用に二

sh19910711 2022/07/14

2021 / "Apache Solr + BigQuery + Cloud Run / データの更新をリアルタイムには行わない + サーバ1台で管理できない規模のデータを扱わない / インデックス変更などに伴うマイグレーションなどの面倒なデータの運用を無くします"

リンク

ゼロ円から始めるHTTP(S)ハニーポット | ninoseki.github.io

# ゼロ円から始めるHTTP(S)ハニーポット 1 min read... # TL;DR Honeypot: Sleep Warm (opens new window) ELK: logz.io (opens new window) PaaS: Heroku (opens new window) を使用することで、ゼロ円で解析基盤まで含めて HTTP(S)ハニーポットを運用することができる。 # はじめに多くの人にとって、ハニーポットを運用してみようと思った際に最初に直面する問題はお金だと思う。解析基盤(ここでは ELK スタックとする)を含めると、少なく見積もっても月に数千円はかかってしまうのではないだろうか。なるべくなら無料で運用したい・・・!という人のために、今回はゼロ円で HTTP(S)ハニーポットを解析基盤まで含めて運用する方法を紹介する。 # ハニーポットまずは今回使

sh19910711 2022/06/13

2018 / "logz\.io は"AI-Powered ELK as a Service"を謳うサービス: 制約はあるものの、無料で ELK を使用することが可能 + Daily capacity: 3 GB + Data retention: 3 day / 大きな問題: Heroku 上の Web アプリに対し、ボット等からのスキャンは皆無"

リンク

検索の応答性能を維持するための Benchmarking Automation | メルカリエンジニアリング

※この記事は、"Blog Series of Introduction of Developer Productivity Engineering at Mercari" の一環で書かれています。はじめにこんにちは、メルカリMicroservices SREチームの藤本(@jimo1001)です。私は Embedded SRE としてメルカリJPの検索に関連するマイクロサービスを提供しているサーチインフラチームに入り、サービスの信頼性向上やインフラ周りの自動化に従事しています。今回は、メルカリの商品検索の応答性能を維持するための Benchmarking Automation の取り組みについて紹介したいと思います。検索基盤のアーキテクチャまず、検索基盤のアーキテクチャについて簡単に説明します。主要なコンポーネントに絞ってシンプルに表現したものが以下の図になります。各コンポー

sh19910711 2022/02/09

"Gatling: 検索クエリを並列で Search Middleware へリクエストし、レスポンスタイムやステータスを計測 / テストに使用する検索クエリは、BigQuery に保存されているクエリログからテストに必要な量のクエリを抽出"

リンク

ElasticsearchのSlowlog設定について - Qiita

ElasticsearchのSlowlogについて皆さん、ElasticsearchのSlowlog設定を利用されてますか？クエリのパフォーマンスチューニングや、インデキシングに時間がかかっている時の原因究明に大いに役立つ設定だと思いますので、Elastic CloudとDocker上でのSlowlogの設定をご紹介します。目次 Slowlogとは Elastic CloudでのSlowlog設定 Docker上でのSlowlog設定最後に Slowlogとはまず公式ドキュメントはこちらです。概要としては、インデックスに対してwarn, info, debug, traceのレベル毎に時間を設定することで、設定時間を上回ったクエリが出力されます。対象はSearchとIndexになりSearchのSlowlogではQueryとFetchで別々の時間が設定できます。 PUT /it

sh19910711 2021/12/05

index.search.slowlog.* / "インデックスに対してwarn, info, debug, traceのレベル毎に時間を設定することで、設定時間を上回ったクエリが出力されます / SearchのSlowlogではQueryとFetchで別々の時間が設定できます"

リンク

全社統合ログ基盤を構築して得た知見 - Sansan Tech Blog

こんにちは。CSIRT の吉山です。私は2020年の4月にセキュリティエンジニアとして新卒入社し、現在は主にログ基盤（SIEM）の構築・運用やインシデント対応などの業務に取り組んでいます。今回はそのログ基盤構築や運用、その他検証で得た知見などについて紹介します。まず初めにログ基盤の技術的な概要についてここで簡単に触れておきます。ちなみに基盤構築の背景などについては、以前に同じく CSIRTの松田が記事にしているのでこちらもぜひ一読いただければと思います！ buildersbox.corp-sansan.com 構成ログの集め方ログの取り込みスクリプト（es-loader）についてユーザーの管理と権限設定アラーティングコスト基盤の負荷検証について課題最後に構成基盤は AWS 上で構築しており、Amazon OpenSearch Service (以下、Open

sh19910711 2021/10/24

"es-loader は AWS が OSS として公開している SIEM ソリューション + 様々な AWS サービスのログに対応 + 分割処理にも対応 / Graviton2 系のインスタンスの優秀さも相まって 2xlarge クラスでも台数を増やせば十分な性能"

リンク

Elasticsearchのマッピング設定最適化によるインデキシングパフォーマンス改善への取り組み - ZOZO TECH BLOG

こんにちは。EC基盤本部検索基盤部検索基盤チームの有村（@paki0o）です。みなさん、Elasticsearchのマッピングはどこまで厳密に管理されているでしょうか。弊社では以前のテックブログでご紹介した通り、一部を除きExplicit Mappingにてデータを管理しています。 tech blog.zozo.com 設定している項目は、フィールド名・タイプ・適用するアナライザなど一般的な項目であり、詳細まで詰め切れているとは言い切れない状況でした。今回、マッピング設定の変更がパフォーマンスに与える影響を検証しましたので、その内容についてご紹介いたします。背景と課題マッピングの設定について index doc_values enabled 3項目の比較検証前準備比較項目検証結果平日での比較結果休日での比較結果考察まとめ背景と課題 ZOZOTOWNの商品情報イン

sh19910711 2021/08/08

doc_values / "ソートや集計クエリ、scriptクエリなどフィールド単位の処理が必要とされる際に利用される列指向なデータ"

リンク

GAになったGKE AutopilotでElastic Cloud on Kubernetes (ECK)を動かす - Qiita

昨日（2021/02/25）に、GKE AutopilotがGAになりました 🎉 今までは、GKEを使う場合Podが動くNodeは自分で管理する必要がありましたが、GKE Autopilotを使うとNodeもGCPが管理してくれるようになり、運用負荷が大きく減少します。AWSのEKS for Fargateに近いサービスといったイメージでしょうか。Google Cloudの方が書いた日本語の記事がとても分かりやすいので、詳しくは以下をご覧ください。 Elastic Cloud on Kubernetes (ECK)は動かせるのか？公式ドキュメントやブログを漁っていたのですが、CRD (Custom Resource Definition)やOperatorに関する記述は見当たりませんでした（探し方が悪いだけかもしれませんが…）。そこで、私が普段運用していてCRDやOperatorが使わ

sh19910711 2021/06/16

リンク

ElasticsearchとKubernetesの組み合わせはかなりいい　LegalForceの検索インフラ運用法と活用法

リーガルテック領域のリーディングカンパニーである株式会社LegalForceが、「検索インフラTechTalk!」を開催しました。インフラ領域の中でも「検索インフラ」にフォーカスした今回は、検索インフラに関する具体的な事例や取り組みについて各スピーカーから発表がありました。浜地亮輔氏は、LegalForce社における全文検索インフラ活用事例について話しました。株式会社LegalForceのSREチームメンバー浜地亮輔氏（以下、浜地）：浜地から発表します。最近風邪気味で、咳き込むことがあるかもしれません。お聞き苦しいところ大変恐縮なんですが、ご了承ください。まず自己紹介です。浜地亮輔と申します。2020年9月に株式会社LegalForceにジョインして、SRE（サイト・リライアビリティ・エンジニアリング）で仕事をしています。Twitterでは、@aibouというIDで日々活動しています

sh19910711 2021/05/16

"Elasticsearch 7.5から導入されたSnapshot Lifecycle Management / curatorを使わなくてもスナップショットを自動で管理して、古いものは自動的に捨てる設定ができる"

リンク

検索基盤を安全にElasticsearchに置き換えるためにやったこと

Feature Toggleとダークローンチで安全にElasticsearchクラスタをリリースした話。

sh19910711 2021/05/16

ダークローンチ / "ElasticsearchとDBの両方に検索要求 => 検索結果を比較 => 差分をログに吐く => 実際に返すのはDBの結果 => ズレが許容値を切るまで改善"

リンク

GKE上にElasticsearchとcerebro環境を構築する - Qiita

この記事はただの集団 AdventCalendar PtW.2019 の5日目の記事です。前回はhajimeniさんのプログラミングする上で避けるべき命名パターン - はじめに。でした。 TL;DR ElasticsearchをGKE上に構築する方法と、やってみて気づいた注意点を書きます。また、cerebroでのノード監視と、ESのノード1台を落とした場合に新ノードが作成されること(Self-healing)も検証します。前提知識 Elasticsearchを複数ノードで構築したことがある GKEのチュートリアルをこなし、Kubernetesでアプリをデプロイしたことがある kubectlがローカルで使える全体構成 ES構築手順クラスタの作成デフォルトのn1-standard-1だとESのメモリ不足になるので、n1-standard-2に変更します。 $ gcloud con

sh19910711 2021/05/01

"cerebroはESのノード状態をリアルタイムに監視したり、RESTAPIの実行、GUIでの設定変更が行える便利ツール"

リンク

LINEデリマでのElasticsearchの運用と監視の話

渡邊紘太朗 (LINE Corporaion) 【京都】LINE Developer Meetup #33での発表資料です https://line.connpass.com/event/84852/

sh19910711 2021/05/01

リンク

elasticsearchでノード障害が起きたときの動作 #elastic - クリエーションライン株式会社

こんにちは。木内です。elasticsearchは分散アーキテクチャで可用性を確保するデータベースです。今回はelasticsearchクラスタでノード障害が起きたときに、どのような挙動を取るかについて解説します。 elasticsearchのプライマリシャードとレプリカシャード elasticsearchのデータを考える際に、キーとなる要素は「プライマリシャード」と「レプリカシャード」です。それぞれ以下のような役割を果たします。プライマリシャード : ドキュメント（つまりインデックスに保存されるデータのうちの１つ）がelasticsearchに記録されるときに、あらかじめ定義された関数に従い、できるだけ分散されるようにプライマリシャードに配置されます。(elasticsearchクラスタの中に、インデックスごとに作成される)プライマリシャード数のデフォルト値は 5 です。レプリカシャ

sh19910711 2021/01/03

リンク

はてなブックマーク

タグ

関連タグで絞り込む (18)

*infraとsearchに関するsh19910711のブックマーク (57)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第4週）

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス