[B! *data][aws] sh19910711のブックマーク

Glue + Athenaのローカル開発環境をOSSで構築（MinIO + Trino + HIVE） | moritalous blog

この環境をDocker Composeを使い構築します。環境構築MinIOまずはS3を置き換えるMinIOからです。ポイントは path-styleではなくvirtual-hosted styleを使用するため、MINIO_DOMAIN環境変数をセット他のコンテナから[バケット名].minioで名前解決できるようにhostnameを指定path-styleとvirtual-hosted styleの違いはこちらを参照ください。 version: '3' services: minio: image: quay.io/minio/minio hostname: bucket001.minio restart: always volumes: - ./minio/data:/data environment: - MINIO_DOMAIN=minio command: ["server

sh19910711 2024/05/28

"MINIO_DOMAIN環境変数をセット + 他のコンテナから[バケット名].minioで名前解決できるようにhostnameを指定 / Trino: 公式イメージが用意 + 必要なのはMinIOをカタログとして使用するための設定ファイル" 2022

リンク

S3バケット内のファイル一覧(S3 Inventory)をAthenaを利用して分析する | DevelopersIO

数千万単位のオブジェクトを配置したS3バケット内に、特定の拡張子のオブジェクトが何点存在するかを簡単に確認する方法がないか調べる機会があり、S3 Inventory機能を利用してファイル一覧を取得し、その結果をAthenaを利用して解析してみたので、その方法をご紹介します。西澤です。お客様よりお問い合わせをいただき、数千万単位のオブジェクトを配置したS3バケット内に、特定の拡張子のオブジェクトが何点存在するかを簡単に確認する方法がないか調べる機会がありました。aws s3 lsの結果をgrepするっていう気の遠くなるような方法は現実的ではないオブジェクト数だった為、S3 Inventory機能を利用してファイル一覧を取得し、その結果をAthenaを利用して解析してみることにしましたので、その方法をご紹介します。【新機能】S3 Inventoryを試してみた #reinvent ｜ De

sh19910711 2024/05/28

"特定の拡張子のオブジェクトが何点存在するか / aws s3 lsの結果をgrepするっていう気の遠くなるような方法は現実的ではないオブジェクト数 / S3インベントリでは、Apache Hive互換のマニフェストファイルを生成" 2018

リンク

Redshift Serverless RPUスケールの挙動 - Qiita

Redshift Serverlessを使用して気づいたポイントについて記す思ったよりスケールしない Serverlessであり、負荷に応じて自動的にスケールするなら、Base RPUは8(最小値)で良いと考えて設定した。しかし、実際にQueryを実行すると、非常に実行が遅く、実際に実行時のCloudwatchを見ると全くRPUがスケールしていないことがわかった。この挙動が疑問に思えたため、以下の試行を行い、挙動を確認した。 (ちなみに試したのは2023年の3月なのでまた挙動は変わっている可能性もある) まず、十分な負荷のかかるようなデータとSQLを準備するのはそれ自体が工数がかかるので、AWSのブログで紹介されているTPC-DSベースのRedshift用のDWHベンチマークを使用することとした https://github.com/awslabs/amazon-redshift-u

sh19910711 2024/05/24

"自動的にスケールするなら、Base RPUは8(最小値)で良いと考え / 非常に実行が遅く、実際に実行時のCloudwatchを見ると全くRPUがスケールしていないことがわかった / Cloud-DWB-Derived-from-TPCDS" 2023

リンク

AWS から OCI に移行してコストを約半額にした話 - Qiita

OCIについて知らない方向け AWSは知ってるがOCIを知らないという方は取り急ぎ以下のようなページを読むとイメージが掴みやすいかと思いますのでリンクを貼っておきます。本件では細かい用語の違いなどの説明は省略します。 OCIへの移行理由今回移行した理由はコスト削減が最大の理由でした。オンプレからAWSに移行したのは3年前の2021年2月で当時のドル円相場は約106円でした。 2021年のAWS移行当時、RDSのReserved InstancesとEC2のSavings Plansを3年で購入していました。（通常は1年などで購入されるケースの方が多いと思いますが、歴史のあるサービスなので急激なリソースの増減はあまり無さそうではと考えたためとなります。結果としては円が強いタイミングで安く買えて助かりました）移行を検討し始めたのはRI/SPが切れる1年前くらいで、その時点のドル円レート

sh19910711 2024/05/21

"AWS移行当時、RDSのReserved InstancesとEC2のSavings Plansを3年で購入 + 当時のドル円相場は約106円 / MySQL Shell の Instance Dump Utility: 並列化により非常に高速に Dump/Import が行える + mysqldump で昔のように頑張るより ~ 手間が減って楽"

リンク

Storage Transfer ServiceにAmazon S3からのデータ転送をより安くするオプションが追加されました | DevelopersIO

Google Cloudデータエンジニアのはんざわです。 2024年5月17日、Storage Transfer ServiceにGoogleが管理するマネージド・プライベート・ネットワーク経由でのデータ転送のオプションが追加されました。 May 17, 2024 この記事では、新しいオプションの概要や料金などを簡単に紹介したいと思います。マネージド・プライベート・ネットワークとは？マネージド・プライベート・ネットワークとは、Storage Transfer Serviceを利用して、Amazon S3からGoogle Cloud Storageへデータを転送するためのオプションの１つです。このオプションを有効化するとGoogleが管理するCross-Cloud Interconnect経由でデータが転送されます。これにより、Amazon S3のEgress料金がかからなくなり、代

sh19910711 2024/05/20

"オプションを有効化するとGoogleが管理するCross-Cloud Interconnect経由でデータが転送 / 今まではAWS側で発生していた料金がGoogle Cloud側に請求 / 対応しているリージョンがまだ少ない + ap-northeast-1のサポート待ってます"

リンク

Redshiftのデータ共有で元DBに作成したテーブルを即時反映させる - Qiita

はじめに Redshiftのデータ共有、皆さん使われているでしょうか。物理的なコピーをせず、Redshift間でデータの共有ができて便利ですよね。さて、このデータ共有ですが、既に共有されているテーブルに対してデータの追加や更新（INSERTやUPDATE）をすると即時反映されますが、テーブルの作成（CREATE TABLE）はデフォルトでは即時反映されません。テーブルの作成も即時反映させたい場合は、ALTER文で SET INCLUDENEW = TRUE SCHEMA schema を実施する必要があります。デフォルトではこれがFALSEになっており、かつGUI上ではこれをTRUEに設定できるところが見つかりませんでした。今回はこれをクエリエディタv2で実施してみます。前提条件以下のRedshiftを、それぞれ別のアカウントで作成済み。プロデューサーはRedshift Pr

sh19910711 2024/05/18

"データの追加や更新（INSERTやUPDATE）をすると即時反映されますが、テーブルの作成（CREATE TABLE）はデフォルトでは即時反映されません / ALTER文で SET INCLUDENEW = TRUE SCHEMA schema を実施する必要"

リンク

【AWS】Amazon Security Lakeの概要とアクセス管理の検証 - Qiita

はじめに 2023年5月に一般提供を開始したAmazon Security Lake(以後Security Lakeと記載)についてサービスの概要と特徴であるアクセス管理(データアクセス,クエリアクセス)に焦点をあてて記載します。今回解説を行わない内容 Security Lake 環境構築の諸設定解説 Security Lake に蓄積したデータの可視化目次・Security Lakeとは・メリット・システム構成図とアクセス管理の検証箇所・導入ステップ・アクセス管理動作検証・どのような活用が期待されるか・注意点 Security Lakeとは Security Lakeは、フルマネージド型のセキュリティデータレイクサービスです。 AWS環境・SaaSプロバイダー・オンプレミス・クラウドソースからのセキュリティデータ（ログ・イベントデータ）を、アカウントに保存されている専用

sh19910711 2024/05/09

"Security Lake: 検知したデータと他のログデータと組み合わせて分析や機械学習に利用する + サードパーティのデータもOSCF形式に変換することで一元管理 / 従量課金: データの取込みとデータ変換(正規化)"

リンク

分析基盤をAthenaからBigQueryへノーコードで移行した話 - mikan Developers' Blog

この記事はmikan Advent Calendar 2023の24日目の記事です。こんにちは。株式会社mikanでPlatform Engineeringチームのリーダーをしております。@hoshitocat です。Platform Engineeringチームは最近できたチームですが、その取り組み内容についてはまた後ほどご紹介できればと思っています。昨日はQAチームのchiakiさんによる、「テスト自動化で試行錯誤した話」でした。QAの自動化に取り組みたいと思っている方や、QAコスト削減方法に悩んでいる方はぜひ読んでみてください！ note.com なお、mikan Advent Calendar 2023の他の記事は下記のリンクからご覧ください。 adventar.org はじめにこれまでの分析基盤の課題 BigQuery利用への意思決定 Glueを使ってみるが断念 Athe

sh19910711 2024/05/07

"STSとDataprepを使って、S3にある行動ログをAthenaで集計していたものを、BigQueryで集計できるようにする / Dataprep: Plansというものがあり定期実行することもでき + Jobの実行状況ごとにSlack通知" 2023

リンク

S3のコスト削減に成功した話〜カギはバッチウィンドウ〜｜ハンズラボ株式会社

こんにちは！POSグループのhktです。こちらの記事は、「S3のコスト削減に失敗した話」の後編になります。もしまだ前編をご覧になっていない方は、ぜひ読んでみてください。さて、前編では、S3のコストを調査したところ、最も費用がかかっているのがPutObjectであることが判明しました。今回は、S3のコストを削減するために、PutObjectの実行回数を減らすことはできないか検討しました。 PutObjectの実行回数を減らしたい POSグループが運用するAWSアカウントでは、ログデータをS3に保存するために、Kinesis Data StreamsをトリガーとするLambda関数が稼働しています。具体的には、以下のような構成になっています。HandsPOSアプリからKinesis Data Streamsにログデータが送信され、Kinesis Data StreamsからLambd

sh19910711 2024/05/04

"S3のコストを調査したところ、最も費用がかかっているのがPutObjectで / ログデータをS3に保存するために、Kinesis Data StreamsをトリガーとするLambda関数が稼働 / バッチウィンドウ: 最大300秒間レコードをバッファリング" 2023

リンク

GlueJobからRedshiftServerlessに直接インサートするサンプルデータパイプラインのご紹介｜基幹システムのクラウド移行・構築・導入支援のBeeX

はじめにこんにちは、半田(@handy)です。 AWS上でデータパイプラインを検討する際、よく見る構成としてはS3上のファイルをGlue Jobで変換した後、再度S3に格納してAthenaやRedshiftなどから参照する方法があります。ただ、パフォーマンス要件からRedshiftにデータを取り込む必要がある場合、定期的にS3からのロードを行う必要があります。今回の構成では途中に変換後用のS3を介することなく、Glue Jobから直接Redshiftにインサートを行うデータパイプラインを構築してみましたので、その構成や具体的な設定内容などについてご紹介します。また、Glue Jobで変換する際、通常は一度S3に入れた変換前データをGlue Crawlerでクローリングし、メタデータをGlue DataCatalogに登録して、Glue DataCatalog経由でデータをロードする方

sh19910711 2024/05/04

"Redshift Serverless: これまでSecrets Managerでのパスワード管理に対応していませんでしたが、2024年3月にアップデートがあり、現在では利用できるようになりました / 「redshift![名前空間名]-[DBユーザー名]」のフォーマット"

リンク

Amazon Redshift 最適な分散スタイルを自動設定する『DISTSTYLE AUTO』の動きを確認してみました | DevelopersIO

はじめに 2018年の11月のCluster Version Historyに記載のあった『DISTSTYLE AUTO』がついに利用できるようになりました。分散スタイルにAUTOを指定すると最適な分散スタイルを自動的かつ動的に設定する新機能です。リリースバージョン 1.0.6754 以降で利用可能になりましたので、実際にテーブルを作成してどのように自動的かつ動的に設定が変化するかを確認したいと思います。 RedshiftのテーブルのDISTSTYLEに「AUTO」が追加され、東京リージョンでも使えるようになりました。今まではデフォルトはEVEN分散だったのですが、これからはデフォルトではじめはALL、件数が増えてくるとEVENというようにダイナミックに持ち方が変わる動きになります。https://t.co/UR8x2S2Qgi — Junpei Ozono (@jostandard) A

sh19910711 2024/05/03

"レコード数が少ない間は分散スタイルALL + レコード数が増加すると自動的に分散スタイルEVENに切り替わります / ALL: 全てのコンピュートノードに同じデータを配置 / EVEN: ラウンドロビンで均等にデータを配置" 2019

リンク

Spark 2.0 on EMR で Structured Streaming をやってみた

“Distributed computing (Apache Hadoop, Spark, …) Advent Calendar 2016” の 12/19 担当ということで、Spark 2.0 on EMR で Spark Streaming と Structured Streaming をやってみた結果を書きます。この記事でやることこの記事では Spark 2.0 で、現在アルファ版の Structured Streaming をやってみます。 Structured Streaming とは、Spark SQL エンジンで実現されたストリーム処理の仕組みです。従来型の Spark Streaming は RDD を DStream とよばれる Spark Streaming 特有のモデルを導入して扱うのに対して、Structured Streaming では Spark SQL

sh19910711 2024/04/29

"Structured Streaming: Spark SQL エンジンで実現されたストリーム処理の仕組み + バッチジョブと同じ書き方で Streaming 処理を実現 / 従来型の Spark Streaming は RDD を DStream とよばれる Spark Streaming 特有のモデル" 2016

リンク

QuickSightでの分析の幅が広がるレベルアウェア計算（LAC）を理解する | DevelopersIO

データアナリティクス事業本部コンサルティングチーム・新納（にいの）です。低コストでシンプルに可視化が行えることが強みのQuickSightですが、「もう少し踏み込んで分析をしたい…」と思う方もいらっしゃるのではないでしょうか。そんな方に朗報のレベルアウェア計算（level-aware calculations - LAC）について解説していきます。レベルアウェア計算（LAC）を理解する実際に試してみる前に、まずはレベルアウェア計算について理解することで今回のアップデートの嬉しさを100％フルパワーで享受できるようになります。レベルアウェア計算とはレベルアウェア計算とは、ウィンドウ関数と集計関数を使う際に関数を適用する粒度を指定できるQuickSightの機能です。集計関数に使えるLAC-A関数とウィンドウ関数に使えるLAC-W関数の二種類あります。LAC-W関数はこれまでLAA（

sh19910711 2024/04/27

"ディメンションと違う粒度で集計をさせたい / ウィンドウ関数と集計関数を使う際に関数を適用する粒度を指定できるQuickSightの機能 / Tableauに馴染みのある方であれば「LOD表現に似た概念だな」とピンとくるかも" 2022

リンク

Amazon Bedrock+Anthropic Claude 3 Sonnetで会話履歴を保持するSlackチャットボットを作成する - Qiita

Amazon Bedrock+Anthropic Claude 3 Sonnetで会話履歴を保持するSlackチャットボットを作成するDynamoDB slackbotAWSSAMbedrockclaude3 はじめに前回の記事｢Amazon Bedrock+Anthropic Claude 3 SonnetでSlackチャットボットを作成する｣では､会話履歴を保持しないシンプルなSlackチャットボットを作成しました｡本記事では､DynamoDBを使って会話履歴を保持するチャットボットを作成してみました｡会話履歴の呼び出しや更新にLangchainのChatMessageHistoryを使うことで､DynamoDBに会話履歴を保存する処理を簡単に実装できました｡デモ動画チャットボットとの会話履歴このように､追加の質問に対し､チャットボットは会話履歴を踏まえた回答を生成しました｡

sh19910711 2024/04/27

"DynamoDBChatMessageHistory (LangChain): DynamoDBに会話履歴を保存 + 会話履歴を踏まえた回答を生成 / ラップのリズムに乗せて説明してください｡といったリクエストを送ると､チャットボットがそれに答えてくれます"

リンク

AWS Glue での Spark のパフォーマンス (実行時間) を改善したい - クラウドエンジニアのノート

はじめに準備データ計測関数 CSV vs Parquet Parquet 参考読み取り速度比較データ作成読み取り読み取って Filter 処理した際の速度比較データサイズ比較 csv gzip はどれくらい？まとめ Glue DynamicFrame vs Spark DataFrame データ読み取り速度比較まとめパーティション数の違いによる速度比較準備シャッフルが発生しない処理シャッフルが発生する処理まとめ Spark Join BroadCast Join まとめキャッシュを使うキャッシュありなし比較遅延評価？まとめはじめに最近 O'Reilly のLearning Spark 2nd Edition を読み始めました。 https://learning.oreilly.com/library/view/learning-spark-2nd/

sh19910711 2024/04/25

"データ全体の読み取り速度は csv も parquet も変わらない / Filter 等を実行する場合 (Predicate Pushdown を使う場合) Parquet の方が読み取り早い / cache() や persist() は action ではなく transformation なので遅延評価" 2023

リンク

Amazon AthenaのクエリをAmazon S3 Object Lambdaアクセスポイントに対して実行してみました | DevelopersIO

Amazon AthenaのクエリをAmazon S3 Object Lambdaアクセスポイントに対して実行してみました初めに少し遡り2023/10頃のアップデートですがAmazon AthenaとAmazon S3 Object Lambdaの統合のアップデートがありました。 Amazon S3 Object LambdaはS3バケットからデータを取得し返却するタイミングでLambdaの処理によりデータを加工することができるアクセスポイントで、こちらを指定し経由することで個人情報のマスキングなどの処理ができるため派生データを作成せず１マスタ複数パターンを実現することが可能です。上記のアップデートによりはAmazon Athenaがこちらのアクセスポイントを指定しクエリを実行に応じデータを加工し参照できるようになったため試してみます。やること以前DMARCレポートをAmazon

sh19910711 2024/04/25

"S3 Object Lambda: S3バケットからデータを取得し返却するタイミングでLambdaの処理によりデータを加工することができる / Lambda関数の呼び出しを見てみると稼働自体は並行で行われますが、起動自体はファイル単位"

リンク

Amazon SageMaker Data Wrangler に画像の前処理が追加 - Qiita

はじめに AWS UpdateでAmazon SageMaker Data Wranglerに画像の前処理機能が追加されました。 Data WranglerはAmazon SageMaker Studioの機能の一つで、データの前処理が行えるサービスです。従来はファイルタイプとしてcsv, parquet, json, jsonl, orcに対応していたようですが、「image」が追加されました。利用イメージは以下のようになります。やってみる「S3からインポート → 重複削除 → ノイズ付与 → S3にエクスポート」という流れを試してみます。インポートするS3バケット内に同じ画像データを2枚用意しました。この画像に処理を行い、エクスポートするまでを試してみます。データインポートデータソースをS3としてインポートします。File typeは「image」を選択しました。イン

sh19910711 2024/04/23

"Data Wrangler: SageMaker Studioの機能の一つで、データの前処理が行えるサービス / 組み込みの変換も用意 + 今回は重複削除とノイズ付与 / カスタムで作成したスクリプトをステップに追加することもできる" 2023

リンク

Amazon S3 Express One Zone ディレクトリバケットを Mountpoint for Amazon S3 でマウントしてみた #AWSreInvent | DevelopersIO

Amazon S3 Express One Zone ストレージクラスの登場と同時に Mountpoint for Amazon S3 へ対応しました。さっそく EC2 にマウント可能か試してみました。 Mountpoint for Amazon S3 now supports the Amazon S3 Express One Zone storage class Amazon S3 Express One Zone とは re:Invent 2023 で発表された新しいストレージクラスです。S3 Standard と比べると耐久性を多少犠牲にして高パフォーマンスを実現したストレージクラスです。大量のデータを処理する AL/ML トレーニングや、ゲノム解析などのワークロードでは EC2 にマウントして使いたい場面があるのではないでしょうか。やってみた EC2（Amazon Linux

sh19910711 2024/04/23

"S3 Express One Zone: 登場と同時に Mountpoint for Amazon S3 へ対応 + ゲノム解析などのワークロードでは EC2 にマウントして使いたい場面がある / Mountpoint for Amazon S3 はバージョン1.3.0から S3 Express One Zone をサポート" 2023

リンク

S3 Express One Zone 用の VPC エンドポイント Gateway 型を作成する CloudFormation テンプレートの紹介 | DevelopersIO

S3 Express One Zone 用の VPC エンドポイント Gateway 型を作成する CloudFormation テンプレートの紹介 CloudFormation で構築済みの VPC に S3 Express One Zone 用の Gateway 型の VPC エンドポイントを追加する機会がありました。CloudFormation で構築するテンプレートのサンプルを紹介します。 S3 Express One Zone とは re:Invent 2023 において、Amazon S3 の新機能として、低レイテンシとハイパフォーマンスを実現する新しいストレージクラスが発表されました。このストレージクラスは、特に S3 におけるデータアクセスの速度を重視するユースケースに適しています。詳細については下記のブログをご覧ください。 S3 Express One Zone の VP

sh19910711 2024/04/23

"S3 Express One Zone: re:Invent 2023 + 低レイテンシとハイパフォーマンスを実現する新しいストレージクラス / 通信をVPCエンドポイント経由するにはS3 Express One Zone用のVPCエンドポイントも必要 + 通常のエンドポイントとは異なる"

リンク

Amazon EMR のバージョンアップ 2/3：メジャーバージョンアップで遭遇した問題 - Repro Tech Blog

前回の続きです。 EMR 5.36.1 から EMR 6.6.0 への更新について書きます。 EMR 5.36.1 から EMR 6.6.0 への更新アプリケーション等 EMR 5.36.1 EMR 6.6.0 Tez 0.9.2 0.9.2 Hue 4.10.0 4.10.0 Hive 2.3.9 3.1.2 Hadoop 2.10.1 3.2.1 Presto 0.267 0.267 Trino N/A 367 Amazon Linux 2 2 このバージョンアップでは Hive と Hadoop のメジャーバージョンアップがあるので、Upgrade Amazon EMR Hive Metastore from 5.X to 6.X | AWS Big Data Blog のとおりに Hive メタストアをマイグレートしました。その後、検証用 EMR cluster を作成してクエ

sh19910711 2024/04/21

"UDF を使ったクエリが動作が怪しくなり / Vectorized Query Execution を無効にして試したところ、独自開発した Hive UDF の部分で型のエラーが発生 / 修正するとクエリは通ったのですが、実行時間が大幅に長くなってしまい"

リンク

はてなブックマーク

タグ

関連タグで絞り込む (57)

*dataとawsに関するsh19910711のブックマーク (313)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第4週）

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス