[B! aws][dwh] sh19910711のブックマーク

Redshift Serverless RPUスケールの挙動 - Qiita

Redshift Serverlessを使用して気づいたポイントについて記す思ったよりスケールしない Serverlessであり、負荷に応じて自動的にスケールするなら、Base RPUは8(最小値)で良いと考えて設定した。しかし、実際にQueryを実行すると、非常に実行が遅く、実際に実行時のCloudwatchを見ると全くRPUがスケールしていないことがわかった。この挙動が疑問に思えたため、以下の試行を行い、挙動を確認した。 (ちなみに試したのは2023年の3月なのでまた挙動は変わっている可能性もある) まず、十分な負荷のかかるようなデータとSQLを準備するのはそれ自体が工数がかかるので、AWSのブログで紹介されているTPC-DSベースのRedshift用のDWHベンチマークを使用することとした https://github.com/awslabs/amazon-redshift-u

sh19910711 2024/05/24

"自動的にスケールするなら、Base RPUは8(最小値)で良いと考え / 非常に実行が遅く、実際に実行時のCloudwatchを見ると全くRPUがスケールしていないことがわかった / Cloud-DWB-Derived-from-TPCDS" 2023

リンク

Redshiftのデータ共有で元DBに作成したテーブルを即時反映させる - Qiita

はじめに Redshiftのデータ共有、皆さん使われているでしょうか。物理的なコピーをせず、Redshift間でデータの共有ができて便利ですよね。さて、このデータ共有ですが、既に共有されているテーブルに対してデータの追加や更新（INSERTやUPDATE）をすると即時反映されますが、テーブルの作成（CREATE TABLE）はデフォルトでは即時反映されません。テーブルの作成も即時反映させたい場合は、ALTER文で SET INCLUDENEW = TRUE SCHEMA schema を実施する必要があります。デフォルトではこれがFALSEになっており、かつGUI上ではこれをTRUEに設定できるところが見つかりませんでした。今回はこれをクエリエディタv2で実施してみます。前提条件以下のRedshiftを、それぞれ別のアカウントで作成済み。プロデューサーはRedshift Pr

sh19910711 2024/05/18

"データの追加や更新（INSERTやUPDATE）をすると即時反映されますが、テーブルの作成（CREATE TABLE）はデフォルトでは即時反映されません / ALTER文で SET INCLUDENEW = TRUE SCHEMA schema を実施する必要"

リンク

分析基盤をAthenaからBigQueryへノーコードで移行した話 - mikan Developers' Blog

この記事はmikan Advent Calendar 2023の24日目の記事です。こんにちは。株式会社mikanでPlatform Engineeringチームのリーダーをしております。@hoshitocat です。Platform Engineeringチームは最近できたチームですが、その取り組み内容についてはまた後ほどご紹介できればと思っています。昨日はQAチームのchiakiさんによる、「テスト自動化で試行錯誤した話」でした。QAの自動化に取り組みたいと思っている方や、QAコスト削減方法に悩んでいる方はぜひ読んでみてください！ note.com なお、mikan Advent Calendar 2023の他の記事は下記のリンクからご覧ください。 adventar.org はじめにこれまでの分析基盤の課題 BigQuery利用への意思決定 Glueを使ってみるが断念 Athe

sh19910711 2024/05/07

"STSとDataprepを使って、S3にある行動ログをAthenaで集計していたものを、BigQueryで集計できるようにする / Dataprep: Plansというものがあり定期実行することもでき + Jobの実行状況ごとにSlack通知" 2023

リンク

GlueJobからRedshiftServerlessに直接インサートするサンプルデータパイプラインのご紹介｜基幹システムのクラウド移行・構築・導入支援のBeeX

はじめにこんにちは、半田(@handy)です。 AWS上でデータパイプラインを検討する際、よく見る構成としてはS3上のファイルをGlue Jobで変換した後、再度S3に格納してAthenaやRedshiftなどから参照する方法があります。ただ、パフォーマンス要件からRedshiftにデータを取り込む必要がある場合、定期的にS3からのロードを行う必要があります。今回の構成では途中に変換後用のS3を介することなく、Glue Jobから直接Redshiftにインサートを行うデータパイプラインを構築してみましたので、その構成や具体的な設定内容などについてご紹介します。また、Glue Jobで変換する際、通常は一度S3に入れた変換前データをGlue Crawlerでクローリングし、メタデータをGlue DataCatalogに登録して、Glue DataCatalog経由でデータをロードする方

sh19910711 2024/05/04

"Redshift Serverless: これまでSecrets Managerでのパスワード管理に対応していませんでしたが、2024年3月にアップデートがあり、現在では利用できるようになりました / 「redshift![名前空間名]-[DBユーザー名]」のフォーマット"

リンク

Amazon Redshift 最適な分散スタイルを自動設定する『DISTSTYLE AUTO』の動きを確認してみました | DevelopersIO

はじめに 2018年の11月のCluster Version Historyに記載のあった『DISTSTYLE AUTO』がついに利用できるようになりました。分散スタイルにAUTOを指定すると最適な分散スタイルを自動的かつ動的に設定する新機能です。リリースバージョン 1.0.6754 以降で利用可能になりましたので、実際にテーブルを作成してどのように自動的かつ動的に設定が変化するかを確認したいと思います。 RedshiftのテーブルのDISTSTYLEに「AUTO」が追加され、東京リージョンでも使えるようになりました。今まではデフォルトはEVEN分散だったのですが、これからはデフォルトではじめはALL、件数が増えてくるとEVENというようにダイナミックに持ち方が変わる動きになります。https://t.co/UR8x2S2Qgi — Junpei Ozono (@jostandard) A

sh19910711 2024/05/03

"レコード数が少ない間は分散スタイルALL + レコード数が増加すると自動的に分散スタイルEVENに切り替わります / ALL: 全てのコンピュートノードに同じデータを配置 / EVEN: ラウンドロビンで均等にデータを配置" 2019

リンク

AWS Cost and Usage Report(CUR)をTerraformで作成する

AWS Cost and Usage Report（AWSのコストと使用状況レポート、以下CUR）は、AWSのコストやリソースの使用状況をS3やRedshiftにアップロードしてくれる機能です。EC2インスタンスIDなどのリソース単位を含めることができるため、コストの追跡が容易になります。 Cost Explorerと異なり、EC2以外のAWSサービスのリソースも含まれます。1日1回以上、S3にアップロードされるので、自分たちの使い慣れたBIツールなどで分析・可視化することができます。 AWSマネジメントコンソールからCURを設定することが多いのですが、今回はTerraform（一部CloudFormation）で作成する方法を紹介します。プロバイダの設定今回は、CURのデータを保存するS3バケットを東京リージョン（ap-northeast-1）に作成します。後述しますが、CURを作

sh19910711 2024/05/02

"aws_cur_report_definition: コストやリソースの使用状況をS3やRedshiftにアップロード + リソース単位を含めることができる / AthenaでCURデータをクエリできるようにするため、AWSから提供されているCloudFormationスタックを実行"

リンク

Amazon DataZone 初期導入から Amazon Redshift 統合の新機能まで解説する！ | DevelopersIO

Amazon DataZone 初期導入から Amazon Redshift 統合の新機能まで解説する！はじめにクラスメソッドの石川です。Amazon DataZoneは、クラウドサービス間の連携を活かし、Amazon Redshift統合の機能強化により、従来よりも簡単な操作で環境設定ができるようになりました。データガバナンス系のツールは設定が多くなりがちなので、この利便性は多くのユーザーにとって気になるところでしょう。今回は、Amazon Redshiftのサンプルデータの作成からAmazon DataZoneの初期導入とAmazon Redshift 統合まで解説します。すでに、Amazon Redshift 導入済みの方は、「Amazon DataZoneの準備」から、Amazon Redshift 統合の機能強化のみご覧いただきたい方は「環境プロファイルを作成」から読み進

sh19910711 2024/04/21

"DataZone: テンプレートの上にパラメーターセットを作成 + プロファイルを使って環境を作成する権限を与える / データの提供者や利用者は、環境を作成する際に自分でパラメーターを入力する必要がなくなり、選択するだけ"

リンク

SnowflakeからClaude3(Bedrock)を呼び出して、文章作成や画像認識させてみた。 - Qiita

SnowflakeからClaude3を呼び出して、文章作成やさせてみる今回はSnowflakeのUDFでClaude3(Amazon Bedrock)を呼び出して、文章作成や画像認識させる方法について紹介したいと思います。最初は文章作成させる方法だけで記事を作成しようと思ったのですが、クイックスタートをなぞるだけの記事になりそうだし、もうSnowflake Cortexでも出来ることなので、ステージ上の画像ファイルを認識する機能も追加してみました。ちなみに、以下はステージに配置したとある画像をClaude3に説明させた結果です。何だと思いますか。Snowflakeヘビーユーザにはお馴染みのあいつです。この画像には、可愛らしい白いぬいぐるみのクマが写っています。クマの体はふわふわと柔らかそうに見え、青いニットのマフラーを巻いて寒さから身を守っているように見えます。クマの顔は丸く優しい

sh19910711 2024/04/17

"SnowflakeからClaude3を呼び出して、文章作成や画像認識 / UDFからCluade3に接続するには、外部アクセス統合を作成 / BUILD_SCOPED_FILE_URLを使えば、呼び出し元のみからアクセスできる画像URLを作成しUDFに渡すことができる"

リンク

ついにGAした Redshift と Aurora の Zero-ETL でニアリアルタイム連携 - Qiita

[1] はじめに Zero-ETL統合とは？ OLTP系DBとOLAP系DWHはそもそも役割が違うので、従来はOLTP DBに蓄積されてたデータをDWHにデータ連携するETLが必要だったこの連携は結構大変で、要件に応じて例えばGlue、DMS、Kinesys、MWAA、StepFunctionsなどなどいろいろなサービスを組み合わせて実現する必要があったこの煩雑な工程をなくして、ニアリアルタイムでデータ自動連携しようというAWSの構想がZero-ETL Zero-ETLの範囲や実現方法はいろいろある https://aws.amazon.com/jp/what-is/zero-etl/ OLTP系DB〜DWH(Redshift)に着目すると、2023年12月時点で以下のDB間のZero-ETL統合ができる。 Aurora MySQL →　Redshift（GA) Aurora Post

sh19910711 2024/02/29

"Zero-ETL: 従来のFedereated Queryとかとは全く異なり、HWレイヤーレベルでDB間のデータがフルマネージドで同期 / マテリアライズドビューも作成できた / ストレージ単価はRedshiftはAuroraの 1/5 〜 1/10 くらい" / 2023

リンク

OpenMetadataでRedshiftのクエリログからリネージュを作成する | DevelopersIO

OpenMetadataではデータリネージュ（データの流れ）を可視化できます。 Redshiftではクエリのログを読み込むことでそこから自動的にリネージュ情報を作ることができます。その流れをやっていこうと思います。 Redshiftのユーザについて OpenMetadataを利用する際はスーパーユーザではないユーザを利用するべきです。 OpenMetadataはデータカタログなので原則Redshift内の実データ書き換えは発生しません。発生してしまったらかなり怖いです。よってスーパーユーザの権限はそもそも必要なく、また、もしも想定外に書き換えがあった時にはきちんと禁止されるように一般のリードオンリーユーザを作成して行います。また別の理由として、スーパーユーザでは全てのデータにアクセスができてしまい、 Redshift Spectrumを利用するテーブルに対してもクエリをかけること

sh19910711 2023/10/30

"OpenMetadataのLineageIngestion / クエリ履歴の再取得も定期的に行ってくれるので、クエリが変わった時にも自動的に追従してくれるはず / Query Log Durationの設定を適切にしないと変更前後両方の情報が出てきてしまう"

リンク

バクラク事業部による AWS コスト管理の課題に対して行った3つの取り組み - LayerX エンジニアブログ

こんにちは！バクラク事業部 Platform Engineering 部 DevOps チームの多田(@tada_infra)です。7月はLayerX エンジニアブログを活発にする期間でして、ぜひ左記のリンクを辿って気になる記事を見ていただけるとありがたいです！先週の金曜日は Natsuo さんのLayerX のエンジニアインターンって実際どうなん？に答えていくでした。この記事では DevOps チームで行った AWS コスト管理の課題にまつわるお話になります。 AWS コストに関して持っていた課題感 1. サービスのコスト高騰の検知が遅いこと 2. コストの可視化ができていなかったこと課題に対して取ったアクションの紹介 1. コストが高騰している特定サービスのコスト削減・最適化 2. コストの上昇を検知するために AWS Budget Alert と Cost Anomaly Dete

sh19910711 2023/07/14

"Budget Alert と Cost Anomaly Detection / 後者は月中のコスト異常値を通知 / AWS Cost Usage Report をS3 に出力 + Storage Transfer Service で Google Cloud Storage にデータを転送 + BigQuery でクエリ / dbt を使ってデータを変換 + Locker Studio で可視化"

リンク

RedshiftのMERGE SQL commandがGAになりましたね。 - KAYAC engineers' blog

SREチームの池田です。今回はAmazon RedshiftのMERGE SQL commandがGAになりましたので、MERGE SQL commandの何が嬉しいのかを話をしたいと思います。 SRE連載 4月号になります。 aws.amazon.com 3行でまとめ RedshiftのMERGE SQL commandがGAになりました。 Bulk UpsertをSQL1文で実行できるものです。以前と比べるとスッキリします。複数のデータソースから算出されるレポートの更新に使うと嬉しい。以前のRedshiftにおけるBulk Upsertについてご存知かもしれませんが、『なかったらInsert、あったらUpdate』を通称Upsertといいます。 Redshiftにおける、Upsertのやり方ですがMERGE SQL commandが出る前のRedshiftでは以下のドキュメン

sh19910711 2023/04/29

"RedshiftのMERGE SQL commandがGAになりました / Bulk UpsertをSQL1文で実行できる / 複数のデータソースから算出されるレポートの更新に使うと嬉しい"

リンク

Redshiftの利用状況を可視化して不要なテーブルをお掃除した話 - LIVESENSE ENGINEER BLOG

これは Livesense Advent Calendar 2022 DAY 10 の記事です。年末のお掃除捗っていますか？我が家では窓掃除にWV1が大活躍しています。データエンジニアの毛利です。サービス横断のデータ分析基盤であるLivesense Analytics（以降LA）の開発、運用を行っています。背景データ利用状況の可視化テーブルの利用状況 Redshiftユーザーの利用状況運用してみてわかったこと最後に背景データを提供したものの、気がつくとほとんど使われていない、というのはよくある話だと思います。 LAでも様々なデータを提供できるように機能追加してきた結果、日々データは増え続け、システムの保守コストも徐々に膨れ上がってきました。システムは拡張する一方で、人が運用できる範囲には限度があります。いくつか解決方法があるかと思いますが、今回はデータの整理にフォーカスし

sh19910711 2023/04/20

2022 / "データを提供したものの、気がつくとほとんど使われていない、というのはよくある / 気づく術を得るために、定期的にグラフをみていく / 増え続けるデータに対して、減らすという行為も必要"

リンク

BigQueryのシャーディングされたテーブルをOpenSearchへ連携する方法 - コネヒト開発者ブログ

皆さん，こんにちは！最近は検索エンジニアとしての仕事がメインの柏木（@asteriam）です．はじめに今回はTips的な記事になります．背景としては，アプリの検索ログをBigQueryに溜めているのですが，それを検索エンジンのサジェスト機能で使用するために，BigQueryからAmazon OpenSearch Serviceへデータ連携を実施しました．その際にBigQueryのシャーディングされたテーブルをどのようにして連携したかというお話になります．検索システムのデータ基盤構築に関する過去のブログでも紹介していますが，我々はGlueを用いて検索エンジン（OpenSearch）へのデータ連携を行っています．今回はGlueを用いる点は同じですが，データソースはBigQuery，ターゲットソースをOpenSearchとしてデータ連携しました．今回は以下の内容を紹介していこうと思います

sh19910711 2022/11/25

"BigQueryからAmazon OpenSearch Serviceへデータ連携 / テーブルは日付でシャーディング > table suffixが日付 / Glue Connector for Google BigQuery: queryというkeyを使うことでシャーディングされたテーブルの連携に対応"

リンク

ジモティーのデータ活用フローのご紹介 - ジモティー Tech Blog

ジモティーiOSチーム所属のエンジニアの橋本です。普段はiOSアプリの開発に従事していますが､ Webやネイティブアプリ（iOS/Android）の各種計測データの収集や社内への展開などの業務にも従事しています。今回は､自分が担当しているデーター活用周りでの取り組みのご紹介をしたいと思います。組織のコンディション判断と意思決定に利用されるデータ Webアプリやネイティブアプリ（iOS/Android）が生み出す様々なデータは収集･蓄積・加工 ▶ 分析･活用という過程を経るわけですが､その利用目的は大きくは2つです。ジモティーというサービスの現状がどうなのか､サービスのコンディションの善し悪しを判断するための利用ユーザーの利用状況の傾向を把握し､次の打ち手を決める判断材料としての利用この利用目的を達成するためにデータをどのように利用者に届けるかが重要となります。エンジニア

sh19910711 2022/11/11

2020 / "パフォーマンス面とコストメリットの部分で検討をして､2017年にBigQueryの利用を開始 + RedshiftとBigQueryを併用 / 両方で持っているデータで JOIN ができないデメリットがあり､2018年にBigQueryにすべてのデータが集約"

リンク

Redshift Streaming Ingestion for Kinesis Data Streams（Public Preview）を試してみた - Qiita

背景・目的 2022年2月に、こちらの記事でKinesis Data Streamに蓄積されたストリーミングデータをRedshiftで接続して参照することが発表されました。今回は、この機能を実際に試してみたいと思います。まとめ現在パブリックプレビュー。 Redshiftのマテリアライズドビューの仕組みを利用して、ストリームデータのある時点の断面をRedshiftで参照できる。 KDF→KDF→S3→COPY（もしくはSpectrumで直接参照）としていたが、構成がシンプルになる。マテビューを介するので、リアルタイムに近いデータを参照するためには定期的にリフレッシュが必要になる。ただし秒単位で最新単位でのデータを参照するには、ECSやEC2などでデーモンなどを動かして、sleppをはさみつつ定期的に外部からリフレッシュのクエリを実行するなど工夫が必要と思われる。 Redshiftスケ

sh19910711 2022/09/30

"マテリアライズドビューの仕組みを利用して、ストリームデータのある時点の断面をRedshiftで参照 / リアルタイムに近いデータを参照するためには定期的にリフレッシュが必要 / 2022年8月23日現在でパブリックプレビュー"

リンク

Redshift Serverlessの使用制限を使ってみた - Qiita

Redshift Serverlessの使いすぎを防ぐべく、使用制限を使って利用料の監視をしました。 1日あたり$2以上使った場合はSNSトピックに通知するという設定をして、動作確認をしてみました。使用制限の設定マネジメントコンソールで設定する場合、Amazon Redshift サーバーレス→ワークグループの設定→ワークグループ名→制限→使用制限を管理→Redshift 処理ユニット (RPU) の最大数→制限を追加から設定します。設定画面で入力するのは以下4点です。頻度：どのスパンで利用料を計算するか指定します。[毎日/ 毎週 / 毎月]から選択します。使用制限 (時間)：RPU hourの閾値を入力します。計算方法は後ほど記載します。アクション：閾値を超えた場合のアクションを指定します。[アラート / システムテーブルへのログ / ユーザークエリを無効にする]のいずれかか

sh19910711 2022/09/26

"使用制限を管理→Redshift 処理ユニット (RPU) の最大数→制限を追加 / 閾値を超えた場合のアクション: アラート / システムテーブルへのログ / ユーザークエリを無効にするのいずれか / クエリは60秒未満は切り上げ"

リンク

Amazon Redshift Serverless 本番環境に向けた「設定をカスタマイズ」による環境構築手順 | DevelopersIO

データアナリティクス事業本部コンサルティングチームの石川です。「デフォルト設定を使用」で構築するのであれば、ワンクリック3分で構築可能です。しかし、本番環境のように任意のVPCに構築するには「設定をカスタマイズ」による環境構築が必要です。 1つ目のRedshift Serverless環境の構築は、「デフォルト設定を使用」を用いた環境構築もしくは「設定をカスタマイズ」による環境構築のいずれかです。2つ目以降は、下記のサーバーレスダッシュボードの[ワークグループを作成]から環境構築します。この手順は、「設定をカスタマイズ」とほぼ同じで、RPUの設定が追加されたものとそれほど変わりません。本日は、Redshift Serverlessを構築するための設定項目の整理して、「設定をカスタマイズ」による環境構築する手順について解説します。環境構築するための設定項目最初にRedshift S

sh19910711 2022/08/09

"RPU: コンピューティングを表す単位 + 1RPUあたり16GiBメモリ / ネットワーク: 少なくとも3つのサブネット + それらが3つのアベイラビリティゾーンにまたがっている必要 + RPUの数に応じてENIをより多く確保"

リンク

日々変化するゆるふわフォーマットをBigQueryでおいしく料理する方法。Athenaユーザも必見だよ！ - CARTA TECH BLOG

3行まとめ背景データの流れそのままコピーするだけのLambda 外部テーブルを使おうゆるふわをゆるふわのまま扱う JSON Linesを1カラムのレコードとして取り込む定期的に外部テーブルにクエリして結果を保存するまとめ 3行まとめ BigQueryはいいぞ外部テーブルはすごいぞ Scheduled Queryも便利だぞこんにちは。ひむ（@himu）です。株式会社fluctでエンジニアとして働いていたり、ボルダリングしたりガチャを回したり健康で文化的な生活をしています。 fluctはインターネット広告プラットフォームのサービスなどを提供しており、毎日億単位の大量のイベントログが発生しています。イベントログには、売上の計算に必要なデータから、アプリケーションを改善する上で必要なデータなど、様々なデータが入り混じっており、情報が追加されることも度々あります。今回は、そんな

sh19910711 2022/08/05

2020: JSON型とかでいい感じになって欲しい / "JSON Linesを1カラムのレコードとして取り込む / CSVフォーマットにはデリミタを指定することができるためデータに入り得ない文字を指定すれば1行1カラムとしてパース"

リンク

AWSのDWH「Redshift」がサーバーレスに進化、10年で内部構造はこんなに変わった

米Amazon Web Services（アマゾン・ウェブ・サービス、AWS）が2022年7月12日（米国時間）、データウエアハウス（DWH）をサーバーレス化した「Amazon Redshift Serverless」の一般提供を開始した。ユーザー企業は容量設計が一切不要でDWHを利用できる。サーバーレスと言っても、本当にサーバーがなくなったわけではない。これまでのAmazon Redshiftは使い始める際に、ユーザー企業はDWHクラスターで使用する仮想マシンのサイズなどを決める必要があった。仮想マシンの使用料金は1時間単位の従量課金で、クエリーを実行していない場合であっても料金が発生していた。それに対してAmazon Redshift Serverlessの場合は、ユーザー企業は仮想マシンのサイズなどを決める必要はない。クエリーの実行時に自動的にノードが起動して処理が始まり、処理が

sh19910711 2022/07/28

"「SIGMOD 2022」で、Amazon Redshiftの10年の歴史を振り返る講演 / PostgreSQLを使ってMPP型のDWHを開発していたスタートアップの米ParAccel（パーアクセル、当時）からライセンスを受けて作られた / 当初の内部構造はまさにMPP型"

リンク

はてなブックマーク

タグ

関連タグで絞り込む (17)

awsとdwhに関するsh19910711のブックマーク (44)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第1週）

今週のはてなブックマーク数ランキング（2024年5月第4週）

今週のはてなブックマーク数ランキング（2024年5月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス