[B! redshift] takun71のブックマーク

Expanding JSON arrays to rows with SQL on RedShift

12 December 2013 — Torsten Becker Amazon's RedShift is a really neat product that solves a lot of our probl ems at work. However, its SQL dialect has some limitations when compared to Hive or PostgresSQL. I hit a limit when I needed table-generating functions but found a work-around. Some of the data we store in RedShift contains JSON arrays. However, when running analytical queries, there is no

takun71 2019/05/22

redshift

リンク

Redshiftはビューの参照先テーブルをrenameすると追跡する - 青木ブログ

またタイトルだけで言いたいこと終わった… => create table t (x int); CREATE TABLE => insert into t values (777); INSERT 0 1 => create view v as select * from t; CREATE VIEW => alter table t rename to t2; ALTER TABLE => select * from v; x ----- 777 (1 row) この仕様、便利なようで超不便……。 drop - create で作り直す方法とめっちゃ相性悪い。

takun71 2016/09/23

redshift

リンク

Redshiftのworkload management - まめ畑

Redshiftのパフォーマンス検証記事は見かけるのですが、WLMに関して言及されているものをみないのと、ちょっと複雑なのでまとめておきます。管理面については Redshiftの管理面 - まめ畑を参照下さい。 WLMの重要性 DWHでは往々にして、実行時間のかかるクエリからサクッと終わるもの、バッチがガリガリと長時間かけて実行するクエリまで様々なタイプのクエリが投げ込まれます。これらクエリはリソースをガッツリ割り当ててさっさと思ってほしいものから、重要でないから気長に実行をまてるものまで要件は様々です。これら、クラスタリソースを管理してクエリ毎に割り当てることで1つのクラスタ内で様々な種類・用途のクエリを扱いやすくすることが出来ます。 Redshiftでは標準で1キュー・5並列とParameter Groupで設定されています。この状態では実行時間が長くかかるクエリが5本実行されてい

takun71 2016/05/23

地味に大切

redshift
WLM

リンク

Amazon Redshift のテーブルロックを理解する | DevelopersIO

アプリケーション/データベースエンジニアであれば、一度はDeadLockという忌まわしい出来事に遭遇したことがあることでしょう。Redshiftのロックについてはあまり詳細な仕様が公開されていませんが、ロックやデットロックの動作について検証した結果について報告します。トランザクション分離レベルは、「SERIALIZABLE」大量データのデータのロード（LOAD）と参照（SELECT）に最適化されたRDBといえます。そのようなユースケースを想定して、トランザクションを開始（BEGIN）するときのデフォルトのトランザクション隔離レベルが、「SERIALIZABLE」に設計されているのではないかと考えています。「SERIALIZABLE」なので、デフォルト動作では、ダーティリード、ファジーリード、ファントムリードは発生しません。 BEGIN トランザクション分離レベルについて極力分かり

takun71 2016/05/23

redshift

リンク

【AWS】Redshiftの分散キーとソートキー - TASK NOTES

Redshiftのパフォーマンスで重要になる分散キーとソートキーについてまとめました。分散キー（DISTKEY）テーブルにデータをロードすると、そのテーブルの分散スタイルに従って、テーブルの行が各ノードスライスに分散されます。Redshift では1ノードの中で実際に処理を行うプロセスが複数動いており、このプロセスをノードスライスといいます。並列処理の単位はノードではなくノードスライス単位です。スライスの数は、次のようにノード上のプロセッサコアの数と同じになります。均等分散均等分散はデフォルトの分散スタイルです。リーダーノードは、特定の列の値に含まれている値にかかわらず、ラウンドロビン方式によって複数のスライス間で行を分散させます。例えば 8スライスのテーブルに 8行 insert した場合、各ノードスライスへ順番に 1行ずつ配布されます。均等分散は、テーブルが結合に関与していない

takun71 2016/01/05

redshift
aws

リンク

Amazon Redshift便利ツール『amazon-redshift-utils』の便利SQLスクリプト紹介(AdminScripts編) ｜ DevelopersIO

Amazon Redshiftでは日々の作業を行う上で様々な情報を必要とし、その過程で『こういう情報が欲しい』という局面が多々あります。当ブログでも適宜『便利系SQL』として必要な情報を取得する為のSQLをご紹介して来ましたが、以下のGitHub上で展開されている各種スクリプトがとても有用そうでしたので2回に分けて中身を見てみたいと思います。当エントリは『管理系スクリプト(AdminScripts)』に関する内容となります。 awslabs/amazon-redshift-utils · GitHub amazon-redshift-utils/src/AdminScripts at master · awslabs/amazon-redshift-utils · GitHub 目次 commit_stats.sql current_session_info.sql filter_used

takun71 2016/01/04

redshift

リンク

はじめに - Amazon Redshift

Amazon Redshift データベースデベロッパーガイドにようこそ。Amazon Redshift は、クラウド内でのフルマネージド型、ペタバイト規模のデータウェアハウスサービスです。Amazon Redshift Serverless を使用すると、プロビジョニングされたデータウェアハウスの通常の設定がなくても、データにアクセスして分析することができます。リソースは自動的にプロビジョニングされて、データウェアハウス容量はインテリジェントにスケーリングされ、要求が厳しく、予測不可能なワークロードであっても高速なパフォーマンスを実現します。データウェアハウスがアイドル状態のときには課金されず、使用した分のみ支払います。データセットのサイズに関係なく、Amazon Redshift クエリエディタ v2 またはお好みのビジネスインテリジェンス (BI) ツールで、データをロードしてクエ

takun71 2016/01/04

redshift

リンク

Amazon Redshiftで良く使いそうな便利系SQLをまとめてみた | DevelopersIO

Redshiftで色々環境構築や調査を進めて行くと、割とちょいちょい良く使うSQL等も出て来ます。そこでこのエントリでは、普段使っている便利系SQL、都度アクセスしてはコピペして使ってるようなSQL、更にはそれらにちょっと一手間加えたSQL等を集約し一覧としてみる事にしました。必須なもの、また『これも使えるね』というようなものについては適宜追加更新を行っていこうと思ってますので、オススメのSQL文があれば是非教えて頂けると幸いです。目次 S3からのCOPY処理エラーに関するログを確認する COPY処理時に出力させるエラー件数量を制御する指定テーブルのテーブル定義を確認する(type1:psqlコマンドで簡易表示) 指定テーブルのテーブル定義を確認する(type2:distkey,sortkey等も表示) 指定テーブルのテーブル定義を確認する(type3:コメント文も併せて表示) テー

takun71 2015/12/23

redshift

リンク

Amazon Redshift DB開発者ガイド – クエリパフォーマンスチューニング(1).実行計画の分析 | DevelopersIO

Amazon Redshift DB開発者ガイド – クエリパフォーマンスチューニング(1).実行計画の分析勢い余ってしまい本日3本目のエントリ投下となってしまいましたw Amazon Redshift DB開発者ガイド、当エントリはデータのロード処理から離れて『実行計画の分析』というテーマについて。掘り下げて行きます。目次実行計画の分析シンプルなEXPLAINの実行例 EXPLAINオペレータ Joinの例システムビューに対してクエリプランをマッピング実行計画の分析プロセスに異常に長い時間が掛かる場合は、実行計画を調べる事によってその性能を向上出来る機会を発見する事が出来るかも知れません。このセクションでは、Amazon Redshiftのクエリを最適化する機会を見つける為に、どのように実行計画を表示し、利用していくかについて説明します。実行計画を作成するには、以下例のよ

takun71 2015/07/27

redshift

リンク

Amazon RedshiftのUNLOADコマンド: PARALLELオプションで出力ファイルを一括化 | DevelopersIO

先日5/6に、Amazon RedshiftのUNLOADコマンドに関する機能改善が発表されました。UNLOADコマンドとは、Redshiftクラスタ内のテーブルに格納されているレコードをエクスポートする際に用いるコマンドになります。 Release: Amazon Redshift on 2014-05-06 : Release Notes : Amazon Web Services UNLOAD - Amazon Redshift このエントリでは、そのUNLOADコマンドに追加されたオプション機能『PARALLEL』についてその内容を確認してみたいと思います。 UNLOADコマンドでPARALLEL OFFコマンドを使う事によって出力ファイルを1つにまとめる事が出来るようになった You can unload table data serially to a single file

takun71 2015/06/18

リンク

Amazon Redshiftによるビッグデータ分析環境の構築手順

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

takun71 2014/10/09

aws
redshift

リンク

すかいらーくがRedshift＋Tableauで実現した「売るためのIT」 (1/2)

日本を代表する外食産業企業である「すかいらーくグループ」は、数十億件におよぶPOSデータをリアルタイムで分析する基盤をAmazon Web Services （以下、AWS）のデータウェアハウス（DWH）サービスであるRedshift上に構築した。あらゆる点で型破りな事例の裏側について、マーケティング部と情報システム部の2人に聞いた。施策の変更でキャンペーンの利益が4倍増「ガスト」や「バーミヤン」「ジョナサン」など年間4億人が利用するファミリーレストランを手がけるすかいらーくグループ。日本国内に3000店舗を展開する同社がクラウドベースのデータ分析基盤を構築したというニュースは、業界に大きなインパクトを与えている。しかも、AWSの中でも新しいサービスであるRedshiftや利用者の評価が高いTableauの採用、相談から1ヶ月での構築・運用、そして年間4億人分という膨大なデータ規模など