タグ

redshiftに関するtakun71のブックマーク (13)

  • Expanding JSON arrays to rows with SQL on RedShift

    12 December 2013  —  Torsten Becker Amazon's RedShift is a really neat product that solves a lot of our problems at work. However, its SQL dialect has some limitations when compared to Hive or PostgresSQL. I hit a limit when I needed table-generating functions but found a work-around. Some of the data we store in RedShift contains JSON arrays. However, when running analytical queries, there is no

  • Redshiftはビューの参照先テーブルをrenameすると追跡する - 青木ブログ

    またタイトルだけで言いたいこと終わった… => create table t (x int); CREATE TABLE => insert into t values (777); INSERT 0 1 => create view v as select * from t; CREATE VIEW => alter table t rename to t2; ALTER TABLE => select * from v; x ----- 777 (1 row) この仕様、便利なようで超不便……。 drop - create で作り直す方法とめっちゃ相性悪い。

    Redshiftはビューの参照先テーブルをrenameすると追跡する - 青木ブログ
  • Redshiftのworkload management - まめ畑

    Redshiftのパフォーマンス検証記事は見かけるのですが、WLMに関して言及されているものをみないのと、ちょっと複雑なのでまとめておきます。 管理面については Redshiftの管理面 - まめ畑を参照下さい。 WLMの重要性 DWHでは往々にして、実行時間のかかるクエリからサクッと終わるもの、バッチがガリガリと長時間かけて実行するクエリまで様々なタイプのクエリが投げ込まれます。 これらクエリはリソースをガッツリ割り当ててさっさと思ってほしいものから、重要でないから気長に実行をまてるものまで要件は様々です。これら、クラスタリソースを管理してクエリ毎に割り当てることで1つのクラスタ内で様々な種類・用途のクエリを扱いやすくすることが出来ます。 Redshiftでは標準で1キュー・5並列とParameter Groupで設定されています。この状態では実行時間が長くかかるクエリが5実行されてい

    Redshiftのworkload management - まめ畑
    takun71
    takun71 2016/05/23
    地味に大切
  • Amazon Redshift のテーブルロックを理解する | DevelopersIO

    アプリケーション/データベースエンジニアであれば、一度はDeadLockという忌まわしい出来事に遭遇したことがあることでしょう。Redshiftのロックについてはあまり詳細な仕様が公開されていませんが、ロックやデットロックの動作について検証した結果について報告します。 トランザクション分離レベルは、「SERIALIZABLE」 大量データのデータのロード(LOAD)と参照(SELECT)に最適化されたRDBといえます。そのようなユースケースを想定して、トランザクションを開始(BEGIN)するときのデフォルトのトランザクション隔離レベルが、「SERIALIZABLE」 に設計されているのではないかと考えています。「SERIALIZABLE」 なので、デフォルト動作では、ダーティリード、ファジーリード、ファントムリード は発生しません。 BEGIN トランザクション分離レベルについて極力分かり

    Amazon Redshift のテーブルロックを理解する | DevelopersIO
  • 【AWS】Redshiftの分散キーとソートキー - TASK NOTES

    Redshiftのパフォーマンスで重要になる分散キーとソートキーについてまとめました。 分散キー(DISTKEY) テーブルにデータをロードすると、そのテーブルの分散スタイルに従って、テーブルの行が各ノードスライスに分散されます。Redshift では1ノードの中で実際に処理を行うプロセスが複数動いており、このプロセスをノードスライスといいます。並列処理の単位はノードではなくノードスライス単位です。スライスの数は、次のようにノード上のプロセッサコアの数と同じになります。 均等分散 均等分散はデフォルトの分散スタイルです。リーダーノードは、特定の列の値に含まれている値にかかわらず、ラウンドロビン方式によって複数のスライス間で行を分散させます。例えば 8スライスのテーブルに 8行 insert した場合、各ノードスライスへ順番に 1行ずつ配布されます。均等分散は、テーブルが結合に関与していない

    【AWS】Redshiftの分散キーとソートキー - TASK NOTES
  • Amazon Redshift便利ツール『amazon-redshift-utils』の便利SQLスクリプト紹介(AdminScripts編) | DevelopersIO

    Amazon Redshiftでは日々の作業を行う上で様々な情報を必要とし、その過程で『こういう情報が欲しい』という局面が多々あります。当ブログでも適宜『便利系SQL』として必要な情報を取得する為のSQLをご紹介して来ましたが、以下のGitHub上で展開されている各種スクリプトがとても有用そうでしたので2回に分けて中身を見てみたいと思います。当エントリは『管理系スクリプト(AdminScripts)』に関する内容となります。 awslabs/amazon-redshift-utils · GitHub amazon-redshift-utils/src/AdminScripts at master · awslabs/amazon-redshift-utils · GitHub 目次 commit_stats.sql current_session_info.sql filter_used

    Amazon Redshift便利ツール『amazon-redshift-utils』の便利SQLスクリプト紹介(AdminScripts編) | DevelopersIO
  • はじめに - Amazon Redshift

    Amazon Redshift データベースデベロッパーガイドにようこそ。Amazon Redshift は、 クラウド内でのフルマネージド型、ペタバイト規模のデータウェアハウスサービスです。Amazon Redshift Serverless を使用すると、プロビジョニングされたデータウェアハウスの通常の設定がなくても、データにアクセスして分析することができます。リソースは自動的にプロビジョニングされて、データウェアハウス容量はインテリジェントにスケーリングされ、要求が厳しく、予測不可能なワークロードであっても高速なパフォーマンスを実現します。データウェアハウスがアイドル状態のときには課金されず、使用した分のみ支払います。データセットのサイズに関係なく、Amazon Redshift クエリエディタ v2 またはお好みのビジネスインテリジェンス (BI) ツールで、データをロードしてクエ

  • Amazon Redshiftで良く使いそうな便利系SQLをまとめてみた | DevelopersIO

    Redshiftで色々環境構築や調査を進めて行くと、割とちょいちょい良く使うSQL等も出て来ます。そこでこのエントリでは、普段使っている便利系SQL、都度アクセスしてはコピペして使ってるようなSQL、更にはそれらにちょっと一手間加えたSQL等を集約し一覧としてみる事にしました。 必須なもの、また『これも使えるね』というようなものについては適宜追加更新を行っていこうと思ってますので、オススメのSQL文があれば是非教えて頂けると幸いです。 目次 S3からのCOPY処理エラーに関するログを確認する COPY処理時に出力させるエラー件数量を制御する 指定テーブルのテーブル定義を確認する(type1:psqlコマンドで簡易表示) 指定テーブルのテーブル定義を確認する(type2:distkey,sortkey等も表示) 指定テーブルのテーブル定義を確認する(type3:コメント文も併せて表示) テー

    Amazon Redshiftで良く使いそうな便利系SQLをまとめてみた | DevelopersIO
  • Amazon Redshift DB開発者ガイド – クエリパフォーマンスチューニング(1).実行計画の分析 | DevelopersIO

    Amazon Redshift DB開発者ガイド – クエリパフォーマンスチューニング(1).実行計画の分析 勢い余ってしまい日3目のエントリ投下となってしまいましたw Amazon Redshift DB開発者ガイド、当エントリはデータのロード処理から離れて『実行計画の分析』というテーマについて。掘り下げて行きます。 目次 実行計画の分析 シンプルなEXPLAINの実行例 EXPLAINオペレータ Joinの例 システムビューに対してクエリプランをマッピング 実行計画の分析 プロセスに異常に長い時間が掛かる場合は、実行計画を調べる事によってその性能を向上出来る機会を発見する事が出来るかも知れません。このセクションでは、Amazon Redshiftのクエリを最適化する機会を見つける為に、どのように実行計画を表示し、利用していくかについて説明します。 実行計画を作成するには、以下例のよ

    Amazon Redshift DB開発者ガイド – クエリパフォーマンスチューニング(1).実行計画の分析 | DevelopersIO
  • Amazon RedshiftのUNLOADコマンド: PARALLELオプションで出力ファイルを一括化 | DevelopersIO

    先日5/6に、Amazon RedshiftのUNLOADコマンドに関する機能改善が発表されました。UNLOADコマンドとは、Redshiftクラスタ内のテーブルに格納されているレコードをエクスポートする際に用いるコマンドになります。 Release: Amazon Redshift on 2014-05-06 : Release Notes : Amazon Web Services UNLOAD - Amazon Redshift このエントリでは、そのUNLOADコマンドに追加されたオプション機能『PARALLEL』についてその内容を確認してみたいと思います。 UNLOADコマンドでPARALLEL OFFコマンドを使う事によって出力ファイルを1つにまとめる事が出来るようになった You can unload table data serially to a single file

    Amazon RedshiftのUNLOADコマンド: PARALLELオプションで出力ファイルを一括化 | DevelopersIO
  • Amazon Redshiftによるビッグデータ分析環境の構築手順

    CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

    Amazon Redshiftによるビッグデータ分析環境の構築手順
  • すかいらーくがRedshift+Tableauで実現した「売るためのIT」 (1/2)

    を代表する外産業企業である「すかいらーくグループ」は、数十億件におよぶPOSデータをリアルタイムで分析する基盤をAmazon Web Services (以下、AWS)のデータウェアハウス(DWH)サービスであるRedshift上に構築した。あらゆる点で型破りな事例の裏側について、マーケティング部と情報システム部の2人に聞いた。 施策の変更でキャンペーンの利益が4倍増 「ガスト」や「バーミヤン」「ジョナサン」など年間4億人が利用するファミリーレストランを手がけるすかいらーくグループ。日国内に3000店舗を展開する同社がクラウドベースのデータ分析基盤を構築したというニュースは、業界に大きなインパクトを与えている。しかも、AWSの中でも新しいサービスであるRedshiftや利用者の評価が高いTableauの採用、相談から1ヶ月での構築・運用、そして年間4億人分という膨大なデータ規模など

    すかいらーくがRedshift+Tableauで実現した「売るためのIT」 (1/2)
    takun71
    takun71 2014/04/22
    redshiftとTableauを使ってデータ分析
  • playstudy.net

    This domain may be for sale!

  • 1