タグ

redshiftに関するInoHiroのブックマーク (73)

  • Redshiftのデータをサービス改善に役立てるデータ転送システム Queuery - クックパッド開発者ブログ

    こんにちは、技術部データ基盤グループの佐藤です。この記事では最近業務として主に取り組んでいたDWHから外部へのデータ転送基盤であるQueuery(きゅうり)について、OSSとしてGitHubへの公開しましたのでこの記事でご紹介をします。 github.com Queueryというシステムは2017年の春頃にid:koba789の手により作られ、クックパッドのデータ基盤における重要な立ち位置を担っています。 背景 従来、RedshiftでSELECT文などの取得系クエリを実行するためにはRedshiftに直接接続してクエリを発行していました。この方法ではクエリ結果が巨大な場合にクライアント側のリソースを逼迫させることがありました。 しかし、それを避けるためにカーソルを使おうものなら今度はたちまちRedshiftのリーダーノードの具合が悪くなってしまいます。Redshiftから巨大な結果を得る

    Redshiftのデータをサービス改善に役立てるデータ転送システム Queuery - クックパッド開発者ブログ
  • Datarow - Amazon Redshift Client

    We are pleased to share that DataRow is now an Amazon Web Services (AWS) company. We're proud to have created an innovative tool that facilitates data exploration and visualization for data analysts in Redshift, providing users with an easy to use interface to create tables, load data, author queries, perform visual analysis, and collaborate with others to share SQL code, analysis, and results.. T

  • Amazon Redshift announces Elastic resize

    You can now quickly resize your Amazon Redshift cluster in minutes by adding nodes to get better performance and more storage for demanding workloads or by removing nodes to save cost. Elastic resize is significantly faster than the Classic resize operation, which Amazon Redshift has had since its inception. Additional nodes are added or removed in minutes with minimal disruption to on-going read

    Amazon Redshift announces Elastic resize
  • Performance matters: Amazon Redshift is now up to 3.5x faster for real-world workloads | AWS Big Data Blog

    AWS Big Data Blog Performance matters: Amazon Redshift is now up to 3.5x faster for real-world workloads Since we launched Amazon Redshift, thousands of customers have trusted us to get uncompromising speed for their most complex analytical workloads. Over the course of 2017, our customers benefited from a 3x to 5x performance gain, resulting from short query acceleration, result caching, late mat

    Performance matters: Amazon Redshift is now up to 3.5x faster for real-world workloads | AWS Big Data Blog
  • 『Amazon Redshift&Tableau パフォーマンスチューニング』に関するホワイトペーパーの改訂版を読んでみた(Amazon Redshiftの最適化編) | DevelopersIO

    dc1.large Amazon Redshiftクラスタを使用している場合は、既存のスナップショットを使用して新しいdc2.largeクラスタに単純にリストアできます。 dc2.xlarge、dc2.8xlarge、またはdc1.8xlargeのAmazon Redshiftクラスタから移行するには、サイズ変更操作を使用して新しいDC2クラスタにデータを移動します。詳細については、Amazon Redshiftのクラスタとノードを参照してください。 DC2ファミリは、1ノードしか必要としない1TB未満のデータウェアハウス用に、コスト効率の高い小さなノードを用意しています。コンピューティング重視のノードを使用すると、同じデータに対する同じクエリが大幅に高速化され、結果としてTableauワークブックのパフォーマンスが向上します。 クラスタをスケールアウトしてノード数を増やすか、ノードサイズ

    『Amazon Redshift&Tableau パフォーマンスチューニング』に関するホワイトペーパーの改訂版を読んでみた(Amazon Redshiftの最適化編) | DevelopersIO
  • Amazon Redshiftを使用した高性能ETL処理のベストプラクティス Top 8 | Amazon Web Services

    Amazon Web Services ブログ Amazon Redshiftを使用した高性能ETL処理のベストプラクティス Top 8 ETL(Extract、Transform、Load)プロセスを使用すると、ソース・システムからデータ・ウェアハウスにデータをロードできます。 これは、通常、バッチまたはほぼリアルタイムのインジェスト(挿入)プロセスとして実行され、データウェアハウスを最新の状態に保ち、エンドユーザーに最新の分析データを提供します。 Amazon Redshiftは、高速でペタバイト規模のデータウェアハウスであり、データ駆動型の意思決定を簡単に行うことができます。 Amazon Redshiftを使用すると、標準的なSQLを使用して、費用対効果の高い方法で大きなデータを洞察することができます。 StarおよびSnowflakeスキーマから、分析クエリを実行するための単純化

    Amazon Redshiftを使用した高性能ETL処理のベストプラクティス Top 8 | Amazon Web Services
  • STV_BLOCKLIST - Amazon Redshift

    STV_BLOCKLIST には、データベース内の各スライス、テーブル、または列で使用される 1 MB ディスクブロックの数が表示されます。 データベース、テーブル、または列ごとに割り当てられている 1 MB ディスクブロックの数を調べるには、以下の例に示すように、STV_BLOCKLIST で集計クエリを使用します。または STV_PARTITIONS を使用して、ディスク利用に関する概要を見ることができます。 STV_BLOCKLIST はスーパーユーザーのみに表示されます。詳細については、「システムテーブルとビューのデータの可視性」を参照してください。 テーブルの列

  • Amazon Redshiftに新世代のDC2ノードが追加 – 価格はそのままで最大2倍の性能向上 | Amazon Web Services

    Amazon Web Services ブログ Amazon Redshiftに新世代のDC2ノードが追加 – 価格はそのままで最大2倍の性能向上 Amazon Redshiftは高速で完全マネージド型のデータウェアハウス(DWH)です。ペタバイト級までスケールアウトが可能であり、Amazon Redshift Spectrumを利用することでAmazon S3上に保存されたエクサバイト級のデータにロード無しでクエリを実行することも可能です。 Amazon Redshiftがリリースされた当初からご利用いただいている方であれば、当初はHDD搭載のDW1と呼ばれるノード1種類しか無かったことをご記憶かと思います。続いてSSDを搭載した新しいノード追加され、DW1(HDDベース)とDW2(SSDベース)の2タイプから選択可能になりました。 その後、DW1の後継がリリースされる際にHDDベースは

    Amazon Redshiftに新世代のDC2ノードが追加 – 価格はそのままで最大2倍の性能向上 | Amazon Web Services
  • 実装方法が異なる機能 - Amazon Redshift

    Amazon Redshift SQL の多くの言語要素は、対応する PostgreSQL 実装とはパフォーマンス特性が異なり、使用する構文およびセマンティクスもまったく異なるものとなっています。 Amazon Redshift と PostgreSQL に含まれる共通要素のセマンティクスは同じであるとみなさないでください。判断しかねる差異については、Amazon Redshift デベロッパーガイドの SQL コマンド を参照して確認してください。 具体的な例として VACUUM コマンドが挙げられます。これはテーブルのクリーンアップおよび再編成に使用されます。VACUUM は PostgreSQL バージョンの場合とは機能が異なり、異なるパラメータセットを使用します。Amazon Redshift での VACUUM の使用についての詳細は、テーブルのバキューム処理 を参照してください

  • Amazon Redshift および PostgreSQL - Amazon Redshift

    Amazon Redshift は PostgreSQL に基づいています。Amazon Redshift と PostgreSQL の間には非常に重要な相違点がいくつかあり、データウェアハウスアプリケーションを設計して開発するときはそれを考慮する必要があります。 Amazon Redshift は、具体的には、大規模データセットに対して複雑なクエリを行う必要があるオンライン分析処理 (OLAP) アプリケーションおよびビジネスインテリジェンス (BI) アプリケーション向けに設計されています。Amazon Redshift は多種多様な要件に対処するため、Amazon Redshift で使用する専用のデータストレージスキーマおよびクエリ実行エンジンは PostgreSQL の実装とは完全に異なります。例えば、オンライントランザクション処理 (OLTP) アプリケーションが一般的にデータ

  • スキューのない世界を目指して - クックパッド開発者ブログ

    こんにちは。インフラストラクチャー部データ基盤グループの小玉です。 先日Amazon Redshift(以下、Redshift)で32TBのテーブルを全行スキャンするクエリを3同時に走らせたまま帰宅し、クラスターを落としてしまいました。 普段はRedshiftのクエリをチューニングしたり、データ基盤周りの仕組みを慣れないRubyで書いたりしています。 突然ですが、スキュー(skew)という単語をご存じでしょうか。 「skew 意味」で検索すると「斜め」とか「傾斜」といった訳が出てきますが、コンピューティング界隈では「偏り」という訳語が定着していると思います。 さらに、分散並列DB界隈で単にスキューもしくは偏りと言った場合、それはしばしばデータの偏りを指します。 データが偏っているとは データが偏っているとは、複数ノードで構成される分散並列DBにおいて、各ノードが保持するデータ量(行数)に

    スキューのない世界を目指して - クックパッド開発者ブログ
  • ANALYZE - Amazon Redshift

    ANALYZE [ VERBOSE ] [ [ table_name [ ( column_name [, ...] ) ] ] [ PREDICATE COLUMNS | ALL COLUMNS ] パラメータ VERBOSE ANALYZE オペレーションに関する進捗情報メッセージを返す句。このオプションは、テーブルを指定しないときに役立ちます。 table_name 一時テーブルを含む、特定のテーブルを分析できます。テーブルをそのスキーマ名で修飾することができます。また、table_name を指定して単一のテーブルを分析することもできます。1 つの ANALYZE table_name ステートメントで複数の table_name を指定することはできません。table_name 値を指定しなかった場合、システムカタログの永続テーブルを含め、現在接続されているデータベースのすべての

  • Amazon Redshift Spectrum – Exabyte-Scale In-Place Queries of S3 Data | Amazon Web Services

    AWS News Blog Amazon Redshift Spectrum – Exabyte-Scale In-Place Queries of S3 Data Now that we can launch cloud-based compute and storage resources with a couple of clicks, the challenge is to use these resources to go from raw data to actionable results as quickly and efficiently as possible. Amazon Redshift allows AWS customers to build petabyte-scale data warehouses that unify data from a varie

    Amazon Redshift Spectrum – Exabyte-Scale In-Place Queries of S3 Data | Amazon Web Services
    InoHiro
    InoHiro 2017/04/20
    RedshiftからS3のデータにクエリできる機能GAとのこと
  • What's the equivalent for LISTAGG (Oracle database) in PostgreSQL?

    I have to replace the Oracle driver with the newest PostgreSQL. PostgreSQL doesn't know the function LISTAGG. I have to concat values by comma separated. What's the equivalent for the Oracle's function LISTAGG in PostgreSQL?

    What's the equivalent for LISTAGG (Oracle database) in PostgreSQL?
  • STV_RECENTS - Amazon Redshift

    現在アクティブなクエリや、最近データベースに対して実行されたクエリに関する情報を取得するには、STV_RECENTS テーブルを使用します。 STV_RECENTS はすべてのユーザーに表示されます。スーパーユーザーはすべての行を表示できますが、通常のユーザーは自分のデータのみを表示できます。詳細については、「システムテーブルとビューのデータの可視性」を参照してください。 このテーブルの一部またはすべての列は、SYS モニタリングビュー SYS_QUERY_HISTORY にも定義されています。 STV_RECENTS によるトラブルシューティング STV_RECENTS は、クエリまたはクエリのコレクションが現在実行中であるか完了しているかを判断する場合に特に役立ちます。また、クエリが実行されていた期間も示します。これは、どのクエリの実行時間が長いかを把握するのに役立ちます。 STV_R

  • Diagnostic queries for query tuning - Amazon Redshift

    Use the following queries to identify issues with queries or underlying tables that can affect query performance. We recommend using these queries with the query tuning processes discussed in Analyzing and improving queries. Identifying queries that are top candidates for tuning The following query identifies the top 50 most time-consuming statements that have been run in the last 7 days. You can

  • Improving query performance - Amazon Redshift

    Table statistics missing or out of date If table statistics are missing or out of date, you might see the following: A warning message in EXPLAIN command results. A missing statistics alert event in STL_ALERT_EVENT_LOG. For more information, see Reviewing query alerts. To fix this issue, run ANALYZE. Nested loop If a nested loop is present, you might see a nested loop alert event in STL_ALERT_EVEN

  • タスク 6: システムテーブルをクエリする - Amazon Redshift

    作成したテーブルに加え、データベースにはいくつかのシステムテーブルが含まれています。これらのシステムテーブルには、インストールに関する情報と、システムで実行されている各種のクエリや処理に関する情報が格納されます。これらのシステムテーブルに対してクエリを実行して、データベースに関する情報を収集することができます。 このドキュメントに記載されている、各テーブルについての説明では、テーブルが表示されるのはすべてのユーザーに対してか、スーパーユーザーのみに対してかを示しています。スーパーユーザーのみが表示可能なテーブルに対してクエリを実行するには、スーパーユーザーとしてログインします。 STL テーブル これらのシステムテーブルは、システムの履歴を提供するために Amazon Redshift ログファイルから生成されます。ログテーブルには STL プレフィックスが付けられています。 STV テー

    InoHiro
    InoHiro 2017/03/04
    あとで読む
  • STV_SESSIONS - Amazon Redshift

    Use the STV_SESSIONS table to view information about the active user sessions for Amazon Redshift. To view the session history, use the STL_SESSIONS table, rather than STV_SESSIONS. STV_SESSIONS is visible to all users. Superusers can see all rows; regular users can see only their own data. For more information, see Visibility of data in system tables and views. Some or all of the data in this tab

  • クエリプランと実行ワークフロー - Amazon Redshift

    リーダーノードはクエリを受け取り、SQL を解析します。 クエリツリーパーサーは、元のクエリの論理的な表現である初期クエリツリーを生成します。次に、Amazon Redshift は、このクエリツリーをクエリオプティマイザに入力します。 オプティマイザは、クエリを評価し、必要に応じて書き換えて効率を最大限に高めます。このプロセスにより、関連するクエリが複数作成されて、単一のクエリが置き換えられることがあります。 オプティマイザは、最高のパフォーマンスで実行されるように 1 つのクエリプラン (または、前のステップで複数のクエリが生成された場合は複数のクエリプラン) を生成します。クエリプランは、結合の種類、結合の順序、集計オプション、データ分散要件などの実行オプションを指定します。 クエリプランを表示するには、EXPLAINコマンドを使用できます。クエリプランは、複雑なクエリを分析およびチ