[B! performance-engineering][amazon-redshift] nabinnoのブックマーク

nabinno id:nabinno

performance-engineeringとamazon-redshiftに関するnabinnoのブックマーク (18)

自動 WLM の実装 - Amazon Redshift
自動ワークロード管理 (WLM) では、Amazon Redshift がクエリの同時実行数とメモリの割り当てを管理します。サービスクラスの識別子 100〜107 を使用して、最大 8 つのキューを作成できます。各キューには優先度があります。詳細については、「クエリ優先度」を参照してください。自動 WLM は、クエリに必要なリソース量を決定し、ワークロードに基づいて同時実行数を調整します。大量のリソースを必要とするクエリがシステムにある場合 (大きなテーブル間のハッシュ結合など)、同時実行数は減ります。軽いクエリ (挿入、削除、スキャン、単純な集計など) を送信すると、同時実行数は増えます。自動 WLM は、ショートクエリアクセラレーション (SQA) とは別のものであり、クエリの評価方法が異なります。自動 WLM と SQA は連携して動作し、長時間実行されるリソース集約型のクエリが
nabinno 2024/05/15
amazon-redshift

amazon-redshift-wlm

performance-engineering
リンク
ワークロード管理 - Amazon Redshift
Amazon Redshift のワークロード管理 (WLM) により、ユーザーはワークロード内の優先順位を柔軟に管理することが可能になります。これにより、実行速度が高く処理時間の短いクエリが、処理時間の長いクエリの後に滞らないようにできます。 Amazon Redshift の WLM は、サービスクラスに従って実行時にクエリキューを作成します。サービスクラスでは、内部システムキューやユーザーからアクセスが可能なキューなどの、さまざまな種類のキューに対する設定パラメータが定義されています。ユーザーから見た場合、ユーザーアクセス可能サービスクラスとキューは機能的に同じものです。一貫性を保つため、このドキュメントでは、ユーザーアクセス可能サービスクラスとランタイムキューは、キューという用語を使用して表します。ユーザーがクエリを実行すると、WLM は、ユーザーのユーザーグループに従ってクエリ
nabinno 2024/05/15
amazon-redshift

amazon-redshift-wlm

performance-engineering
リンク
パフォーマンスに影響！Redshiftのテーブル設計時に最低限意識すべきポイント3選
Introduction AWSが提供するDWHサービス、Amazon Redshift。全世界での採用企業は数万社を超えており、弊社も国内において多くのお客様に導入のご支援をさせて頂きました。 RedshiftはAWSエコシステムとの親和性が高く、AWSを既にご利用のお客様は導入の敷居が低いDWHサービスとなっております。しかし、適切なテーブル設計を行わなければパフォーマンスを全く発揮できません。不適切なテーブル設計をしてしまったが故、「バッチ処理が当初想定していた時間で終わらない」等、弊社にご相談頂いたお客様も数多くいらっしゃいます。では、Redshiftを扱うにあたってどのようなテーブル設計を行えば良いのか。本記事では、パフォーマンスの向上に繋がるテーブル設計のポイントを3つ、ご紹介致します。 1. ソートキー（SortKey）ソートキー（SortKey）は、テーブルのデ
nabinno 2024/04/28
insight-lab

amazon-redshift

diststyle

sort

performance-engineering
リンク
Amazon Redshift 分散キーの変更について試してみた | DevelopersIO
分散キー変更の際にVACUUMを実行する必要が不要になったというリリースを目にしました。正直、ALTERにて分散キーの変更が可能になったことに気づいていませんでしたので、この機会に分散キーの変更について試してみました。マニュアルに記載にない動作も確認できましたのでご紹介したいと思います。試したクラスタバージョンは、1.0.11116です。 Cluster Version History - Version 1.0.10013, 1.0.10221, 1.0.10393, 1.0.10480, or 1.0.10648 の抜粋です。 The ALTER TABLE ALTER DISTKEY command for tables with a sort key now performs an inline sort. Therefore, running VACUUM afterwards
nabinno 2024/04/28
classmethod

amazon-redshift

diststyle

sort

performance-engineering

svv_table_info
リンク
同時実行スケーリングを使用する - Amazon Redshift
同時実行スケーリング機能を使用すると、一貫した高速のクエリパフォーマンスで、数千の同時ユーザーと同時クエリをサポートできます。同時実行スケーリングが有効になっている場合、Amazon Redshift は自動的に新たなクラスターキャパシティーを追加し、読み取りと書き込み両方でクエリの増加に対応します。クエリをメインクラスターと同時実行スケーリングクラスターのどちらで実行しても、ユーザーには最新のデータが表示されます。同時実行スケーリングクラスターは、実際に実行した時間分のみ課金されます。料金の詳細については、Amazon Redshift 料金表を参照してください。 WLM キューを設定することで、どのクエリを同時実行スケーリングクラスターに送信するかを管理します。同時実行スケーリングを有効にすると、対象となるクエリはキュー内に待機することなく、同時実行スケーリングクラスターに送信される
nabinno 2024/04/19
amazon-redshift

amazon-redshift-wlm

autoscaling

performance-engineering

til
リンク
ワークロード管理の実装 - Amazon Redshift
ワークロード管理 (WLM) を使用して複数のクエリキューを定義し、実行時にクエリを適切なキューに配信することができます。複数のセッションやユーザーが同時にクエリを実行している場合があります。このような場合、一部のクエリがクラスターリソースを長時間消費して、他のクエリのパフォーマンスに影響を与えることがあります。例えば、あるユーザーグループが、複数の大規模なテーブルの行を選択して並べ替える、実行時間の長い複雑なクエリをときどき送信するとします。別のグループは、1 つまたは 2 つのテーブルから数行のみを選択し、数秒実行される短いクエリを頻繁に送信します。この状況では、実行時間が短いクエリは、実行時間が長いクエリが完了するまでキューで待機しなければならない場合があります。WLM は、このソリューションの管理に役立ちます。 Amazon Redshift WLM は、自動 WLM または手動
nabinno 2024/04/19
amazon-redshift

amazon-redshift-wlm

performance-engineering
リンク
Redshift の自動パフォーマンスチューニング機能まとめ - Qiita
はじめに Amazon Redshift には機械学習ベースで自動的にパフォーマンスを最適化する機能が複数あります。数が増えて追いきれなくなってきたので以下にまとめます。 Automatic Vacuum Delete デフォルトで有効 2018/12/19 に追加 UPDATE や DELETE オペレーションにより論理削除された行数にもとづいてバックグラウンドで自動的に VACCUM DELETE を実行します。これにより断片化で消費されていたスペースが解放され、ワークロードのパフォーマンスが向上します。低負荷のときに実行するようにスケジュールされ、負荷が高い間は操作を停止します。 Automatic Analyze デフォルト有効 2019/1/18 に追加バックグラウンドで自動的に ANALYZE を実行し、テーブルの統計情報を更新します。これにより最適なクエリの実行計画の作成
nabinno 2023/06/01
qiita

amazon-redshift

performance-engineering

vacuum

analyze
リンク
分散スタイル - Amazon Redshift
テーブルを作成する場合は、以下の AUTO、EVEN、KEY、または ALL という分散スタイルのいずれかを指定します。分散スタイルを指定しない場合、Amazon Redshift は AUTO 分散を使用します。 AUTO 分散 AUTO 分散では、Amazon Redshift はテーブルデータのサイズに基づいて最適な分散スタイルを割り当てます。例えば、AUTO 分散スタイルが指定された場合、Amazon Redshift ではまず、ALL 分散スタイルを小さなテーブルに割り当てます。テーブルが大きくなると、Amazon Redshift は分散スタイルを KEY に変更し、プライマリキー (または複合プライマリキーの列) を分散キーとして選択する場合があります。テーブルが大きくなり、分散キーに適した列がない場合、Amazon Redshift は分散スタイルを EVEN に変更しま
nabinno 2022/09/27
amazon-redshift

diststyle

sort

performance-engineering
リンク
Redshift テーブル設計のベストプラクティス | ikuty.com
どのようにテーブル設計するとパフォーマンスを得られるか. 公式がベストプラクティスを用意している. Redshiftのベストプラクティスが先にあってER図が後なのか、 ER図に対してベストプラクティスを適用するのか、実際は行ったり来たりするようなイメージ. ER図とは別に何を考慮すべきなのか読み進めていく. ソートキーテーブル作成時に1つ以上の列をソートキーとして設定できる. 設定するとソートキーに準じたソート順でディスクに格納される. ソートキーに関するベストプラクティスは以下の通り. 最新のデータを得たい場合はタイムスタンプ列をソートキーにする. 1つの列に対してwhere句による範囲指定or等価指定をおこなう場合はその列をソートキーにする. ディメンションテーブルを頻繁に結合する場合は結合キーをソートキーにする. ファクトテーブルを中心にディメンションテーブルが4つある構造がある
nabinno 2022/09/27
amazon-redshift

performance-engineering
リンク
PowerPoint Presentation
© 2021, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 1 © 2021, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AWS 公式 Webinar https://amzn.to/JPWebinar 過去資料 https://amzn.to/JPArchive Solutions Architect 平間大輔 2021/1/27 Amazon Redshift 運用管理サービスカットシリーズ [AWS Black Belt Online Seminar] © 2021, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 2 A
nabinno 2022/06/08
amazon-redshift

daisuke-hirama

performance-engineering
リンク
ショートクエリアクセラレーションを使用する - Amazon Redshift
ショートクエリアクセラレーション (SQA) は、実行時間が短い一部のクエリを、実行時間が長いクエリよりも優先します。SQA では実行時間が短いクエリを専用領域で実行します。このため SQA クエリは、実行時間が長いクエリをキューで待機するよう強制されません。SQA は、実行時間が短く、ユーザー定義のキュー内にあるクエリのみを優先します。SQA によって実行時間が短いクエリの実行開始が早くなり、ユーザーへの結果表示も早くなります。 SQA を有効にすると、短いクエリの実行に割り当てられるワークロード管理 (WLM) キューを減らすことができます。さらに、キュー内のスロットに対する実行時間が長いクエリとショートクエリの競合が不要になるため、WLM キューが使用するクエリスロットの数を少なく設定できます。同時実行数が減るとクエリのスループットが向上し、大部分のワークロードに関するシステム全体の
nabinno 2018/03/20
amazon-redshift

amazon-redshift-wlm

performance-engineering
リンク
Amazon Redshift Spectrum クエリパフォーマンスの向上 - Amazon Redshift
クエリプランを参照し、Amazon Redshift Spectrum レイヤーにプッシュされているステップを確認します。次のステップは、Redshift Spectrum クエリに関連しています。 S3 Seq Scan S3 HashAggregate S3 Query Scan Seq Scan PartitionInfo Partition Loop 次の例では、外部テーブルとローカルテーブルを結合するクエリのクエリプランを示します。Amazon S3 内のデータに対して実行された S3 Seq Scan および S3 HashAggregate の各ステップをメモします。 explain select top 10 spectrum.sales.eventid, sum(spectrum.sales.pricepaid) from spectrum.sales, event w
nabinno 2017/08/24
amazon-redshift

platform-as-a-service

data-warehouse

data-structure
リンク
Amazon Redshift ベンチマーク Hadoop + Hiveと比較
Hapyrus では、 Hadoop + Hive と Amazon Redshift のソリューション、また Amazon Redshift の導入コンサルティングを提供します。ぜひお問い合わせ下さい。info@hapyrus.com http://hapyrus.com/
nabinno 2017/05/21
slideshare

flydata

amazon-redshift

apache-hadoop

benchmark

performance-engineering
リンク
Big Data Benchmark
Click Here for the previous version of the benchmark Introduction Several analytic frameworks have been announced in the last year. Among them are inexpensive data-warehousing solutions based on traditional Massively Parallel Processor (MPP) architectures (Redshift), systems which impose MPP-like execution engines on top of Hadoop (Impala, HAWQ), and systems which optimize MapReduce to improve per
nabinno 2017/05/21
amazon-redshift

apache-impala

apache-hive

benchmark

performance-engineering
リンク
Talend Blog: The latest on Talend products and company news
Explore what’s new in the Stitch Winter ’23 release, including a connector to GA4 and beta connectors for TikTok and Snapchat ads. There’s also innovation around Snowflake, plus access management and pipeline monitoring enhancements.
nabinno 2017/05/21
chris-merrick

amazon-redshift

data-format

benchmark

performance-engineering

csv

json

avro
リンク
カタログクエリの例 - Amazon Redshift
次のクエリは、カタログテーブルのクエリを実行して Amazon Redshift データベースに関する有益な情報を取得できるいくつかの方法を示しています。テーブル ID、データベース名、スキーマ名、テーブル名の参照次のビュー定義は、STV_TBL_PERM システムテーブルを PG_CLASS、PG_NAMESPACE、および PG_DATABASE システムカタログテーブルと統合し、テーブル ID、データベース名、スキーマ名、テーブル名を返します。 create view tables_vw as select distinct(id) table_id ,trim(datname) db_name ,trim(nspname) schema_name ,trim(relname) table_name from stv_tbl_perm join pg_class on pg_cl
nabinno 2017/03/01
amazon-redshift

platform-as-a-service

data-warehouse

data-structure
リンク
AWS Solutions Architect ブログ
AWS Bigdata BlogよりIan Meyers著"Top 10 Performance Tuning Techniques for Amazon Redshift"を翻訳しました。原文）https://aws.amazon.com/jp/blogs/big-data/top-10-performance-tuning-techniques-for-amazon-redshift/ 翻訳）岩永亮介、下佐粉昭 ※2017/02/20更新：原文ポストURL変更に伴い、翻訳側のリンク先を更新著者Ian MeyersはAmazon Web Servicesのプリンシパルソリューションアーキテクト Zach ChristophersonはAmazon Redshiftデータベースエンジニアで、このポストに協力しました Amazon Redshiftはフルマネージドな、ペタバイト規模でも使
nabinno 2015/12/16
amazon-redshift

data-warehouse

performance-engineering
リンク
VACUUM - Amazon Redshift
実質的に、テーブルの所有者またはスーパーユーザーのみがテーブルにバキューム処理を実行できます。必要なテーブル権限なしで VACUUM が実行された場合、操作は完了しますが、効果はありません。 Amazon Redshift は、背景で自動的にデータをソートし、VACUUM DELETE を実行します。これにより、VACUUM コマンドを実行する必要が少なくなります。詳細については、「テーブルのバキューム処理」を参照してください。デフォルトではVACUUM コマンドで、テーブルの行の 95 パーセント以上がすでにソートされているテーブルのソートフェーズをスキップします。ソートフェーズをスキップすることにより、VACUUM のパフォーマンスが大幅に向上します。1 つのテーブルのデフォルトのソートあるいは削除しきい値を変更するには、VACUUM を実行するときに、テーブル名および TO thr
nabinno 2015/08/05
amazon-redshift

data-warehouse
リンク
1