[B! redshift] tgkのブックマーク

Why Cookpad Is Choosing Redshift as Our Data Platform

Data Engineering Study #7「Redshift最新アップデートと活用事例」での発表資料です。 https://forkwell.connpass.com/event/203403/

tgk 2021/04/10

クックパッドはすでにRA3(ra3.16xlarge×4)に移行している。128slicesは変わらず

redshift

リンク

Amazon Redshift の進化の歴史とこれから/redshift-evolution-2021

2021.04.06 Data Engineering Study #7「Redshift最新アップデートと活用事例」講演資料「Amazon Redshift の進化の歴史とこれから」 https://forkwell.connpass.com/event/203403/ 更新: 2021.05.03 SUPER, Data Sharing GA に伴う変更 2021.05.28 Redshift ML GA に伴う変更

tgk 2021/04/08

RedshiftのSnowflake化

redshift

リンク

【AWS Summit Tokyo 2018】 Amazon Redshiftの設計・運用大原則レポート | NHN テコラス Tech Blog | AWS、機械学習、IoTなどの技術ブログ

AWS Summit Tokyo 2018 で5月31日に行われた「Amazon Redshiftの設計・運用大原則」セッションに参加してきました。セッション紹介と登壇者仲谷岳志アマゾンウェブサービスジャパン株式会社プロフェッショナルサービスシニア・インフラストラクチャー・アーキテクト Amazon Redshift は、高速で完全マネージド型のデータウェアハウス（DWH）です。Redshift により、DWH のローカルディスクに保存されたデータや、Amazon S3 上にある膨大な量の非構造化データに対して、簡単に分析クエリを実行することができます。本セッションでは、Redshift および S3 を活用してクラウド上にデータウェアハウスシステムを構築する上で、意識すべき設計と運用のポイントについてご説明します。引用元：AWS Summit Tokyo 2018 セ

tgk 2021/01/18

COPYの基本ルール＞「①COPYで複数ファイルを並列ロードする」「ファイルサイズはそれぞれ数百MB～1GBとする」

redshift

リンク

【AWS Redshift】導入前に知っておくべきこと - packpak’s diary

AWS Redshiftを導入する前に知っておくべき、AWS Redshift の特性、長所、他所を開発・運用してきた中で要所っぽいところをいくつかTips的にまとめた。字量が非常に多くて申し訳ないが、参考になれば。 RDBに比べて有用なケース/苦手なケース下記のケースに合致する。 SQL文をベースとした、複雑で演算コストの高いETL（分析用途用のデータ加工処理の通称）の実行 BIツールのような、3～5列程度の列を利用した参照クエリの実行。下記のケースは向かない。短時間で非常に多くのクエリを実行するアプリケーション（1秒に5～10クエリなど）のバックエンド短時間で非常に多くのCommitを実行するアプリケーション（Webフレームワークが勝手に）のバックエンド一度に多くの列を取得するクエリを発行するアプリケーション（CSV出力など）のバックエンド性能についてクエリの性能 1つ

tgk 2021/01/07

「取得する列数が増えるほど性能劣化。15列を超えたぐらいでもう目に見えるほど遅い」「クラスタ再起動直後、ANALYZEによる統計情報が全て無効になっていることがある」「VACUUM は同時に 1つしか流せない」

redshift

リンク

Amazon Redshift 高い同時実行性と一貫したパフォーマンスを提供する新機能『Concurrency Scaling』がリリースされました | DevelopersIO

目次はじめに最新クラスタにアップデート Concurrency Scalingとは Concurrency Scaling の仕組み Concurrency Scaling の利用条件 Concurrency Scaling の設定方法 Concurrency Scaling を設定したクラスタにクエリを実行 Concurrency Scaling の料金最後にはじめに本日、未明にAWS Blogにて昨年のre:Invent2018で発表のあった『Concurrency Scaling for Amazon Redshift』のリリースが発表されました。『Concurrency Scaling for Amazon Redshift』は、従来クラスタに加えてスケーリングするクラスタを組み合わせて、従来より遥かに高い同時実行性と一貫した高速なパフォーマンスを提供する新機能です。（r

tgk 2021/01/03

「スケーリングクラスタは、高速なS3上のスナップショットからデータを読み取るだけで済むようにコンピューティングとストレージが分離されており」

redshift

リンク

データ基盤チーム0人で運用は回るのか？！前人未踏チャレンジ・クックパッドデータ基盤のすべて2020 - クックパッド開発者ブログ

技術部データ基盤グループの青木です。ここ1、2年はなぜか成り行きでBFFをでっちあげたり、成り行きでiOSアプリリニューアルのPMをしたりしていたのであまりデータ基盤の仕事をしていなかったのですが、今年は久しぶりに本業に戻れたのでその話をします。突然の1人チーム、そして0人へ…… 今年のデータ基盤チームは消滅の危機から始まりました。間違いなく去年末は5人のチームだったと思うのですが、メンバーがイギリスへグローバルのデータ基盤チームを作りに行ったり、山へ検索システムを直しに行ったり、川へレシピ事業の分析業務をやりに行ったり、海へ広告のエンジニアリングをしに行ったりするのをホイホイと気前よく全部聞いていたら、なんと4月から1人だけのチームになってしまいました。事はそれで終わりません。恐ろしいことに10月にはわたし自身も育休に入ることになったので、 10月はデータ基盤が0

tgk 2021/01/03

クックパッドのRedshiftの構成＞「ds2.8xlarge×8, 128 slice」「2016年から同じサイズのクラスターを使い続けています」「これまでは常時カツカツで、 80%を越えるたびに過去のデータを消しては凌いでいた」

redshift

リンク

Scale your Amazon Redshift clusters up and down in minutes to get the performance you need, when you need it | Amazon Web Services

tgk 2020/12/17

Elastic resizeが速い理由がよくわからない。全データの再配置にはそれなりの時間がかかるがバックグラウンドでやってるから大丈夫ということ? 再配置が終わるまで最大パフォーマンスは出ない?

redshift

リンク

Integrating Teradata with Amazon Redshift Using the AWS Schema Conversion Tool | Amazon Web Services

AWS Database Blog Integrating Teradata with Amazon Redshift Using the AWS Schema Conversion Tool David Gardner is a solutions architect and Pratim Das is a specialist solutions architect for Analytics at Amazon Web Services. Teradata provides long-standing data warehouse solutions, with many customers and applications running on its platforms. As companies migrate to the cloud, they are using Amaz

tgk 2020/12/08

SCT(Schema Conversion Tool)でTeradataのスキーマをRedshiftに移行する方法。Redshiftのdistkeyは1列しか指定できないから、Teradataの複数列PIの「先頭1列」をdistkeyにするとのこと

redshift

リンク

列指向データベースのページのデータ構造 - ablog

行指向データベースは行単位でページ(Oracle Database でいうデータブロック)にデータを格納しているのに対して、列指向データベースは列ごとにページに格納している。クエリ実行時に結果セットを返す際に列別にバラバラのページに格納されているデータをどうやってタプル(レコード)に復元している*1のかと思ったがやはり行IDのようなものを持っているようだ。行ID は C-Store では pid、Monet DB では BAT(Binary Association Tables) の oid と呼ばれている。 The Design and Implementation of Modern Column-Oriented Database Systems NSM(N-ary Storage Model): 行方向でブロック（ページ）にデータを格納する方式 DSM(Decomposition

tgk 2020/11/10

rowidで同一行上の各列を紐付けしているcolumn store databaseで100列のテーブルを作ったら、select * from ～は内部で100テーブルのMerge Joinをすることになる。パフォーマンスを担保するのはモダンCPUの何かすごい機能

redshift

リンク

データウェアハウスとして使う Amazon Redshift について | MEDLEY Developer Portal

2019-07-01データウェアハウスとして使う Amazon Redshift についてはじめにこんにちは。開発本部の阪本です。今回は私が社内勉強会(TechLunch)にて Amazon Redshift(以下 Redshift)についてお話した内容を紹介させていただきます。 Redshift とは概要Redshiftとは AWS サービスが提供しているデータウェアハウスで、高可用/高パフォーマンス/柔軟なスケーラビリティを実現しているのが特徴です。競合としてはBigQueryやHadoop、また同じ AWS サービスではAmazon Athenaも同様の位置付けになると思います。データベースとしての特徴Redshift の特徴として、列志向型データベースという点があります。 MySQL のようなリレーショナルデータベースはデータを行（レコード）単位で保持している事に対し、Red

tgk 2020/10/18

「新機能が続々追加されていると紹介していますが、この度にメンテナンスが発生」「経験から2週間に1度ぐらいの頻度で発生していました」

redshift

リンク

テーブル制約の定義 - Amazon Redshift

一意性、プライマリキー、および外部キーの制約は情報提供のみを目的としており、テーブルに値を入れるときに Amazon Redshift によって強要されるわけではありません。例えば、依存関係のあるテーブルにデータを挿入する場合、制約に違反していても挿入は成功します。ただし、プライマリキーと外部キーはプランニング時のヒントとして使用されます。アプリケーションの ETL プロセスまたは他の何らかのプロセスによってこれらのキーの整合性が強要される場合は、これらのキーを宣言する必要があります。例えば、クエリプランナーは、特定の統計計算でプライマリキーと外部キーを使用します。これは、サブクエリの非相関化手法に影響を与える一意性と参照関係を推測するために行われます。これにより、多数の結合を配列し、冗長な結合を排除できます。プランナはこれらのキーの関係を活用しますが、Amazon Redshift

tgk 2020/10/18

「一意性、プライマリキー、および外部キーの制約はRedshiftによって強要されることはありません。ただしプライマリキーと外部キーはプランニング時のヒントとして使用されます」大胆な発想

redshift

リンク

Migrating IBM Netezza to Amazon Redshift using the AWS Schema Conversion Tool | Amazon Web Services

AWS Big Data Blog Migrating IBM Netezza to Amazon Redshift using the AWS Schema Conversion Tool The post How to migrate a large data warehouse from IBM Netezza to Amazon Redshift with no downtime described a high-level strategy to move from an on-premises Netezza data warehouse to Amazon Redshift. In this post, we explain how a large European Enterprise customer implemented a Netezza migration str

tgk 2020/10/09

redshift

リンク

Home

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

tgk 2020/10/08

BricolageはMITライセンス

redshift

リンク

ダイソー快進撃を支える｢毎晩105億件データ処理｣する需要予測システムはどう生まれたか

小売業の特徴は、いわゆる｢ニッパチの法則｣（売り上げを支える売れ筋商品は全体の2割という法則）。いかにして売れ筋商品の在庫を把握し、将来の需要を予測して、欠品なく並べ続けるかは生命線だ。一方、ダイソーの特徴は、取り扱う商品点数が非常に多いことだ。大創産業情報システム部課長の丸本健二郎氏によると、ダイソーは全世界27カ国で5270店に展開し、新商品は毎月約800。｢均一価格｣は日本と同じだが、価格レンジは各国地域の物価に合わせている。こういう状況では、｢人間の能力では在庫を把握するのは難しい｣という前提に立って、丸本氏が取り組んだのが、POSデータの統計的解析から個店ごとの需要予測をして欠品をなくす｢自動発注システム｣（2015年導入）だった。着想後、いくつかの店舗で試験的に導入したところ、着実に欠品率が下がり、｢チャンスロス｣が解消された。

tgk 2019/06/17

「在庫管理と需要予測を担う｢POSデータ保持システム｣｢POSデータ分析システム｣それぞれで、90％減と83%減という驚異的なコストダウンになった」

redshift

リンク

スキューのない世界を目指して - クックパッド開発者ブログ

こんにちは。インフラストラクチャー部データ基盤グループの小玉です。先日Amazon Redshift（以下、Redshift）で32TBのテーブルを全行スキャンするクエリを3本同時に走らせたまま帰宅し、クラスターを落としてしまいました。普段はRedshiftのクエリをチューニングしたり、データ基盤周りの仕組みを慣れないRubyで書いたりしています。突然ですが、スキュー(skew)という単語をご存じでしょうか。「skew 意味」で検索すると「斜め」とか「傾斜」といった訳が出てきますが、コンピューティング界隈では「偏り」という訳語が定着していると思います。さらに、分散並列DB界隈で単にスキューもしくは偏りと言った場合、それはしばしばデータの偏りを指します。データが偏っているとはデータが偏っているとは、複数ノードで構成される分散並列DBにおいて、各ノードが保持するデータ量（行数）に

tgk 2017/07/25

redshift

リンク

404 | Developers.IO

Sorry..., Page Not Found. お探しのページは見つかりませんでした。でも、Developers.IOでは日々たくさんの技術記事やイベント情報が公開されています。いま気になる技術を探しに行きましょう！ Developers.IOへ

tgk 2017/04/25

「Redshift SpectrumがS3へアクセスする際に、裏側でAthenaを使っている」

aws
redshift

リンク

Amazon Redshiftとデータ連携を行う各種サービスについて整理してみた | DevelopersIO

AWSでビッグデータ分析環境を整える際、まずはAmazon Redshiftにデータを集約するところを一つの目標にするところから始める事になるかと思いますが、現在ではAWSサービス間の連携も増え、またRedshiftの機能追加・改善も相俟って実に様々な方法が存在しています。そこで当エントリでは、現時点で様々用意されている『Amazon Redshiftへのデータ投入・連携方法』そして『Amazon Redshiftから連携可能なサービス』の情報について一度整理を行ってみたいと思います。目次 to Amazon Redshift(Amazon Redshiftへのデータ連携) AWS IoT Amazon CloudFront AWS CodeCommit Amazon Cognito AWS Data Pipeline Amazon Database Migration Service

tgk 2016/07/04

redshift

リンク

ドリコムを支えるデータ分析基盤がTD+AWSに移行した話 - かにぱんのなく頃に

はじめにこれはドリコムAdventCalendar の7日目です 6日目は、keiichironaganoさんによる iTunes 使用許諾更新のとき一旦キャンセルしてほしい話です【その2】ドリコム Advent Calendar 2015 もあります自己紹介 @ka_nipan 去年のドリコムを支えるデータ分析基盤に引き続き、今年もドリコムのデータ分析基盤を担当しています。分析基盤をTreasure Dataに移行オンプレ環境の Hadoop からTreasure Data に移行しました。また、ジョブ管理ツールやBIツールといったサーバーもAmazon EC2 に移行しており、徐々にオンプレ環境を離れつつあります。背景オンプレ環境で Hadoop を運用して3年も経つと考えなければならないのが HW の寿命です。さてどうしようかとなった時に、ほぼ迷いなく外部

tgk 2015/12/07

Tresuredata/BigQueryとの比較

redshift

リンク

巨大なバッチを分割して構成する〜SQLバッチフレームワークBricolage〜 - クックパッド開発者ブログ

トレンド調査ラボの青木峰郎（id:mineroaoki）です。好きなRubyのメソッドは10年前からString#slice(re, nth)ですが、最近はRubyよりCoffeeScriptとSQLのほうが書く量が多くて悩んでいます。今日はわたしが開発している「たべみる」の背後で働いている巨大バッチの構成について話したいと思います。たべみるのバッチは約3000行のSQLで構成されており、処理時間が1日で4時間程度かかる、そこそこの規模のプログラムです。このバッチ処理プログラムをBricolage（ブリコラージュ）というフレームワークで構造化する手法について説明します。「たべみる」とはまず最初に、「たべみる」がどういうものなのかごく簡単にお話ししておきましょう。「たべみる」は企業のみに提供しているB2Bの分析サービスで、クックパッドのレシピ検索の分析をすることができま