タグ

redshiftに関するatsuizoのブックマーク (14)

  • データ基盤チーム0人で運用は回るのか?! 前人未踏チャレンジ・クックパッドデータ基盤のすべて2020 - クックパッド開発者ブログ

    技術部データ基盤グループの青木です。 ここ1、2年はなぜか成り行きでBFFをでっちあげたり、 成り行きでiOSアプリリニューアルのPMをしたりしていたので あまりデータ基盤の仕事をしていなかったのですが、 今年は久しぶりに業に戻れたのでその話をします。 突然の1人チーム、そして0人へ…… 今年のデータ基盤チームは消滅の危機から始まりました。 間違いなく去年末は5人のチームだったと思うのですが、 メンバーがイギリスへグローバルのデータ基盤チームを作りに行ったり、 山へ検索システムを直しに行ったり、川へレシピ事業の分析業務をやりに行ったり、 海へ広告のエンジニアリングをしに行ったりするのをホイホイと気前よく全部聞いていたら、 なんと4月から1人だけのチームになってしまいました。 事はそれで終わりません。 恐ろしいことに10月にはわたし自身も育休に入ることになったので、 10月はデータ基盤が0

    データ基盤チーム0人で運用は回るのか?! 前人未踏チャレンジ・クックパッドデータ基盤のすべて2020 - クックパッド開発者ブログ
  • Redshiftを数百人で使うためのコツ(クラスター構成編) — HACK The Nikkei

    日経ではアクセスログ、所謂クリックストリームデータを用途に合わせた複数のデータベースに格納し、サービス開発やマーケティングに携わる社員が自身でデータ分析ができるよう、セルフサービス化を進めています。 セルフサービス化を進めている背景として、データの集計や分析のニーズは日々増え続ける一方で、アナリストやデータサイエンティストのリソースはオンデマンドに増やせないため、いかにしてデータのアウトプットをスケールさせるかという課題があります。この課題に対するソリューションとして、データ専門チームの設立やオフショアのような人のリソースを拡張する施策に加え、ツールの整備と教育によるセルフサービス化に力を入れています。 データの集計や分析のセルフサービス化において、特に大きな課題がクエリーの負荷です。現在、およそ 200 人が BI ツールにログインして Redshift でクエリーを実行できる権限を保有

    Redshiftを数百人で使うためのコツ(クラスター構成編) — HACK The Nikkei
  • Amazon Redshiftの仕様を調べてみた | フューチャー技術ブログ

    クラウド環境におけるDWHの選択肢として、Redshiftはもはや珍しいものではなくなりましたが、弊社内の採用実績はそれほど多くはありませんでした。 記事は元々そのような社内向けに、Redshiftの基的な仕様をなるべく網羅的に理解できるようまとめたものです。 筆者について新卒でフューチャーに入社し、今年で8年目になります。 入社後は一貫して技術畑、オンプレミスのインフラに始まり、直近ではアプリケーションまで含めたプロジェクト技術統括を担当しています。 私もかつては社内有数のAWSエンジニアを自負していましたが、最近は別の仕事のため少し遠ざかっており、クラウドの世界は日進月歩なこともあり知識をアップデートする必要を感じています。 ※この記事の準備中にもElastic Resizeがリリースされました。 記事は私のリハビリも兼ね、ドキュメントのまとめだけでなく、実際に手を動かして振る

    Amazon Redshiftの仕様を調べてみた | フューチャー技術ブログ
  • Amazon Redshiftのシステムテーブルを見る時によく使うSQL 9選 | DevelopersIO

    はじめに Redshiftには多くのシステムビューがあり、それらを使ってRedshiftの状態を確認することができます。同じSQLをよく実行することがあるので、自分用のメモとして書き溜めていたものをブログにまとめたいと思います。 ログ記録のための STL テーブル - Amazon Redshift システムビューの一覧 - Amazon Redshift システムカタログテーブル - Amazon Redshift SQL一覧 統計情報の鮮度とソートされていない行の割合を確認したい どの程度テーブルに削除マーク付きのレコードが含まれているかを確認したい VACUUMコマンドの進捗を確認したい SQLの開始時間と終了時間を確認したい SQLの開始時間と終了時間を確認したい。(全部入り) 実行中のクエリの進捗を確認したい どの程度ストレージサイズを使っているかを確認したい 分散キー、ソートキ

    Amazon Redshiftのシステムテーブルを見る時によく使うSQL 9選 | DevelopersIO
  • データ活用基盤の今 〜DWH外観図〜 - クックパッド開発者ブログ

    こんにちは、今年の1月に会員事業部から技術部データ基盤グループへ異動した佐藤です。先日、京まふ2019前夜祭イベントに参加するために人生で初めてピカピカ光る棒を買いました。 新卒で入社してから2年ほど分析作業をしていた身から、データ活用基盤を作る側へ立場を変えました。今回は新たに身を移したデータ活用基盤の外観を説明したいと思います。 2017年にも同内容の記事が投稿されていますので、当時との違いを中心に説明していきます。 外観図 以下が2019年10月現在におけるクックパッドのデータ活用基盤の全体像です。 クックパッドのDWH外観図 masterデータのインポートがMySQL以外にも複数種対応し始めたことと、PrismとSpectrum(S3+Glue)周りと、Tableau Serverが大きな変更点となっています。2017年の図にDmemoはありませんでしたが、記事文にある通り当時か

    データ活用基盤の今 〜DWH外観図〜 - クックパッド開発者ブログ
  • Amazon Redshift: COPY時のエラー情報を見易い形で取得するSQL文 | DevelopersIO

    超々小ネタです。 Amazon RedshiftでCOPY操作を行う際、新しく取り込むようなファイルだとエラーとなるようなデータの形式であったり、テーブルデータ型との齟齬が頻繁に発生する事も往々にしてありますので都度エラーが発生した際に対象となるシステム系テーブルを参照する必要が出て来ます。その際、これまではあまり意識しては居なかったんですが『そう言えば都度、エラー情報を得る時に手動でSQLを書いてたな』とふと思い、また可変長文字列が多いテーブルでもありますのでそのままの情報を得ようとすると若干見辛いというのもあるのでその手間を省くべく確認用のSQLをネタとして用意しとこうと思いました。 stl_loar_errorsテーブル参照用SQL 以下はエラー発生時に参照すべきテーブル、『stl_loar_errors』テーブルを分割して表示させるSQL群です。対象となるテーブルのテーブル名が無か

    Amazon Redshift: COPY時のエラー情報を見易い形で取得するSQL文 | DevelopersIO
  • RedshiftとAurora(PostgreSQL)でdblinkを貼る方法 - goodbyegangsterのブログ

    Redshiftには、マテリアライズド・ビューを作成する方法は用意されていません。Redshiftはデータウェアハウス向けに設計されたデータベースであるが故、以下の様な理由により、その機能を用意していないのだと考えています。 データウェアハウスは、恒常的にデータ挿入/更新は発生せず、主に夜間処理にて1日1回更新される マテリアライズド・ビューのような、実データが射影されたVIEWを利用したいのであれば、夜間処理の更新時に Create Table ... As Select ... のように、もう1つテーブルを作ってしまえば補える 一方でRedshiftには、同時実行クエリ数の上限は、15個推奨という問題もあります。WEB上のダッシュボードサイトにKPIを表示させ、大多数のユーザに参照してもらう、といった利用を想定した場合に、あっさり上限数を超過してしまうという問題があります。 そういった

    RedshiftとAurora(PostgreSQL)でdblinkを貼る方法 - goodbyegangsterのブログ
  • ZOZOTOWNのDWHをRedshiftからBigQueryにお引越しした話 / Moving ZOZOTOWN DWH from Redshift to BigQuery

    ZOZOTOWNのDWHをRedshiftからBigQueryにお引越しした話 / Moving ZOZOTOWN DWH from Redshift to BigQuery

    ZOZOTOWNのDWHをRedshiftからBigQueryにお引越しした話 / Moving ZOZOTOWN DWH from Redshift to BigQuery
    atsuizo
    atsuizo 2019/02/18
    BigQuery移行の話を多く見かけるようになったけど、これについてはAWSの中でもまだまだやれることあった感が強い。ともあれ貴重なレポなので参考にさせてもらいます。
  • 【AWS】RedshiftにデータをロードするCOPYコマンドについて - TASK NOTES

    Amazon Redshift の COPY コマンドについてまとめました。まだ全てを試したことはないので、今後気づいた事は随時更新していきます。 COPYコマンド Redshift では COPY コマンドを使用して Amazon S3、Amazon EMR クラスター、Amazon DynamoDB、またはリモートホストから SSH 接続を使用して、テーブルにデータをロードすることができます。基的なコマンドの構文は以下の通りです。ここからロードするデータに合わせてオプションのパラメータを付加します。 COPY table_name FROM 's3://copy_from_s3_objectpath' | 'emr://emr_cluster_id/hdfs_filepath' | 'dynamodb://table_name' CREDENTIALS 'aws_access_key

    【AWS】RedshiftにデータをロードするCOPYコマンドについて - TASK NOTES
  • AWS Glueからspark redshiftを利用してRedshiftを直接利用する - Qiita

    AWS GlueのJobでクロールしたRedshiftのテーブルをDynamic Frame経由で利用しようとすると以下の2つの問題点があります。 複数のテーブルをJoinして利用することができない SELECT * で条件指定などせず、全レコードをtemporary領域にUnloadしてしまう そこで、databricksが提供しているRedshift Data Source for Apache Sparkを利用してRedshiftを利用します。 前提 spark-redshift v2.0.1のjarを利用 AWS Glue Jobは2018/5時点に作成、言語としてはScalaを利用。 python(pySpark)だと 必要なライブラリや、py4jのリフレクションで詰まって動作するところまで持っていけてない。 Database(Redshift)への設定は事前に確認しておく Gl

    AWS Glueからspark redshiftを利用してRedshiftを直接利用する - Qiita
  • AWS Glue の基本的な使い方

    概要 AWS Glue を利用すると Apache Spark をサーバーレスに実行できます。基的な使い方を把握する目的で、S3 と RDS からデータを Redshift に ETL (Extract, Transform, and Load) してみます。2017/12/22 に東京リージョンでも利用できるようになりました。また、ページでは Python を利用しますが、新たに Scala サポートされています。 AWS Glue ETL 概略図 AWS Glue を ETL サービスとして利用する場合のシステム概略図は以下のようになります。 Data Source から Data Target に対して ETL します。ページでは Data Source は S3 と RDS であり、Data Target は Redshift となります。 ETL は Job として実行され

    AWS Glue の基本的な使い方
  • Amazon RedshiftとAmazon QuickSightで実現する、長く使えるDWH作り

    2017年9月6日 db tech showcase 2017での発表資料「Amazon RedshiftとAmazon QuickSightで実現する、長く使えるDWH作り」です。 http://www.db-tech-showcase.com/dbts/tokyo

    Amazon RedshiftとAmazon QuickSightで実現する、長く使えるDWH作り
  • AWS最新提案!!Redshiftを使ったリアルタイム型DWHシステム!! | クラウド工房 Powered by Amazon Web Services

    みなさん。こんにちは。STSの山口です。弊社が「Redshiftはじめました。」と宣伝を始めて以降、最近、数々のRedshift関連のお問い合わせを頂いており、非常にうれしい限りでございます。 さてさて、このような状況におきまして、今回、皆様にご紹介したいのは、この「Redshift」を使った、新しいDWHシステムのご提案、「リアルタイム型DWHシステム」でございます。実際にお客様へご説明させて頂いている資料を織り交ぜながら、皆様に「リアルタイム型DWHシステム」をご紹介したいと思います。また、最後にはこの「リアルタイム型DWHシステム」のデモ機に関してもご紹介します。 言わずと知れた、AWSの「DWHの価格破壊サービス」Redshiftのご紹介です。先述しましたとおり、我々が提案する「リアルタイム型DWHシステム」では非常に重要な構成要素の1つとなっております。実はこの「リアルタイム型D

    AWS最新提案!!Redshiftを使ったリアルタイム型DWHシステム!! | クラウド工房 Powered by Amazon Web Services
  • Redshiftでお手軽に1億件集計 - クラウド連携のリーディングカンパニー【株式会社テラスカイ】

    Salesforceプラットフォームには、購入するSalesforceライセンスの種類およびユーザ数により、数千万件以上のレコードを格納することが可能です。 ただし、ガバナ制限により5万件を超えるレコードを1回のSOQLクエリにより集計することはできません。 ( Summer'15 時点) @ReadOnlyアノテーションを付けた場合は5万件以上も集計可能ではありますが、大量件数を対象に集計した場合、レスポンスが遅いかもしれません。 ※「50000万件以上」と誤っていたところを「5万件以上」に訂正いたしました。(2015/07/04) 日で今年リリースすることが予定されている Analytics Cloud は、まだ試せてはいませんが、すでにリリースされているアメリカの公式ヘルプページでは、1platformライセンスあたり、1データセットで2億5千万件まで格納可能という記述があり、日

    Redshiftでお手軽に1億件集計 - クラウド連携のリーディングカンパニー【株式会社テラスカイ】
  • 1