タグ

Glueとredshiftに関するatsuizoのブックマーク (2)

  • AWS Glueからspark redshiftを利用してRedshiftを直接利用する - Qiita

    AWS GlueのJobでクロールしたRedshiftのテーブルをDynamic Frame経由で利用しようとすると以下の2つの問題点があります。 複数のテーブルをJoinして利用することができない SELECT * で条件指定などせず、全レコードをtemporary領域にUnloadしてしまう そこで、databricksが提供しているRedshift Data Source for Apache Sparkを利用してRedshiftを利用します。 前提 spark-redshift v2.0.1のjarを利用 AWS Glue Jobは2018/5時点に作成、言語としてはScalaを利用。 python(pySpark)だと 必要なライブラリや、py4jのリフレクションで詰まって動作するところまで持っていけてない。 Database(Redshift)への設定は事前に確認しておく Gl

    AWS Glueからspark redshiftを利用してRedshiftを直接利用する - Qiita
  • AWS Glue の基本的な使い方

    概要 AWS Glue を利用すると Apache Spark をサーバーレスに実行できます。基的な使い方を把握する目的で、S3 と RDS からデータを Redshift に ETL (Extract, Transform, and Load) してみます。2017/12/22 に東京リージョンでも利用できるようになりました。また、ページでは Python を利用しますが、新たに Scala サポートされています。 AWS Glue ETL 概略図 AWS Glue を ETL サービスとして利用する場合のシステム概略図は以下のようになります。 Data Source から Data Target に対して ETL します。ページでは Data Source は S3 と RDS であり、Data Target は Redshift となります。 ETL は Job として実行され

    AWS Glue の基本的な使い方
  • 1