並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 139件

新着順 人気順

aws_Glueの検索結果1 - 40 件 / 139件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

aws_Glueに関するエントリは139件あります。 awsデータAWS などが関連タグです。 人気エントリには 『Auroraを活用してAWS Glueでデータ分析機能を構築した話 - techtekt』などがあります。
  • Auroraを活用してAWS Glueでデータ分析機能を構築した話 - techtekt

    ベネッセ i-キャリアの小島です。 dodaキャンパスでは、AWS AthenaやQuickSightを利用して、日々データ分析活用を行っていますが、 今回は、Auroraを活用して、AWS Glueでデータ分析機能を構築しました。 その際に選定したアーキテクトとその理由を中心にお話させていただきたいと思います。 背景 dodaキャンパスでは現在、以下のサービスを用いてデータを取り扱っています。 DynamoDB サービスのデータ管理として利用 Athena SQLを用いたデータ分析に利用 QuickSight AthenaをデータソースとしたBIツールとして利用 今回、QuickSightで実行しているデータ分析のような機能を法人ユーザーにも提供することになりました。 要件は以下です 前日までの分析データのためデータの更新は1日1回でよい Readは大量かつ高速であることが求められる グ

      Auroraを活用してAWS Glueでデータ分析機能を構築した話 - techtekt
    • AWS GlueからAWS Batchにしたことで費用を75%削減した - Classi開発者ブログ

      こんにちは、最近データエンジニア業を多くやっているデータサイエンティストの白瀧です。 これまでClassiのデータ基盤は、Reverse ETLをしたり監視システムを導入したりとさまざまな進化をしてきました。しかし、Classiプロダクトが発展するとともにデータ量が増加し、これまでのデータ基盤では耐えられない状態に近づいてきました。 そこでデータ基盤の一部(DBからのExportを担う部分)のリアーキテクチャを実施したので、この記事で紹介したいと思います。 概要 Classiのデータ基盤では、Amazon RDSからAmazon S3へJSONで出力し、その後GCS→BigQueryという流れでデータを送り、BigQueryからもBIツールやReverse ETLなどで使っています。詳細は、Classiのデータ分析基盤であるソクラテスの紹介 - Classi開発者ブログを参照してください。

        AWS GlueからAWS Batchにしたことで費用を75%削減した - Classi開発者ブログ
      • ニアリアルタイムで同期される検索基盤を構築 ~AWS Glueによるデータ同期編~ - コネヒト開発者ブログ

        皆さん,こんにちは!MLエンジニアの柏木(@asteriam)です. ここ最近は検索エンジン内製化プロジェクトに携わっていて,検索エンジニアとして,検索基盤の主にデータ連携・同期の実装を1から構築したりしていました.7月中旬にABテストまで持っていくことが出来たので,ひとまず安心しているところです.ここからはユーザーの検索体験向上のために検索品質の改善に力を入れていく予定です! はじめに 今回新しく検索基盤をAWSのマネージドサービスを活用して構築しました!本エントリーでは,タイトルにもあるように,検索基盤の肝であるDBから検索エンジンへのデータ同期をAWS Glueを用いてニアリアルタイムで実施したお話になります.我々は以下の構成で今回の検索基盤を構築しています. 検索エンジン:Amazon OpenSearch Service データベース:Amazon Aurora データ同期(ET

          ニアリアルタイムで同期される検索基盤を構築 ~AWS Glueによるデータ同期編~ - コネヒト開発者ブログ
        • AWS再入門ブログリレー AWS Glue編 | DevelopersIO

          当エントリは弊社コンサルティング部による『AWS 再入門ブログリレー 2019』の14日目のエントリです。 このブログリレーの企画は、普段AWSサービスについて最新のネタ・深い/細かいテーマを主に書き連ねてきたメンバーの手によって、今一度初心に返って、基本的な部分を見つめ直してみよう、解説してみようというコンセプトが含まれています。 AWSをこれから学ぼう!という方にとっては文字通りの入門記事として、またすでにAWSを活用されている方にとってもAWSサービスの再発見や2019年のサービスアップデートのキャッチアップの場となればと考えておりますので、ぜひ最後までお付合い頂ければ幸いです。 では、さっそくいってみましょう。14日目のテーマは『AWS Glue』です。 目次 AWS Glueとは AWS Glueの概念・構成要素 データストア、データソース、データターゲット データカタログ クロ

            AWS再入門ブログリレー AWS Glue編 | DevelopersIO
          • [アップデート] 1行たりともコードは書かない!AWS GlueでストリーミングETLが可能になりました | DevelopersIO

            先日のアップデートで AWS Glue がストリーミング ETL をサポートするようになりました! AWS Glue now supports serverless streaming ETL New – Serverless Streaming ETL with AWS Glue なにが嬉しいのか まず、AWS Glue?ナニソレ?という方は、是非、以下の再入門ブログをお読みください。 AWS Glue はフルマネージドでサーバーレスな ETL(抽出/変換/ロード)サービスですが、これまでデータソースとしては S3、RDS、Redshift・・・etc といったデータストレージのみが対象でした。そのため、Kinesis Data Streams や Apache Kafka といったストリーミングデータに対して Glue を組み込んだ ETL 処理は出来ませんでした。 従来であれば、例え

              [アップデート] 1行たりともコードは書かない!AWS GlueでストリーミングETLが可能になりました | DevelopersIO
            • AWS Glueを使った Serverless ETL の実装パターン

              本セッションでは、「AWSを使ってサーバーレスなETL処理をしたいけど、どうやっていいか分からない?」といった方に向けて、AWS Glueと周辺サービスを利用した実装方法(コーディング、テスト、デプロイ、モニタリングなど)を紹介します。

                AWS Glueを使った Serverless ETL の実装パターン
              • コードを書かずに”データ前処理”を作成・実行可能!機械学習を使用した新しいビジュアルデータ準備ツール「AWS Glue DataBrew」がリリースされました! | DevelopersIO

                日本時間の2020年11月12日(火) 早朝、機械学習を使用した新しいビジュアルデータ準備ツールとして「AWS Glue DataBrew」という機能が突如発表されました!そしてこちらの機能、既に本日から利用可能となっているようです。 AWS Glue DataBrew, a visual data preparation tool that enables data scientists and data analysts to clean & normalize data up to 80% faster, is now generally available. Read this AWS News Blog to learn more: https://t.co/BVp3PA5n4z pic.twitter.com/XUc8s3NPka — Amazon Web Services (

                  コードを書かずに”データ前処理”を作成・実行可能!機械学習を使用した新しいビジュアルデータ準備ツール「AWS Glue DataBrew」がリリースされました! | DevelopersIO
                • AWS、ビジュアルなデータクレンジングツール「AWS Glue DataBrew」発表。大規模データの整理を迅速に実現

                  AWS、ビジュアルなデータクレンジングツール「AWS Glue DataBrew」発表。大規模データの整理を迅速に実現 データを基に分析を行う場合、対象となるデータがきちんと整っている必要があります。 しかし多くの場合、日付データの中に日付に変換されなかった数値データが混ざっていたり、同じ会社なのに「株式会社」と「(株)」と「(株)」の表記が揺れているせいで別の会社に分類されたり、名前や住所のどこかに余計なスペースが入っていて別のデータになったり、データをインポートしたときのミスで2つの列が連結されて1つの列に入っていたりと、整っていないデータが紛れ込んでいるものです。 これらを整理しなければ、正確なデータ分析はできません。そこで、データ分析の前処理としてデータを整える、いわゆる「データクレンジング」と呼ばれる作業が行われます。 データクレンジングは一般に手間と時間がかかる作業です。どんな

                    AWS、ビジュアルなデータクレンジングツール「AWS Glue DataBrew」発表。大規模データの整理を迅速に実現
                  • AWS Glue DataBrew 基本用語解説と入門チュートリアル実践まとめ | DevelopersIO

                    先日、AWS Glueの新機能としてリリースされた「AWS Glue DataBrew」。 「コードを書かずに”データ前処理”を作成・実行可能」な機能、という触れ込みでしたが、ドキュメントには一連の操作や機能を確認出来る「チュートリアル」も用意されています。 Getting started with AWS Glue DataBrew - AWS Glue DataBrew そこで当エントリでは、公式ドキュメントで紹介されているチュートリアルを実践していく上で必要となる用語の理解、及びチュートリアルの実践内容について紹介していきたいと思います。(※なお、チュートリアル本編を試してみたところ、画像キャプチャと情報量が半端無いボリュームになってしまったので、チュートリアル実践内容については章毎にエントリを分けて展開しています。ご了承ください) 目次 AWS Glue DataBrewの基本概念

                      AWS Glue DataBrew 基本用語解説と入門チュートリアル実践まとめ | DevelopersIO
                    • AWS Glue ETLワークロードをGUIでオーケストレーションする『Workflows』を実際に試してみました | DevelopersIO

                      AWS Glueは、ワークフローを用いて、クローラ、ジョブ(及びトリガ)の有向非循環グラフ(DAG)を作成して、ETLワークロードをオーケストレーションできるようになりました。AWS Glueが利用可能なすべての地域で利用できるようになりましたので早速試してみます。 Workflowsとは Workflowsの作成 Workflowのシナリオ 新規Workflowの追加 Workflowにエンティティを追加 Workflowの実行 実行結果の管理 制限事項 まとめ AWS Glue now provides workflows to orchestrate your ETL workloads Workflowsとは Workflowsは、既存のクローラ、ジョブ(及びトリガ)をGlueコンソール上のGUIを用いて有向非循環グラフ(DAG)を作成、実行、管理できる新機能です。これからは、クロ

                        AWS Glue ETLワークロードをGUIでオーケストレーションする『Workflows』を実際に試してみました | DevelopersIO
                      • AWS Glue で機密データを処理出来る Sensitive data detection API に日本向けのデータパターンが追加されたので試してみた | DevelopersIO

                        AWS Glue で機密データを処理出来る Sensitive data detection API に日本向けのデータパターンが追加されたので試してみた いわさです。 AWS Glue では、データに含まれる機密データを処理するための Sensitive data detection API という機能があります。 これまで日本語圏のデータはサポート範囲が限定的だったのですが、本日のアップデートでいくつか日本および英国のデータタイプがサポートされるようになりました。 本日は日本のダミーデータを用意して検証を行ってみました。 Glue Studio でジョブを作成 Sensitive data detection API の利用方法です。 AWS Glue Studio で Detect Sensitive Data アクションが用意されていますのでそちらを利用します。 以下のように Gl

                          AWS Glue で機密データを処理出来る Sensitive data detection API に日本向けのデータパターンが追加されたので試してみた | DevelopersIO
                        • AWS GlueでApache Sparkジョブをスケーリングし、データをパーティション分割するためのベストプラクティス | Amazon Web Services

                          Amazon Web Services ブログ AWS GlueでApache Sparkジョブをスケーリングし、データをパーティション分割するためのベストプラクティス AWS GlueはApache Spark ETLジョブでのデータ分析・データ処理を行うために、様々なデータソースから大量のデータセットを準備(抽出および変換)し、ロードするサーバーレスな環境を提供します。この投稿のシリーズでは、Apache SparkアプリケーションとGlueのETLジョブの開発者、ビッグデータアーキテクト、データエンジニア、およびビジネスアナリストが、AWS Glue上で実行するデータ処理のジョブを自動的にスケールするのに役に立つベストプラクティスについて説明します。 まず最初の投稿では、データ処理を行うジョブのスケーリングを管理する上で重要な2つのAWS Glueの機能について説明します。1つ目は、

                            AWS GlueでApache Sparkジョブをスケーリングし、データをパーティション分割するためのベストプラクティス | Amazon Web Services
                          • AWS Glue を使用した個人情報の検出・マスキング・編集および Amazon OpenSearch Service へのロード | Amazon Web Services

                            ユースケース: OpenSearch Service への読み込み前の個人情報バッチ検出 このアーキテクチャを実装しているお客様は、さまざまな分析を大規模に実行するために、Amazon S3 上にデータレイクを構築しています。このソリューションは、OpenSearch Service へのリアルタイム取り込みが不要で、スケジュールで実行される、またはイベントによってトリガーされるデータインテグレーションツールを使用することを計画しているお客様に適しています。 Amazon S3 にデータレコードが到着する前に、データレイクにすべてのデータストリームを信頼できる形で安全に取り込むための取り込みレイヤーを実装します。 Kinesis Data Streams は、構造化および半構造化データストリームの高速な取り込みのための取り込みレイヤーとして導入されます。これらの例としては、リレーショナルデ

                              AWS Glue を使用した個人情報の検出・マスキング・編集および Amazon OpenSearch Service へのロード | Amazon Web Services
                            • AWS Step Functions と AWS Glue を使用して Amazon DynamoDB テーブルを Amazon S3 にエクスポートする方法 | Amazon Web Services

                              Amazon Web Services ブログ AWS Step Functions と AWS Glue を使用して Amazon DynamoDB テーブルを Amazon S3 にエクスポートする方法 従来の AWS のやり方で、AWS Glue チームが DynamoDB テーブルからネイティブに読み取る AWS Glue クローラおよび AWS Glue ETL ジョブの機能をリリースしたときは、AWS ビッグデータブログで Goodreads はどのように Amazon DynamoDB テーブルを Amazon S3 にオフロードし、Amazon Athena を使用してクエリを実行するのかを公開してから一週間も経っていませんでした。おかげで私はかなりわくわくしていました。コードがより少ないということは、バグもより少ないことを意味します。元のアーキテクチャは少なくとも 18

                                AWS Step Functions と AWS Glue を使用して Amazon DynamoDB テーブルを Amazon S3 にエクスポートする方法 | Amazon Web Services
                              • AWS Glueをローカル環境で実行してみた | DevelopersIO

                                環境変数を設定します。MavenとSparkのパスは個人の環境に合わせて変更してください。 echo 'export PATH=$HOME/.apache-maven-3.6.2/bin:$PATH' >> ~/.bash_profile echo 'export SPARK_HOME=$HOME/.spark-2.2.1-bin-hadoop2.7' >> ~/.bash_profile echo 'export JAVA_HOME=`/usr/libexec/java_home -v 1.8`' >> ~/.bash_profile Pythonでローカル開発 AWS Glue Pythonライブラリを取得 GitHubからAWS Glue Pythonライブラリをダウンロードします。以降の作業はAWS Glue Pythonライブラリのルートディレクトリで行います。 https://

                                  AWS Glueをローカル環境で実行してみた | DevelopersIO
                                • [AWS Black Belt Online Seminar] 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング 資料公開 | Amazon Web Services

                                  Amazon Web Services ブログ [AWS Black Belt Online Seminar] 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング 資料公開 「猫でもわかる、AWS Glue ETLパフォーマンス・チューニング」 の AWS Black Belt Online Seminar についてご案内させて頂きます。 今回は「前編(基礎知識編)」 と「後編(チューニングパターン編)」 の二本立てとなっております。 視聴方法: 下記ページにて資料を公開いたしましたので、オンデマンドでご視聴いただけます。 202108 AWS Black Belt Online Seminar 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング 前編 202108 AWS Black Belt Online Seminar 猫でもわかる、AWS Glue

                                    [AWS Black Belt Online Seminar] 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング 資料公開 | Amazon Web Services
                                  • DynamoDB から S3 への定期的なエクスポートの仕組みを AWS Glue と Step Functions を使用して実装してみた | DevelopersIO

                                    コンバンハ、千葉(幸)です。 DynamoDB テーブルの中身を S3 バケットにエクスポートしたい、という場合があるかと思います。S3 にエクスポートしたものに対して、例えば Athena を利用して解析をかけたい、といったケースです。 AWS Glue や AWS Step Functions を利用して、定期的にエクスポートを行う仕組みについて以下のブログで紹介されているので、試してみました。 CloudFormation テンプレートや スクリプトが用意されているので、一通り流すだけでできます。 全体像としては以下のイメージです。 Data Pipeline, EMR, Glue の比較 Step Functions の Glue Workflow への置き換え Glue ETL スクリプトの 各種バージョン Glue ETL スクリプトのDynamoDB 読み取り並列度 目次 D

                                      DynamoDB から S3 への定期的なエクスポートの仕組みを AWS Glue と Step Functions を使用して実装してみた | DevelopersIO
                                    • AWS Glueのワークフロー機能がリリースされたようなので触ってみました - YOMON8.NET

                                      AWS Summitで発表されたようですが、Glueの標準機能でワークフローが組めるようになったと聞いたので早速試してみました。 Glueでワークフローを組むのは大変だった やってみる CrawlerとJobを用意 ワークフロー作成 トリガー作成 ワークフロー作成 ワークフロー完成 ワークフロー開始 所感 2019/06/21追記 Glueでワークフローを組むのは大変だった Glue主な使い方をざっくり言えば、以下のようになるかと思います。 CrawlerでS3上のファイルやRDBMSを読み込んで、データカタログにスキーマ情報等を取り込む ETL Job(Spark) でデータカタログの情報を利用して変換処理を実行 Crawler で変換後のデータも読み込んでデータカタログに取り込む 例えばCSVからParquetに単純変換するだけでも、最低これくらいは組まないといけません。 そのためには

                                        AWS Glueのワークフロー機能がリリースされたようなので触ってみました - YOMON8.NET
                                      • 【週刊 Ask An Expert #08】AWS Glue の Python shell ジョブはいつ Python 3 に対応する? AWS Loft Tokyo で受けた質問まとめ #AWSLoft | Amazon Web Services

                                        AWS Startup ブログ 【週刊 Ask An Expert #08】AWS Glue の Python shell ジョブはいつ Python 3 に対応する? AWS Loft Tokyo で受けた質問まとめ #AWSLoft こんにちは、ソリューションアーキテクトの針原 (Twitter: @_hariby) です。 関東甲信地方は梅雨入りしましたが、いかがお過ごしでしょうか。タイトルにある AWS Glue の Python shell ジョブは、ちょうど先週 Python 3.6 に対応しました。そんなやり取りがある週刊 Ask An Expert 第8回目をお届けしたいと思います。「参考になった!」「いい内容だ!」と思っていただけたら、ぜひハッシュタグ #AWSLoft を付けてシェアしてください。もちろん、改善点・ご要望もお待ちしております。 なお今週は AWS Sum

                                          【週刊 Ask An Expert #08】AWS Glue の Python shell ジョブはいつ Python 3 に対応する? AWS Loft Tokyo で受けた質問まとめ #AWSLoft | Amazon Web Services
                                        • AWS Glue DataBrew の発表 – データのクリーニングと正規化を迅速にするビジュアルデータ準備ツール | Amazon Web Services

                                          Amazon Web Services ブログ AWS Glue DataBrew の発表 – データのクリーニングと正規化を迅速にするビジュアルデータ準備ツール 分析の実行、レポートの作成、あるいは機械学習の導入を始めるには、使用するデータがクリーンで適切な形式であることを確保する必要があります。このデータの準備ステップでは、データアナリストとデータサイエンティストに対し、カスタムコードの記述や、多くの手動操作が要求されます。そこではまず、データを見て、利用できそうな値を把握し、列同士の間に相関があるかどうかを確認するための簡単な可視化機能を構築する必要があります。その後、想定を外れた通常以外の値をチェックします。たとえば、200℉(93℃)を超えるような気温や、200mph(322 km/h)を超えるトラックの速度、そして欠落しているデータなどを洗い出します。多くのアルゴリズムでは、特

                                            AWS Glue DataBrew の発表 – データのクリーニングと正規化を迅速にするビジュアルデータ準備ツール | Amazon Web Services
                                          • AWS Glue Python Shellでloggingを使ったログ出力について - YOMON8.NET

                                            GlueのPython Shellでloggingモジュールを利用してログを取得を考えてた時のメモです。 ログ出力先 loggingモジュールのデフォルトの出力先 ログ設定パターン デフォルト 全て /aws-glue/python-jobs/error に出力するパターン ストリームを使い分けるパターン ログ出力先 Python Shellのログの出力先ですが、以下の2つのCloudWatch Logsのストリームになります。これを使い分けることになります。 /aws-glue/python-jobs/output -> 標準出力 /aws-glue/python-jobs/error -> 標準エラー出力 loggingモジュールのデフォルトの出力先 RootのLoggerインスタンスの出力先は以下で設定されています。 logging.getLogger().handlers #->

                                              AWS Glue Python Shellでloggingを使ったログ出力について - YOMON8.NET
                                            • AWS再入門ブログリレー2022 AWS Glue編 | DevelopersIO

                                              当エントリは弊社コンサルティング部による『AWS再入門ブログリレー2022』の39日目のエントリです。 このブログリレーの企画は、普段AWSサービスについて最新のネタ・深い/細かいテーマを主に書き連ねてきたメンバーの手によって、 今一度初心に返って、基本的な部分を見つめ直してみよう、解説してみようというコンセプトが含まれています。 AWSをこれから学ぼう!という方にとっては文字通りの入門記事として、またすでにAWSを活用されている方にとっても AWSサービスの再発見や 2022年のサービスアップデートのキャッチアップの場となればと考えておりますので、ぜひ最後までお付合い頂ければ幸いです。 では、さっそくいってみましょう。今日のテーマは『AWS Glue』です。 AWS Glueとは AWS Glueは様々なデータソースのメタデータを管理し、分析、機械学習、アプリケーション開発のためのデータ

                                                AWS再入門ブログリレー2022 AWS Glue編 | DevelopersIO
                                              • AWS、自然言語による指示で面倒だったETLスクリプトを自動生成してくれる「Amazon Q data integration in AWS Glue」プレビュー公開

                                                AWS、自然言語による指示で面倒だったETLスクリプトを自動生成してくれる「Amazon Q data integration in AWS Glue」プレビュー公開 AWSは、ファイルやデータベースなどのデータソースからデータウェアハウスへデータを集積する際のデータ変換や転送処理などのスクリプトを、自然言語による説明から自動的に生成してくれる新サービス「Amazon Q data integration in AWS Glue」のプレビュー公開を発表しました。 Amazon Qは、昨年(2023年)11月に開催されたイベント「AWS re:Invent 2023」で発表された生成AIサービスです。このAmazon QをETLサービスであるAWS Glueと統合することも、AWS re:Invent 2023で予告されていました。 参考:[速報]AWS、Copilot対抗となる「Amazo

                                                  AWS、自然言語による指示で面倒だったETLスクリプトを自動生成してくれる「Amazon Q data integration in AWS Glue」プレビュー公開
                                                • [アップデート]AWS GlueのPython ShellでPython 3.6が利用できるようになりました! | DevelopersIO

                                                  AWS Glueのジョブ作成画面にPython3の表示が現れた! こんにちは。DI部の大高です。 先日、AWSマネージメントコンソール経由でGlueのPython Shellジョブを触っていた際に気づいたのですが、遂にAWS GlueのPython ShellでPython 3.6が利用できるようになりました。 これまではPython 2.7のみでしたが、これに加えてPython 3.6が選択できます。 AWS Glue supports scripts that are compatible with Python 3.6 in Python shell jobs また、以下のドキュメントにも詳細な記載がありますが、こちらは6/7現在では英語版だけの記載のようです。 Adding Python Shell Jobs in AWS Glue - AWS Glue マネージメントコンソールで

                                                    [アップデート]AWS GlueのPython ShellでPython 3.6が利用できるようになりました! | DevelopersIO
                                                  • AWS Glue visual ETL now supports new native Amazon Redshift capabilities

                                                    AWS Glue Studio now supports new native Amazon Redshift connector capabilities: browse Amazon Redshift tables directly in Glue Studio, add native Redshift SQL, execute common operations while writing to Amazon Redshift including drop, truncate, upsert, create or merge. AWS Glue Studio offers a visual extract-transform-and-load (ETL) interface that helps ETL developers to author, run, and monitor A

                                                      AWS Glue visual ETL now supports new native Amazon Redshift capabilities
                                                    • ETL処理がシンプルになる!AWS Glue 3.0で使えるようになったPySparkの関数紹介 - KAKEHASHI Tech Blog

                                                      KAKEHASHI の、Musubi Insight チームのエンジニアの横田です。 KAKEHASHI では BI ツールの Musubi Insight という Web アプリケーションを提供しています。 BI ツールでは薬剤師さんの業務データを可視化しておりますが、そのデータの集計処理には AWS Glue を使っています。 今年 AWS Glue 3.0が使えるようになり、できることが増えました。 チームのデータ基盤の概要と、AWS Glue 3.0 になって新たに使えるようになった PySpark の関数をいくつか紹介していきます。 Musubi Insight チームでの AWS Glue の利用について まず、簡単にデータ基盤の概要について紹介します。 弊社では AWS を利用しサービスを提供しているのですが、各サービスで作られたデータは S3 上に集まってくるようになってい

                                                        ETL処理がシンプルになる!AWS Glue 3.0で使えるようになったPySparkの関数紹介 - KAKEHASHI Tech Blog
                                                      • [AWS Black Belt Online Seminar] AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス- 資料及び QA 公開 | Amazon Web Services

                                                        Amazon Web Services ブログ [AWS Black Belt Online Seminar] AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス- 資料及び QA 公開 先日 (2021/03/30) 開催しました AWS Black Belt Online Seminar「AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス- AWS クラウドサービス活用資料集(すべての過去資料が閲覧できます) Q. S3 経由で PostgreSQL Database に J

                                                        • New book published: Serverless ETL and Analytics with AWS Glue

                                                          Want to learn how to integrate different data sources and build data platform on AWS? Here’s a new book for you! Serverless ETL and Analytics with AWS GlueWe are happy to publish the new book today! Fortunately I had an opportunity to co-author a book about AWS Glue with five talented engineers; Vishal, Subramanya, Tom, Albert, and Ishan, and publish this book with Packt. This book is the only one

                                                            New book published: Serverless ETL and Analytics with AWS Glue
                                                          • Improve query performance using AWS Glue partition indexes | Amazon Web Services

                                                            AWS Big Data Blog Improve query performance using AWS Glue partition indexes While creating data lakes on the cloud, the data catalog is crucial to centralize metadata and make the data visible, searchable, and queryable for users. With the recent exponential growth of data volume, it becomes much more important to optimize data layout and maintain the metadata on cloud storage to keep the value o

                                                              Improve query performance using AWS Glue partition indexes | Amazon Web Services
                                                            • Improve Amazon Athena query performance using AWS Glue Data Catalog partition indexes | Amazon Web Services

                                                              AWS Big Data Blog Improve Amazon Athena query performance using AWS Glue Data Catalog partition indexes The AWS Glue Data Catalog provides partition indexes to accelerate queries on highly partitioned tables. In the post Improve query performance using AWS Glue partition indexes, we demonstrated how partition indexes reduce the time it takes to fetch partition information during the planning phase

                                                                Improve Amazon Athena query performance using AWS Glue Data Catalog partition indexes | Amazon Web Services
                                                              • テラバイト級のデータを Google BigQuery 用 AWS Glue Connector を使って Google Cloud から Amazon S3 へ素早く移行 | Amazon Web Services

                                                                Amazon Web Services ブログ テラバイト級のデータを Google BigQuery 用 AWS Glue Connector を使って Google Cloud から Amazon S3 へ素早く移行 本記事は Amazon Web Services, Senior Analytics Specialist Solutions Architect である Fabrizio Napolitano によって投稿されたものです。 データレイクは、クラウドに構築すると有利になることがあります。セキュリティ、デプロイ時間の短縮、可用性、頻繁な機能の更新、弾力性、地理的に広範囲なサービス展開、および使った分だけ発生するコストが理由です。ところが、最近の Gartner や Harvard Business Review の調査によると、マルチクラウドやインタークラウド・アーキテクチ

                                                                  テラバイト級のデータを Google BigQuery 用 AWS Glue Connector を使って Google Cloud から Amazon S3 へ素早く移行 | Amazon Web Services
                                                                • AWS Glueの開発エンドポイントがそこそこお高いのでローカル開発環境を用意しました | フューチャー技術ブログ

                                                                  はじめにこんにちは。TIG DXチームの村瀬です。 AWS Glue利用していますか?ETL処理をする上で大変便利ですよね。しかしながら開発に必要不可欠な開発エンドポイントが少々お高く、もう少し安価に利用できればなーと思っていたところ、さすがAWSさん素敵なリリースをしてくれました。 https://aws.amazon.com/jp/about-aws/whats-new/2019/08/aws-glue-releases-binaries-of-glue-etl-libraries-for-glue-jobs/ AWS Glueとは過去のこちらの記事もご参考ください。 5TB/日 のデータをAWS Glueでさばくためにやったこと(概要編 5TB/日 のデータをAWS Glueでさばくためにやったこと(性能編) ローカルPCの環境を汚さない為に作業を開始する前に確認したところ、Glue

                                                                    AWS Glueの開発エンドポイントがそこそこお高いのでローカル開発環境を用意しました | フューチャー技術ブログ
                                                                  • [新機能] AWS Glue 「Glue Version 2.0」のSpark ETL ジョブの開始時間が10倍速く、最小の請求時間は1分になりました! | DevelopersIO

                                                                    新たにリリースされた「Glue Version 2.0」では、Sparkジョブの開始時間が10倍速く、最低10分ではなく最低1分の1秒単位で請求になります。インタラクティブなマイクロバッチをより素早くコスト効率よく実行できるようになりました。さらに新しいPythonモジュールの追加・更新、Pythonパッケージインストーラー(pip3)を使用して追加のモジュールをインストールもサポートされました。 本日は、「Glue Version 2.0」のSparkジョブの利用方法と起動時間について実際に確認してみます。 AWSJ亀田さんの記事ですが、「世界の亀田さん」なので、執筆時点では英語のみです。 新しい Glue Version 2.0 - Spark ETL ジョブ Glue Version 2.0 - Spark ETL ジョブの選択 Spark ETL ジョブでは、新しいSaprk 2.

                                                                      [新機能] AWS Glue 「Glue Version 2.0」のSpark ETL ジョブの開始時間が10倍速く、最小の請求時間は1分になりました! | DevelopersIO
                                                                    • AWS Glue で使えるようになった Git 統合機能を使ってみた | DevelopersIO

                                                                      いわさです。 先日のアップデートで AWS Glue に Git 統合機能が追加されました。 これによって何が出来るようになっているのかを確認したいと思います。 ジョブ作成画面でバージョン管理設定を行えるように まず、ジョブ作成画面に Version Control タブが追加されておりここで Git 統合先の構成を行うことが出来ます。 本日時点では Git サービスプロバイダとして AWS Code Commit と GitHub の 2 つから選択出来ます。 今回は主に CodeCommit で試してみます。 使い方は概ね同じです。 最後に少し GitHub も使っているので違う点はそちらで紹介します。 Git 統合構成を行う 設定にあたってリポジトリとブランチが必須設定項目なので先に CodeCommit でリポジトリと適当なブランチを作成しておきます。 ここではルートに適当な Re

                                                                        AWS Glue で使えるようになった Git 統合機能を使ってみた | DevelopersIO
                                                                      • AWS Glueで複雑な処理を開発するときのTips | フューチャー技術ブログ

                                                                        はじめにこんにちは。TIGの藤田です。 Python連載 の8日目として、PySparkを使用したGlueジョブ開発のお話をします。 ETLツールとして使用されるAWS Glueですが、業務バッチで行うような複雑な処理も実行できます。また、処理はGlueジョブとして、Apache Spark分散・並列処理のジョブフローに簡単に乗せることができます! 特に複雑な処理は、やや割高な開発エンドポイントは使用せず、ローカル端末で、しっかり開発・テストを行いたいですよね。そのためのローカル開発Tipsをご紹介します。 内容 Glueジョブの開発と実行概要 Tip1: ローカル環境構築 Tip2: PySpark, SparkSQL開発 Tip3: 単体テスト(pytest) Tip4: データカタログどうする問題 Glueジョブの開発と実行概要ローカル開発の前に、AWS Glueでのジョブ実行方法を

                                                                          AWS Glueで複雑な処理を開発するときのTips | フューチャー技術ブログ
                                                                        • AWS Glue バージョン 2.0 がジョブの起動時間を 10 倍高速化するとともに 1 分の最小請求期間の提供を開始 | Amazon Web Services

                                                                          Amazon Web Services ブログ AWS Glue バージョン 2.0 がジョブの起動時間を 10 倍高速化するとともに 1 分の最小請求期間の提供を開始 AWS Glue は、抽出、変換、およびロード (ETL) のためのフルマネージド型のサービスで、これを利用することで分析のためのデータの準備と読み込みが容易になります。Glue は「サーバーレス」です。リソースをプロビジョニングしたり管理したりする必要はなく、Glue がアクティブに実行されている場合にのみリソースについて支払いを行います。 10 倍速く起動する Spark ETL ジョブを特徴とする AWS Glue バージョン 2.0 の一般提供が開始されました。起動レイテンシーの低減により、全体的なジョブ実行時間が短縮され、マイクロバッチ処理と時間が重要な要素となるワークロードでお客様をサポートし、インタラクティブ

                                                                            AWS Glue バージョン 2.0 がジョブの起動時間を 10 倍高速化するとともに 1 分の最小請求期間の提供を開始 | Amazon Web Services
                                                                          • Develop and test AWS Glue version 3.0 and 4.0 jobs locally using a Docker container | Amazon Web Services

                                                                            AWS Big Data Blog Develop and test AWS Glue version 3.0 and 4.0 jobs locally using a Docker container Apr 2023: This post was reviewed and updated with enhanced support for Glue 4.0 Streaming jobs. Jan 2023: This post was reviewed and updated with enhanced support for Glue 3.0 Streaming jobs, ARM64, and Glue 4.0. AWS Glue is a fully managed serverless service that allows you to process data coming

                                                                              Develop and test AWS Glue version 3.0 and 4.0 jobs locally using a Docker container | Amazon Web Services
                                                                            • New – Serverless Streaming ETL with AWS Glue | Amazon Web Services

                                                                              AWS News Blog New – Serverless Streaming ETL with AWS Glue When you have applications in production, you want to understand what is happening, and how the applications are being used. To analyze data, a first approach is a batch processing model: a set of data is collected over a period of time, then run through analytics tools. To be able to react quickly, you can use a streaming model, where dat

                                                                                New – Serverless Streaming ETL with AWS Glue | Amazon Web Services
                                                                              • 月18万円!AWS Glueの開発エンドポイントで破産しないために - Qiita

                                                                                Glueの開発エンドポイントとは AWS Glueはデータレイクやビッグデータ系の複数の機能を持ったサービスですが、その主な機能の一つに、サーバレスのSparkとして使えるETLジョブ機能があります。 AWS Glueの開発エンドポイントはこのETLジョブの開発を行うための仕組みです。 GlueのETLジョブはサーバーレスで実行されるSparkなので、ETLスクリプトを投入すればジョブを実行はしてくれるのですが、OSにログオンしたり、デバッグをしながら開発することができません。 開発エンドポイントがあると、Jupyter NotebookやZeppelinでGlueの管理しているSparkにアクセスしてインタラクティブにコードを実行しながら、開発を進めることができます。 図の引用元: https://www.slideshare.net/AmazonWebServicesJapan/aws

                                                                                  月18万円!AWS Glueの開発エンドポイントで破産しないために - Qiita
                                                                                • S3 ExportされたAuroraのデータをAWS Glueを使ってDBに書き戻す - Akatsuki Hackers Lab | 株式会社アカツキ(Akatsuki Inc.)

                                                                                  Amazon AuroraのS3エクスポート機能 AuroraのS3エクスポート機能は、DBクラスターの現在のデータやスナップショットのデータをS3にApache Parquet形式で出力する機能です。 Apache Parquet形式は、スキーマ情報を内包している・列志向で分析用途にも適している・高効率な圧縮が可能・複雑なデータ構造にも対応しているといった特徴を備えたデータ形式です。AthenaやRedshift、あるいはBigQueryへの取り込みに利用することができ、これらを使ったDB内のデータ分析が可能になります。 高効率さについての実験として、試しに手元の64GBのクラスタースナップショットをS3エクスポートしてみたところ、出力されたParquetファイルの合計サイズは約4GBと、なんと1/16にも圧縮されました。特に毎日何TBもの大容量データをリージョン外に転送するようなケース

                                                                                    S3 ExportされたAuroraのデータをAWS Glueを使ってDBに書き戻す - Akatsuki Hackers Lab | 株式会社アカツキ(Akatsuki Inc.)

                                                                                  新着記事