並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 50件

新着順 人気順

Glueの検索結果1 - 40 件 / 50件

Glueに関するエントリは50件あります。 awsAWSデータ などが関連タグです。 人気エントリには 『ソーシャルゲームの運用に欠かせないデータ分析基盤の作り方』などがあります。
  • ソーシャルゲームの運用に欠かせないデータ分析基盤の作り方

    はじめに 初めまして、バックエンドエンジニアの伊藤皓程です。2015年にサイバーエージェントに入社してからソーシャルゲーム2本、その後アドテクで広告配信システムの開発に携わりました。以前のプロジェクトではデイリーで数TBのログを収集と分析を行なっていた経験があり、また個人でAWS AthenaのTypeScript・Node.js用のクライアントライブラリ1を公開しています。今回は今年にリリースしたアプリボットの新データ分析基盤についてご紹介したいと思います。 経緯 アプリボットではゲームの運用の改善のためにユーザの行動ログの分析に力をいれており、Redshiftを利用したデータ分析基盤2がありました。一方でゲームの運用年数や運用タイトルの増加などにより以下のような課題がありました。 Redshiftのストレージ容量の枯渇 デイリーのレポート集計バッチの実行時間の増加 データ分析基盤の運用

      ソーシャルゲームの運用に欠かせないデータ分析基盤の作り方
    • Athena+Embulk+BigQueryによるアプリケーションログの分析環境構築

      はじめにこんにちは、Finatextで証券プラットフォーム(Brokerage as a Service、以下BaaS)の開発に携わっている石橋(@bashi0501)です。過去のFinatextテックブログではTerraform、CDKとIaCをテーマにした記事しか書いたことがなかったのですが、今回はログの分析活用をテーマとします。 概要弊社の証券事業ではECSによるワークロードを組んでいます。本テーマのアプリケーションログについては標準出力したものをawslogsログドライバーが回収してCloudWatch Logsに送信しています。 ログの検索という観点ではCloudWatch Logs Insightsというサービスでかなりリッチにフィルターや集計を行うことができるのですが、ログデータを元にしたユーザーのファネル分析や業務改善(後述します)に活かしていきたいという意図があるため、マ

        Athena+Embulk+BigQueryによるアプリケーションログの分析環境構築
      • AWS GlueからAWS Batchにしたことで費用を75%削減した - Classi開発者ブログ

        こんにちは、最近データエンジニア業を多くやっているデータサイエンティストの白瀧です。 これまでClassiのデータ基盤は、Reverse ETLをしたり監視システムを導入したりとさまざまな進化をしてきました。しかし、Classiプロダクトが発展するとともにデータ量が増加し、これまでのデータ基盤では耐えられない状態に近づいてきました。 そこでデータ基盤の一部(DBからのExportを担う部分)のリアーキテクチャを実施したので、この記事で紹介したいと思います。 概要 Classiのデータ基盤では、Amazon RDSからAmazon S3へJSONで出力し、その後GCS→BigQueryという流れでデータを送り、BigQueryからもBIツールやReverse ETLなどで使っています。詳細は、Classiのデータ分析基盤であるソクラテスの紹介 - Classi開発者ブログを参照してください。

          AWS GlueからAWS Batchにしたことで費用を75%削減した - Classi開発者ブログ
        • [新機能]Amazon Athena ルールベースでパーティションプルーニングを自動化する Partition Projection の徹底解説 | DevelopersIO

          [新機能]Amazon Athena ルールベースでパーティションプルーニングを自動化する Partition Projection の徹底解説 Partition Projection(パーティション射影)は、テーブル定義で指定したパーティションキーのルールやフォーマットからパーティションを計算し、パーティションプルーニングを自動化します。パフォーマンスの向上やパーティション管理の自動化などインパクトがある新機能なので、実際の動作を確認しつつ、ユースケースについて解説します。 用語の補足:パーティションプルーニングとは、一定の期間(年、月、日)やキー情報に基づき、データを分割管理したデータをクエリする際に、範囲外のデータスキャンを避ける仕組みを表します。 Glueパーティションの課題 従来のGlueパーティションは、メタデータストアがパーティション情報を保持しているので、データストア(S

            [新機能]Amazon Athena ルールベースでパーティションプルーニングを自動化する Partition Projection の徹底解説 | DevelopersIO
          • AWS再入門ブログリレー AWS Glue編 | DevelopersIO

            当エントリは弊社コンサルティング部による『AWS 再入門ブログリレー 2019』の14日目のエントリです。 このブログリレーの企画は、普段AWSサービスについて最新のネタ・深い/細かいテーマを主に書き連ねてきたメンバーの手によって、今一度初心に返って、基本的な部分を見つめ直してみよう、解説してみようというコンセプトが含まれています。 AWSをこれから学ぼう!という方にとっては文字通りの入門記事として、またすでにAWSを活用されている方にとってもAWSサービスの再発見や2019年のサービスアップデートのキャッチアップの場となればと考えておりますので、ぜひ最後までお付合い頂ければ幸いです。 では、さっそくいってみましょう。14日目のテーマは『AWS Glue』です。 目次 AWS Glueとは AWS Glueの概念・構成要素 データストア、データソース、データターゲット データカタログ クロ

              AWS再入門ブログリレー AWS Glue編 | DevelopersIO
            • [アップデート] 1行たりともコードは書かない!AWS GlueでストリーミングETLが可能になりました | DevelopersIO

              先日のアップデートで AWS Glue がストリーミング ETL をサポートするようになりました! AWS Glue now supports serverless streaming ETL New – Serverless Streaming ETL with AWS Glue なにが嬉しいのか まず、AWS Glue?ナニソレ?という方は、是非、以下の再入門ブログをお読みください。 AWS Glue はフルマネージドでサーバーレスな ETL(抽出/変換/ロード)サービスですが、これまでデータソースとしては S3、RDS、Redshift・・・etc といったデータストレージのみが対象でした。そのため、Kinesis Data Streams や Apache Kafka といったストリーミングデータに対して Glue を組み込んだ ETL 処理は出来ませんでした。 従来であれば、例え

                [アップデート] 1行たりともコードは書かない!AWS GlueでストリーミングETLが可能になりました | DevelopersIO
              • AWS Glueを使った Serverless ETL の実装パターン

                本セッションでは、「AWSを使ってサーバーレスなETL処理をしたいけど、どうやっていいか分からない?」といった方に向けて、AWS Glueと周辺サービスを利用した実装方法(コーディング、テスト、デプロイ、モニタリングなど)を紹介します。

                  AWS Glueを使った Serverless ETL の実装パターン
                • Developers.IO 2019 Tokyoで「Effective Datalake 〜基礎からわかるデータレイクの定義と実践〜」というタイトルで発表してきました #cmdevio | DevelopersIO

                  クラスメソッドの石川です。 先日開催いたしましたDevelopers.IO 2019 in TOKYOにお越し頂きましてありがとうございました。 表題の通り、データレイクについてお話をさせて頂きました。 スライド こちらがスライドになります。 こんな事を話してた はじめに データレイクとは AWS Glue Aamzon Athena / Redshift Spectrum データ設計のベストプラクティス Redshiftからデータレイクの移行 AWS Lake Formation まとめ まとめ Glue/Athena/Redshift Spectrumで始まったAWSのデータレイクは、Lake Formationによって統合され大きな進化を遂げました。その過程を私なりの解釈と定義に基づいて、現在に至る基礎的なサービスとその動作原理、データ設計のベストプラクティスについ

                    Developers.IO 2019 Tokyoで「Effective Datalake 〜基礎からわかるデータレイクの定義と実践〜」というタイトルで発表してきました #cmdevio | DevelopersIO
                  • AWS Glue DataBrew 基本用語解説と入門チュートリアル実践まとめ | DevelopersIO

                    先日、AWS Glueの新機能としてリリースされた「AWS Glue DataBrew」。 「コードを書かずに”データ前処理”を作成・実行可能」な機能、という触れ込みでしたが、ドキュメントには一連の操作や機能を確認出来る「チュートリアル」も用意されています。 Getting started with AWS Glue DataBrew - AWS Glue DataBrew そこで当エントリでは、公式ドキュメントで紹介されているチュートリアルを実践していく上で必要となる用語の理解、及びチュートリアルの実践内容について紹介していきたいと思います。(※なお、チュートリアル本編を試してみたところ、画像キャプチャと情報量が半端無いボリュームになってしまったので、チュートリアル実践内容については章毎にエントリを分けて展開しています。ご了承ください) 目次 AWS Glue DataBrewの基本概念

                      AWS Glue DataBrew 基本用語解説と入門チュートリアル実践まとめ | DevelopersIO
                    • AWS GlueでApache Sparkジョブをスケーリングし、データをパーティション分割するためのベストプラクティス | Amazon Web Services

                      Amazon Web Services ブログ AWS GlueでApache Sparkジョブをスケーリングし、データをパーティション分割するためのベストプラクティス AWS GlueはApache Spark ETLジョブでのデータ分析・データ処理を行うために、様々なデータソースから大量のデータセットを準備(抽出および変換)し、ロードするサーバーレスな環境を提供します。この投稿のシリーズでは、Apache SparkアプリケーションとGlueのETLジョブの開発者、ビッグデータアーキテクト、データエンジニア、およびビジネスアナリストが、AWS Glue上で実行するデータ処理のジョブを自動的にスケールするのに役に立つベストプラクティスについて説明します。 まず最初の投稿では、データ処理を行うジョブのスケーリングを管理する上で重要な2つのAWS Glueの機能について説明します。1つ目は、

                        AWS GlueでApache Sparkジョブをスケーリングし、データをパーティション分割するためのベストプラクティス | Amazon Web Services
                      • AWS Step Functions と AWS Glue を使用して Amazon DynamoDB テーブルを Amazon S3 にエクスポートする方法 | Amazon Web Services

                        Amazon Web Services ブログ AWS Step Functions と AWS Glue を使用して Amazon DynamoDB テーブルを Amazon S3 にエクスポートする方法 従来の AWS のやり方で、AWS Glue チームが DynamoDB テーブルからネイティブに読み取る AWS Glue クローラおよび AWS Glue ETL ジョブの機能をリリースしたときは、AWS ビッグデータブログで Goodreads はどのように Amazon DynamoDB テーブルを Amazon S3 にオフロードし、Amazon Athena を使用してクエリを実行するのかを公開してから一週間も経っていませんでした。おかげで私はかなりわくわくしていました。コードがより少ないということは、バグもより少ないことを意味します。元のアーキテクチャは少なくとも 18

                          AWS Step Functions と AWS Glue を使用して Amazon DynamoDB テーブルを Amazon S3 にエクスポートする方法 | Amazon Web Services
                        • AWS Glueをローカル環境で実行してみた | DevelopersIO

                          環境変数を設定します。MavenとSparkのパスは個人の環境に合わせて変更してください。 echo 'export PATH=$HOME/.apache-maven-3.6.2/bin:$PATH' >> ~/.bash_profile echo 'export SPARK_HOME=$HOME/.spark-2.2.1-bin-hadoop2.7' >> ~/.bash_profile echo 'export JAVA_HOME=`/usr/libexec/java_home -v 1.8`' >> ~/.bash_profile Pythonでローカル開発 AWS Glue Pythonライブラリを取得 GitHubからAWS Glue Pythonライブラリをダウンロードします。以降の作業はAWS Glue Pythonライブラリのルートディレクトリで行います。 https://

                            AWS Glueをローカル環境で実行してみた | DevelopersIO
                          • [AWS Black Belt Online Seminar] 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング 資料公開 | Amazon Web Services

                            Amazon Web Services ブログ [AWS Black Belt Online Seminar] 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング 資料公開 「猫でもわかる、AWS Glue ETLパフォーマンス・チューニング」 の AWS Black Belt Online Seminar についてご案内させて頂きます。 今回は「前編(基礎知識編)」 と「後編(チューニングパターン編)」 の二本立てとなっております。 視聴方法: 下記ページにて資料を公開いたしましたので、オンデマンドでご視聴いただけます。 202108 AWS Black Belt Online Seminar 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング 前編 202108 AWS Black Belt Online Seminar 猫でもわかる、AWS Glue

                              [AWS Black Belt Online Seminar] 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング 資料公開 | Amazon Web Services
                            • AWS Glueのワークフロー機能がリリースされたようなので触ってみました - YOMON8.NET

                              AWS Summitで発表されたようですが、Glueの標準機能でワークフローが組めるようになったと聞いたので早速試してみました。 Glueでワークフローを組むのは大変だった やってみる CrawlerとJobを用意 ワークフロー作成 トリガー作成 ワークフロー作成 ワークフロー完成 ワークフロー開始 所感 2019/06/21追記 Glueでワークフローを組むのは大変だった Glue主な使い方をざっくり言えば、以下のようになるかと思います。 CrawlerでS3上のファイルやRDBMSを読み込んで、データカタログにスキーマ情報等を取り込む ETL Job(Spark) でデータカタログの情報を利用して変換処理を実行 Crawler で変換後のデータも読み込んでデータカタログに取り込む 例えばCSVからParquetに単純変換するだけでも、最低これくらいは組まないといけません。 そのためには

                                AWS Glueのワークフロー機能がリリースされたようなので触ってみました - YOMON8.NET
                              • クラスメソッド データアナリティクス通信(AWSデータ分析編) – 2022年11月号 | DevelopersIO

                                データアナリティクス事業本部のコンサルティングチームの石川です。コンサルティングチームメンバーを中心に、日々AWSのアナリティクス関連サービスのアップデートを追っています。メンバー内で業務に取り入れられそうかを中心に確認しているので、一部取り上げられていないものもあるかもしれませんが、参考になりましたら幸いです。 Amazon Redshift 新機能・アップデート 2022/10/05 - Amazon Redshift Serverless now supports resource tagging Amazon Redshift Serverlessは、ネームスペースやワークグループなどのリソースのタグ付けをサポートするようになりました。タグ付けにより、リソースにキーと値のペアを割り当て、部門、請求グループ、本番/検証/開発環境ごとにリソースを整理することができます。 Amazon

                                  クラスメソッド データアナリティクス通信(AWSデータ分析編) – 2022年11月号 | DevelopersIO
                                • Athenaを使ったデータ処理基盤の設計 - Speee DEVELOPER BLOG

                                  こんにちは。UZOUのプロダクト開発をしているエンジニアの@kanga333です。 UZOUでは広告データの集計の一部にAmazon Athenaを採用しています。 この記事ではUZOUにおけるAthenaを使ったデータ処理基盤の設計について紹介したいと思います。 全体構成 データ処理基盤の全体構成は次のようになっています。 以後はそれぞれのコンポーネントについて順次紹介していきます。 FleuntdによるS3への集約 UZOUでは特にFluentdアグリゲータのような中継サーバは設けていません。広告配信サーバに常駐するFluentdがログを直接S3にプットしています。 以下はFluentdのS3 output部分の設定の一部抜粋です。 <buffer time> @type file timekey 60m </buffer> path example_table/dt=%Y%m%d/h

                                    Athenaを使ったデータ処理基盤の設計 - Speee DEVELOPER BLOG
                                  • Athenaで気軽にS3のデータを集計する - Qiita

                                    S3のJSONを気軽にAthenaで集計したいと思い、安く済ます方法を調べた。 事前の印象では結構なお値段かかってしまうものだと思っていたが、小さいデータを最低コストで集計する分にはかなり安く済みそうだった。 ということで、ここでやりたいのは、 S3の小さいデータを 気軽に 安く SQLで集計する ということで、RDSなど立てるのはもってのほかである。 前提知識 パーティション データをパーティション分割することで、各クエリでスキャンするデータの量を制限し、パフォーマンスの向上とコストの削減を達成できます。Athena では、データのパーティション分割に Hive を使用します。すべてのキーでデータをパーティション化できます。一般的な方法では、時間に基づいてデータをパーティション分割します。これにより、通常、複数レベルのパーティション構成となります。たとえば、1 時間ごとに配信されるデータ

                                      Athenaで気軽にS3のデータを集計する - Qiita
                                    • 404 Page

                                      XsPDF.com is professional provider of PDF and Excel document, OCR text recognition, available for ASP.NET AJAX, Windows Forms as well as WPF. We are dedicated to provide powerful & profession PDF document components for creating, processing, converting documents(contains text, image, shape, table, barcode, chart) and more. Also provide wonderful Excel spreedsheets control for generating, loading,

                                      • AWS、自然言語による指示で面倒だったETLスクリプトを自動生成してくれる「Amazon Q data integration in AWS Glue」プレビュー公開

                                        AWS、自然言語による指示で面倒だったETLスクリプトを自動生成してくれる「Amazon Q data integration in AWS Glue」プレビュー公開 AWSは、ファイルやデータベースなどのデータソースからデータウェアハウスへデータを集積する際のデータ変換や転送処理などのスクリプトを、自然言語による説明から自動的に生成してくれる新サービス「Amazon Q data integration in AWS Glue」のプレビュー公開を発表しました。 Amazon Qは、昨年(2023年)11月に開催されたイベント「AWS re:Invent 2023」で発表された生成AIサービスです。このAmazon QをETLサービスであるAWS Glueと統合することも、AWS re:Invent 2023で予告されていました。 参考:[速報]AWS、Copilot対抗となる「Amazo

                                          AWS、自然言語による指示で面倒だったETLスクリプトを自動生成してくれる「Amazon Q data integration in AWS Glue」プレビュー公開
                                        • AWS Glue visual ETL now supports new native Amazon Redshift capabilities

                                          AWS Glue Studio now supports new native Amazon Redshift connector capabilities: browse Amazon Redshift tables directly in Glue Studio, add native Redshift SQL, execute common operations while writing to Amazon Redshift including drop, truncate, upsert, create or merge. AWS Glue Studio offers a visual extract-transform-and-load (ETL) interface that helps ETL developers to author, run, and monitor A

                                            AWS Glue visual ETL now supports new native Amazon Redshift capabilities
                                          • New book published: Serverless ETL and Analytics with AWS Glue

                                            Want to learn how to integrate different data sources and build data platform on AWS? Here’s a new book for you! Serverless ETL and Analytics with AWS GlueWe are happy to publish the new book today! Fortunately I had an opportunity to co-author a book about AWS Glue with five talented engineers; Vishal, Subramanya, Tom, Albert, and Ishan, and publish this book with Packt. This book is the only one

                                              New book published: Serverless ETL and Analytics with AWS Glue
                                            • AthenaでHIVE_PARTITION_SCHEMA_MISMATCHが発生 GlueカタログのTableとPartitionの間のスキーマに不整合直して解消 - YOMON8.NET

                                              掲題のエラーに当たってサポートに対応教えてもらったのでメモ。 事象 原因 パーティションの例 テーブルのスキーマ パーティション毎のスキーマ 対応 参考 事象 CSVをGlueを使ってパーティション分割して、AthenaでプレビューしてみたらHIVE_PARTITION_SCHEMA_MISMATCHというエラーが発生しました。 SELECT * FROM "tablename" limit 10; Your query has the following error(s): HIVE_PARTITION_SCHEMA_MISMATCH: There is a mismatch between the table and partition schemas. The types are incompatible and cannot be coerced. The column 'drop

                                                AthenaでHIVE_PARTITION_SCHEMA_MISMATCHが発生 GlueカタログのTableとPartitionの間のスキーマに不整合直して解消 - YOMON8.NET
                                              • AWS Glueの開発エンドポイントがそこそこお高いのでローカル開発環境を用意しました | フューチャー技術ブログ

                                                はじめにこんにちは。TIG DXチームの村瀬です。 AWS Glue利用していますか?ETL処理をする上で大変便利ですよね。しかしながら開発に必要不可欠な開発エンドポイントが少々お高く、もう少し安価に利用できればなーと思っていたところ、さすがAWSさん素敵なリリースをしてくれました。 https://aws.amazon.com/jp/about-aws/whats-new/2019/08/aws-glue-releases-binaries-of-glue-etl-libraries-for-glue-jobs/ AWS Glueとは過去のこちらの記事もご参考ください。 5TB/日 のデータをAWS Glueでさばくためにやったこと(概要編 5TB/日 のデータをAWS Glueでさばくためにやったこと(性能編) ローカルPCの環境を汚さない為に作業を開始する前に確認したところ、Glue

                                                  AWS Glueの開発エンドポイントがそこそこお高いのでローカル開発環境を用意しました | フューチャー技術ブログ
                                                • [新機能] AWS Glue 「Glue Version 2.0」のSpark ETL ジョブの開始時間が10倍速く、最小の請求時間は1分になりました! | DevelopersIO

                                                  新たにリリースされた「Glue Version 2.0」では、Sparkジョブの開始時間が10倍速く、最低10分ではなく最低1分の1秒単位で請求になります。インタラクティブなマイクロバッチをより素早くコスト効率よく実行できるようになりました。さらに新しいPythonモジュールの追加・更新、Pythonパッケージインストーラー(pip3)を使用して追加のモジュールをインストールもサポートされました。 本日は、「Glue Version 2.0」のSparkジョブの利用方法と起動時間について実際に確認してみます。 AWSJ亀田さんの記事ですが、「世界の亀田さん」なので、執筆時点では英語のみです。 新しい Glue Version 2.0 - Spark ETL ジョブ Glue Version 2.0 - Spark ETL ジョブの選択 Spark ETL ジョブでは、新しいSaprk 2.

                                                    [新機能] AWS Glue 「Glue Version 2.0」のSpark ETL ジョブの開始時間が10倍速く、最小の請求時間は1分になりました! | DevelopersIO
                                                  • AWS Glueで複雑な処理を開発するときのTips | フューチャー技術ブログ

                                                    はじめにこんにちは。TIGの藤田です。 Python連載 の8日目として、PySparkを使用したGlueジョブ開発のお話をします。 ETLツールとして使用されるAWS Glueですが、業務バッチで行うような複雑な処理も実行できます。また、処理はGlueジョブとして、Apache Spark分散・並列処理のジョブフローに簡単に乗せることができます! 特に複雑な処理は、やや割高な開発エンドポイントは使用せず、ローカル端末で、しっかり開発・テストを行いたいですよね。そのためのローカル開発Tipsをご紹介します。 内容 Glueジョブの開発と実行概要 Tip1: ローカル環境構築 Tip2: PySpark, SparkSQL開発 Tip3: 単体テスト(pytest) Tip4: データカタログどうする問題 Glueジョブの開発と実行概要ローカル開発の前に、AWS Glueでのジョブ実行方法を

                                                      AWS Glueで複雑な処理を開発するときのTips | フューチャー技術ブログ
                                                    • 【電子書籍版】AWSではじめるデータレイク - テッキーメディア - BOOTH

                                                      本書の概要「データレイク」は、大量データ分析/生成データの活用を視野に入れた新しいデータストアのかたちです。従来のデータベース/データウェアハウスの範囲に収まらない多様なデータを大量に保管し、高度な統計分析や機械学習に役立つ情報基盤を作ることが可能です。 本書ではデータレイクの概念や特徴、必要とされる機能などをいちから解説し、さらにAmazonが運営するパブリッククラウドサービスAWS(Amazon Web Services)で実現する方法を解説します。 従来では想定しえなかった大量のデータを確実に保管するため、データレイクの世界ではクラウドのようなサービス型インフラストラクチャの活用が注目されます。さらにAWSではオブジェクトストレージS3上のデータを直接分析するAmazon Athena、データウェアハウスのAmazon Redshift、機械学習を実現するAmazon SageMak

                                                        【電子書籍版】AWSではじめるデータレイク - テッキーメディア - BOOTH
                                                      • Develop and test AWS Glue version 3.0 and 4.0 jobs locally using a Docker container | Amazon Web Services

                                                        AWS Big Data Blog Develop and test AWS Glue version 3.0 and 4.0 jobs locally using a Docker container Apr 2023: This post was reviewed and updated with enhanced support for Glue 4.0 Streaming jobs. Jan 2023: This post was reviewed and updated with enhanced support for Glue 3.0 Streaming jobs, ARM64, and Glue 4.0. AWS Glue is a fully managed serverless service that allows you to process data coming

                                                          Develop and test AWS Glue version 3.0 and 4.0 jobs locally using a Docker container | Amazon Web Services
                                                        • 入門 Amazon Athena - Qiita

                                                          世の中的には分析などをする際にはBigQueryのケースが多いと思いますが、仕事でAmazon Athenaを触るケースが出てきたので、入門としてまとめておきます。 Amazon Athenaとは BigQueryみたく、SQLで大きなデータを集計などできるAWSのサービスです。 分析の他にも他のAWSサービスのログ確認などでも使われたりしますが、今回は分析寄りの記事として進めます。 BigQueryと比べて大きく異なる点として、「データをS3に配置する」という点があります(それによるメリットなどは後述)。 コストはどうなの? 基本的にスキャンサイズのみに課金されます。 Amazon Athena では、実行したクエリに対してのみ料金が発生します。クエリごとにスキャンされたデータの分量に基づいて料金が請求され、1 テラバイトごとに 5 USD が請求されます。 Amazon Athena

                                                            入門 Amazon Athena - Qiita
                                                          • 月18万円!AWS Glueの開発エンドポイントで破産しないために - Qiita

                                                            Glueの開発エンドポイントとは AWS Glueはデータレイクやビッグデータ系の複数の機能を持ったサービスですが、その主な機能の一つに、サーバレスのSparkとして使えるETLジョブ機能があります。 AWS Glueの開発エンドポイントはこのETLジョブの開発を行うための仕組みです。 GlueのETLジョブはサーバーレスで実行されるSparkなので、ETLスクリプトを投入すればジョブを実行はしてくれるのですが、OSにログオンしたり、デバッグをしながら開発することができません。 開発エンドポイントがあると、Jupyter NotebookやZeppelinでGlueの管理しているSparkにアクセスしてインタラクティブにコードを実行しながら、開発を進めることができます。 図の引用元: https://www.slideshare.net/AmazonWebServicesJapan/aws

                                                              月18万円!AWS Glueの開発エンドポイントで破産しないために - Qiita
                                                            • AWS Glueデータカタログのスキーマが後から変更された際の挙動について調べてみた | DevelopersIO

                                                              Terraformのテンプレート variablesの部分をお好みで変更してください。 # Terraform Setting terraform { required_version = "0.12.6" } # Provider provider "aws" { region = "ap-northeast-1" } # Kinesis Firehose resource "aws_kinesis_firehose_delivery_stream" "firehose_delivery_stream" { name = "${var.firehose_name}" destination = "extended_s3" extended_s3_configuration { bucket_arn = "${aws_s3_bucket.s3_bucket.arn}" buffer_int

                                                                AWS Glueデータカタログのスキーマが後から変更された際の挙動について調べてみた | DevelopersIO
                                                              • Redshift とデータ連携するサービスをまとめてみた | DevelopersIO

                                                                はじめに おはようございます、もきゅりんです。 皆さん、Redshift とは仲良しでしょうか? まだあまり仲良しではない自分は、Redshift がどのように他サービスとデータ連携するかをまとめてみました。 データのロード元、外部データへのクエリ、Redshift へのクエリ、BIツールとの連携という視点でまとめてみました。(まだまだ足りないものもあるかもしれません) 前提として、 Redshift がどんなサービスかはいちおう把握していることは必要です。 数百ギガバイトからペタバイト以上の巨大なデータを扱う、クラスター構成、列指向、PostgreSQL 8.0.2に準拠、などの特長 ですね。 Redshift については比較的弊社ブログでの記事数も多く、概要については下記ブログも参考になりますので是非どうぞ。 AWS再入門ブログリレー Amazon Redshift編 AWS再入門 A

                                                                  Redshift とデータ連携するサービスをまとめてみた | DevelopersIO
                                                                • [アップデート]AWS GlueでのETLワークロードのコスト削減する実行オプション『Flexジョブ』が登場しました | DevelopersIO

                                                                  データアナリティクス事業本部インテグレーション部コンサルティングチーム・新納(にいの)です。 AWS GlueでETLを行っている方に朗報なアップデートです。ETLワークロードのコスト削減可能な新たな実行オプション「Flexジョブ」が使えるようになりました! Flexジョブとは? 専用ではなく予備のコンピューティングリソースを利用してAWS Glueジョブを実行することで、最大34%コストを削減可能な実行オプションです。 2022年8月10日現在、利用可能なリージョンは以下の通り。 Asia Pacific (Tokyo) Asia Pacific (Seoul) Asia Pacific (Mumbai) Asia Pacific (Singapore) Asia Pacific (Sydney) Canada (Central) Europe (Frankfurt) Europe (I

                                                                    [アップデート]AWS GlueでのETLワークロードのコスト削減する実行オプション『Flexジョブ』が登場しました | DevelopersIO
                                                                  • Introducing AWS Glue Auto Scaling: Automatically resize serverless computing resources for lower cost with optimized Apache Spark | Amazon Web Services

                                                                    AWS Big Data Blog Introducing AWS Glue Auto Scaling: Automatically resize serverless computing resources for lower cost with optimized Apache Spark June 2023: This post was reviewed and updated for accuracy. Data created in the cloud is growing fast in recent days, so scalability is a key factor in distributed data processing. Many customers benefit from the scalability of the AWS Glue serverless

                                                                      Introducing AWS Glue Auto Scaling: Automatically resize serverless computing resources for lower cost with optimized Apache Spark | Amazon Web Services
                                                                    • Developing, testing, and deploying custom connectors for your data stores with AWS Glue | Amazon Web Services

                                                                      AWS Big Data Blog Developing, testing, and deploying custom connectors for your data stores with AWS Glue AWS Glue is a serverless data integration service that makes it easy to discover, prepare, and combine data for analytics, machine learning, and application development. AWS Glue already integrates with various popular data stores such as the Amazon Redshift, RDS, MongoDB, and Amazon S3. Organ

                                                                        Developing, testing, and deploying custom connectors for your data stores with AWS Glue | Amazon Web Services
                                                                      • AmazonがAWS Glueに新しいストリーミングETL機能を導入

                                                                        Spring BootによるAPIバックエンド構築実践ガイド 第2版 何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。この本では、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...

                                                                          AmazonがAWS Glueに新しいストリーミングETL機能を導入
                                                                        • 【レポート】Architecting and Building – ログデータ用のデータレイク&分析環境をクイックに構築するには? #AWSSummit | DevelopersIO

                                                                          はじめに 皆さんこんにちは。石橋です。 2020年9月8日から9月30日までオンラインで視聴可能なクラウドカンファレンス、AWS Summit Online 2020が開催中です!! 本エントリではライブセッション「AAB-03:Architecting and Building - ログデータ用のデータレイク&分析環境をクイックに構築するには?」のレポートをお届けします。 概要 スピーカー アマゾン ウェブ サービス ジャパン株式会社 技術統括本部 ソリューションアーキテクト 下佐粉 昭 アマゾン ウェブ サービス ジャパン株式会社 技術統括本部 ソリューションアーキテクト 野間 愛一郎 セッション概要 ログやデータベースに色々なデータが溜まっている。できればデータを集めて分析したいんだけど、どのようにすれば良いか分からない、という方も多いのではないでしょうか。本セッションでは、架空のお

                                                                            【レポート】Architecting and Building – ログデータ用のデータレイク&分析環境をクイックに構築するには? #AWSSummit | DevelopersIO
                                                                          • AWS GlueでS3に入っているデータを加工してみた - サーバーワークスエンジニアブログ

                                                                            2017年12月から東京リージョンでも使用可能になったAWS Glue。データの加工や収集ができるともっぱらの噂ですが、どんなことに使えるんだろう・・・? ということで、S3に保存したデータを、Glueを使って加工してみました、というブログです。 はじめに 4月は花見で酒が飲めるぞ、5月は何で酒が飲めるんだっけ・・・? 技術1課の原です。 昨年発表されたAWS Glue。どんな内容の機能かというと・・・ AWS Glue は、お客様による分析のためのデータの準備とロードが簡単になる、新しい完全マネージド型の ETL (Extract=抽出、Transform=変換・加工、Load=データのロード) サービスです。AWS Glue はサーバーレスであるため、インフラストラクチャの購入、設定、管理は不要です。 AWS マネジメントコンソールから、わずか数クリックで ETL ジョブを作成し、実行

                                                                              AWS GlueでS3に入っているデータを加工してみた - サーバーワークスエンジニアブログ
                                                                            • AWS Glueの単体テスト環境の構築手順 | フューチャー技術ブログ

                                                                              1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 FROM centos:7 # https://omohikane.com/centos7_docker_python36/ RUN yum update -y \ && yum install -y gcc gcc-c++ make openssl-devel readline-devel zlib-devel wget curl unzip vim epel-release git \ && yum install -y vim-e

                                                                                AWS Glueの単体テスト環境の構築手順 | フューチャー技術ブログ
                                                                              • Introducing Amazon S3 shuffle in AWS Glue | Amazon Web Services

                                                                                AWS Big Data Blog Introducing Amazon S3 shuffle in AWS Glue Nov 2022: Newer version of the product is now available to be used for this post. AWS Glue is a serverless data integration service that makes it easy to discover, prepare, and combine data for analytics, machine learning (ML), and application development. In AWS Glue, you can use Apache Spark, which is an open-source, distributed process

                                                                                  Introducing Amazon S3 shuffle in AWS Glue | Amazon Web Services
                                                                                • [新機能] AWS Glue 「Glue Version 2.0」のPythonモジュールの更新、pip3によるモジュールインストールがサポートされました! | DevelopersIO

                                                                                  先日の[新機能] AWS Glue 「Glue Version 2.0」のSpark ETL ジョブの開始時間が10倍速く、最小の請求時間は1分になりました!にて、「Glue Version 2.0」のSparkジョブの利用方法と起動時間について実際に確認してみした。 本日は、引き継き、「Glue Version 2.0」の新機能である、Pythonモジュールの更新、Pythonパッケージインストーラー(pip3)によるモジュールインストールの方法について実際に確認してみます。 ジョブレベルでの追加のPythonモジュールの指定のサポート Glueバージョン2.0では、ジョブレベルで追加のPythonモジュールまたは異なるバージョンを提供することもできます。この--additional-python-modulesオプションをコンマ区切りのPythonモジュールのリストと共に使用して、新し

                                                                                    [新機能] AWS Glue 「Glue Version 2.0」のPythonモジュールの更新、pip3によるモジュールインストールがサポートされました! | DevelopersIO

                                                                                  新着記事