Glueの人気記事 50件 - はてなブックマーク

1 - 40 件 / 50件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

Glueの検索結果1 - 40 件 / 50件

Glueに関するエントリは50件あります。 aws、 AWS、データなどが関連タグです。人気エントリには『ソーシャルゲームの運用に欠かせないデータ分析基盤の作り方』などがあります。

ソーシャルゲームの運用に欠かせないデータ分析基盤の作り方
- 245 users
- blog.applibot.co.jp
- テクノロジー
- 2019/05/31
はじめに初めまして、バックエンドエンジニアの伊藤皓程です。2015年にサイバーエージェントに入社してからソーシャルゲーム2本、その後アドテクで広告配信システムの開発に携わりました。以前のプロジェクトではデイリーで数TBのログを収集と分析を行なっていた経験があり、また個人でAWS AthenaのTypeScript・Node.js用のクライアントライブラリ1を公開しています。今回は今年にリリースしたアプリボットの新データ分析基盤についてご紹介したいと思います。経緯アプリボットではゲームの運用の改善のためにユーザの行動ログの分析に力をいれており、Redshiftを利用したデータ分析基盤2がありました。一方でゲームの運用年数や運用タイトルの増加などにより以下のような課題がありました。 Redshiftのストレージ容量の枯渇デイリーのレポート集計バッチの実行時間の増加データ分析基盤の運用
Athena+Embulk+BigQueryによるアプリケーションログの分析環境構築
- 85 users
- techblog.finatext.com
- テクノロジー
- 2021/03/18
はじめにこんにちは、Finatextで証券プラットフォーム（Brokerage as a Service、以下BaaS）の開発に携わっている石橋（@bashi0501）です。過去のFinatextテックブログではTerraform、CDKとIaCをテーマにした記事しか書いたことがなかったのですが、今回はログの分析活用をテーマとします。概要弊社の証券事業ではECSによるワークロードを組んでいます。本テーマのアプリケーションログについては標準出力したものをawslogsログドライバーが回収してCloudWatch Logsに送信しています。ログの検索という観点ではCloudWatch Logs Insightsというサービスでかなりリッチにフィルターや集計を行うことができるのですが、ログデータを元にしたユーザーのファネル分析や業務改善（後述します）に活かしていきたいという意図があるため、マ
- bigquery
- あとで読む
- embulk
- firehose
- finatext
- ログ
- Athena
- logging
- aws
- log
AWS GlueからAWS Batchにしたことで費用を75%削減した - Classi開発者ブログ
- 73 users
- tech.classi.jp
- テクノロジー
- 2023/08/03
こんにちは、最近データエンジニア業を多くやっているデータサイエンティストの白瀧です。これまでClassiのデータ基盤は、Reverse ETLをしたり監視システムを導入したりとさまざまな進化をしてきました。しかし、Classiプロダクトが発展するとともにデータ量が増加し、これまでのデータ基盤では耐えられない状態に近づいてきました。そこでデータ基盤の一部（DBからのExportを担う部分）のリアーキテクチャを実施したので、この記事で紹介したいと思います。概要 Classiのデータ基盤では、Amazon RDSからAmazon S3へJSONで出力し、その後GCS→BigQueryという流れでデータを送り、BigQueryからもBIツールやReverse ETLなどで使っています。詳細は、Classiのデータ分析基盤であるソクラテスの紹介 - Classi開発者ブログを参照してください。
[新機能]Amazon Athena ルールベースでパーティションプルーニングを自動化する Partition Projection の徹底解説 | DevelopersIO
- 52 users
- dev.classmethod.jp
- テクノロジー
- 2020/06/28
[新機能]Amazon Athena ルールベースでパーティションプルーニングを自動化する Partition Projection の徹底解説 Partition Projection（パーティション射影）は、テーブル定義で指定したパーティションキーのルールやフォーマットからパーティションを計算し、パーティションプルーニングを自動化します。パフォーマンスの向上やパーティション管理の自動化などインパクトがある新機能なので、実際の動作を確認しつつ、ユースケースについて解説します。用語の補足：パーティションプルーニングとは、一定の期間（年、月、日）やキー情報に基づき、データを分割管理したデータをクエリする際に、範囲外のデータスキャンを避ける仕組みを表します。 Glueパーティションの課題従来のGlueパーティションは、メタデータストアがパーティション情報を保持しているので、データストア（S
- Athena
- aws
- あとで読む
- データ

AWS再入門ブログリレー AWS Glue編 | DevelopersIO
- 46 users
- dev.classmethod.jp
- テクノロジー
- 2019/07/19
当エントリは弊社コンサルティング部による『AWS 再入門ブログリレー 2019』の14日目のエントリです。このブログリレーの企画は、普段AWSサービスについて最新のネタ・深い/細かいテーマを主に書き連ねてきたメンバーの手によって、今一度初心に返って、基本的な部分を見つめ直してみよう、解説してみようというコンセプトが含まれています。 AWSをこれから学ぼう！という方にとっては文字通りの入門記事として、またすでにAWSを活用されている方にとってもAWSサービスの再発見や2019年のサービスアップデートのキャッチアップの場となればと考えておりますので、ぜひ最後までお付合い頂ければ幸いです。では、さっそくいってみましょう。14日目のテーマは『AWS Glue』です。目次 AWS Glueとは AWS Glueの概念・構成要素データストア、データソース、データターゲットデータカタログクロ
[アップデート] 1行たりともコードは書かない！AWS GlueでストリーミングETLが可能になりました | DevelopersIO
- 46 users
- dev.classmethod.jp
- テクノロジー
- 2020/04/30
先日のアップデートで AWS Glue がストリーミング ETL をサポートするようになりました！ AWS Glue now supports serverless streaming ETL New – Serverless Streaming ETL with AWS Glue なにが嬉しいのかまず、AWS Glue？ナニソレ？という方は、是非、以下の再入門ブログをお読みください。 AWS Glue はフルマネージドでサーバーレスな ETL（抽出/変換/ロード）サービスですが、これまでデータソースとしては S3、RDS、Redshift・・・etc といったデータストレージのみが対象でした。そのため、Kinesis Data Streams や Apache Kafka といったストリーミングデータに対して Glue を組み込んだ ETL 処理は出来ませんでした。従来であれば、例え
- Glue
- aws
- aws_Glue
- ETL
- あとで読む
- data
AWS Glueを使った Serverless ETL の実装パターン
- 42 users
- speakerdeck.com/seiichi1101
- テクノロジー
- 2021/07/30
本セッションでは、「AWSを使ってサーバーレスなETL処理をしたいけど、どうやっていいか分からない？」といった方に向けて、AWS Glueと周辺サービスを利用した実装方法（コーディング、テスト、デプロイ、モニタリングなど）を紹介します。
Developers.IO 2019 Tokyoで「Effective Datalake 〜基礎からわかるデータレイクの定義と実践〜」というタイトルで発表してきました #cmdevio | DevelopersIO
- 25 users
- dev.classmethod.jp
- テクノロジー
- 2019/11/04
クラスメソッドの石川です。先日開催いたしましたDevelopers.IO 2019 in TOKYOにお越し頂きましてありがとうございました。表題の通り、データレイクについてお話をさせて頂きました。スライドこちらがスライドになります。こんな事を話してたはじめにデータレイクとは AWS Glue Aamzon Athena / Redshift Spectrum データ設計のベストプラクティス Redshiftからデータレイクの移行 AWS Lake Formation まとめまとめ Glue/Athena/Redshift Spectrumで始まったAWSのデータレイクは、Lake Formationによって統合され大きな進化を遂げました。その過程を私なりの解釈と定義に基づいて、現在に至る基礎的なサービスとその動作原理、データ設計のベストプラクティスについ
- AWS
- あとで読む
AWS Glue DataBrew 基本用語解説と入門チュートリアル実践まとめ | DevelopersIO
- 20 users
- dev.classmethod.jp
- テクノロジー
- 2020/11/17
先日、AWS Glueの新機能としてリリースされた「AWS Glue DataBrew」。「コードを書かずに”データ前処理”を作成・実行可能」な機能、という触れ込みでしたが、ドキュメントには一連の操作や機能を確認出来る「チュートリアル」も用意されています。 Getting started with AWS Glue DataBrew - AWS Glue DataBrew そこで当エントリでは、公式ドキュメントで紹介されているチュートリアルを実践していく上で必要となる用語の理解、及びチュートリアルの実践内容について紹介していきたいと思います。(※なお、チュートリアル本編を試してみたところ、画像キャプチャと情報量が半端無いボリュームになってしまったので、チュートリアル実践内容については章毎にエントリを分けて展開しています。ご了承ください) 目次 AWS Glue DataBrewの基本概念
AWS GlueでApache Sparkジョブをスケーリングし、データをパーティション分割するためのベストプラクティス | Amazon Web Services
- 18 users
- aws.amazon.com
- テクノロジー
- 2019/10/29
Amazon Web Services ブログ AWS GlueでApache Sparkジョブをスケーリングし、データをパーティション分割するためのベストプラクティス AWS GlueはApache Spark ETLジョブでのデータ分析・データ処理を行うために、様々なデータソースから大量のデータセットを準備(抽出および変換)し、ロードするサーバーレスな環境を提供します。この投稿のシリーズでは、Apache SparkアプリケーションとGlueのETLジョブの開発者、ビッグデータアーキテクト、データエンジニア、およびビジネスアナリストが、AWS Glue上で実行するデータ処理のジョブを自動的にスケールするのに役に立つベストプラクティスについて説明します。まず最初の投稿では、データ処理を行うジョブのスケーリングを管理する上で重要な2つのAWS Glueの機能について説明します。1つ目は、
- spark
- AWS Glue
- glue
- ETL
- aws
- apache
- あとで読む
AWS Step Functions と AWS Glue を使用して Amazon DynamoDB テーブルを Amazon S3 にエクスポートする方法 | Amazon Web Services
- 17 users
- aws.amazon.com
- テクノロジー
- 2019/06/06
Amazon Web Services ブログ AWS Step Functions と AWS Glue を使用して Amazon DynamoDB テーブルを Amazon S3 にエクスポートする方法従来の AWS のやり方で、AWS Glue チームが DynamoDB テーブルからネイティブに読み取る AWS Glue クローラおよび AWS Glue ETL ジョブの機能をリリースしたときは、AWS ビッグデータブログで Goodreads はどのように Amazon DynamoDB テーブルを Amazon S3 にオフロードし、Amazon Athena を使用してクエリを実行するのかを公開してから一週間も経っていませんでした。おかげで私はかなりわくわくしていました。コードがより少ないということは、バグもより少ないことを意味します。元のアーキテクチャは少なくとも 18
- Glue
- dynamodb
- s3
- aws
- あとで読む
AWS Glueをローカル環境で実行してみた | DevelopersIO
- 16 users
- dev.classmethod.jp
- テクノロジー
- 2019/09/10
環境変数を設定します。MavenとSparkのパスは個人の環境に合わせて変更してください。 echo 'export PATH=$HOME/.apache-maven-3.6.2/bin:$PATH' >> ~/.bash_profile echo 'export SPARK_HOME=$HOME/.spark-2.2.1-bin-hadoop2.7' >> ~/.bash_profile echo 'export JAVA_HOME=`/usr/libexec/java_home -v 1.8`' >> ~/.bash_profile Pythonでローカル開発 AWS Glue Pythonライブラリを取得 GitHubからAWS Glue Pythonライブラリをダウンロードします。以降の作業はAWS Glue Pythonライブラリのルートディレクトリで行います。 https://
[AWS Black Belt Online Seminar] 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング資料公開 | Amazon Web Services
- 15 users
- aws.amazon.com
- テクノロジー
- 2021/08/26
Amazon Web Services ブログ [AWS Black Belt Online Seminar] 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング資料公開「猫でもわかる、AWS Glue ETLパフォーマンス・チューニング」の AWS Black Belt Online Seminar についてご案内させて頂きます。今回は「前編(基礎知識編)」と「後編(チューニングパターン編)」の二本立てとなっております。視聴方法: 下記ページにて資料を公開いたしましたので、オンデマンドでご視聴いただけます。 202108 AWS Black Belt Online Seminar 猫でもわかる、AWS Glue ETLパフォーマンス・チューニング前編 202108 AWS Black Belt Online Seminar 猫でもわかる、AWS Glue
- Glue
- ETL
- aws
- あとで読む
AWS Glueのワークフロー機能がリリースされたようなので触ってみました - YOMON8.NET
- 14 users
- yomon.hatenablog.com
- テクノロジー
- 2019/06/13
AWS Summitで発表されたようですが、Glueの標準機能でワークフローが組めるようになったと聞いたので早速試してみました。 Glueでワークフローを組むのは大変だったやってみる CrawlerとJobを用意ワークフロー作成トリガー作成ワークフロー作成ワークフロー完成ワークフロー開始所感 2019/06/21追記 Glueでワークフローを組むのは大変だった Glue主な使い方をざっくり言えば、以下のようになるかと思います。 CrawlerでS3上のファイルやRDBMSを読み込んで、データカタログにスキーマ情報等を取り込む ETL Job(Spark) でデータカタログの情報を利用して変換処理を実行 Crawler で変換後のデータも読み込んでデータカタログに取り込む例えばCSVからParquetに単純変換するだけでも、最低これくらいは組まないといけません。そのためには
- aws
- あとで読む
クラスメソッドデータアナリティクス通信(AWSデータ分析編) – 2022年11月号 | DevelopersIO
- 13 users
- dev.classmethod.jp
- テクノロジー
- 2022/11/07
データアナリティクス事業本部のコンサルティングチームの石川です。コンサルティングチームメンバーを中心に、日々AWSのアナリティクス関連サービスのアップデートを追っています。メンバー内で業務に取り入れられそうかを中心に確認しているので、一部取り上げられていないものもあるかもしれませんが、参考になりましたら幸いです。 Amazon Redshift 新機能・アップデート 2022/10/05 - Amazon Redshift Serverless now supports resource tagging Amazon Redshift Serverlessは、ネームスペースやワークグループなどのリソースのタグ付けをサポートするようになりました。タグ付けにより、リソースにキーと値のペアを割り当て、部門、請求グループ、本番/検証/開発環境ごとにリソースを整理することができます。 Amazon
- AWS
- あとで読む
Athenaを使ったデータ処理基盤の設計 - Speee DEVELOPER BLOG
- 13 users
- tech.speee.jp
- テクノロジー
- 2020/11/10
こんにちは。UZOUのプロダクト開発をしているエンジニアの@kanga333です。 UZOUでは広告データの集計の一部にAmazon Athenaを採用しています。この記事ではUZOUにおけるAthenaを使ったデータ処理基盤の設計について紹介したいと思います。全体構成データ処理基盤の全体構成は次のようになっています。以後はそれぞれのコンポーネントについて順次紹介していきます。 FleuntdによるS3への集約 UZOUでは特にFluentdアグリゲータのような中継サーバは設けていません。広告配信サーバに常駐するFluentdがログを直接S3にプットしています。以下はFluentdのS3 output部分の設定の一部抜粋です。 <buffer time> @type file timekey 60m </buffer> path example_table/dt=%Y%m%d/h
- aws
Athenaで気軽にS3のデータを集計する - Qiita
- 10 users
- qiita.com/ryo0301
- テクノロジー
- 2021/03/14
S3のJSONを気軽にAthenaで集計したいと思い、安く済ます方法を調べた。事前の印象では結構なお値段かかってしまうものだと思っていたが、小さいデータを最低コストで集計する分にはかなり安く済みそうだった。ということで、ここでやりたいのは、 S3の小さいデータを気軽に安く SQLで集計するということで、RDSなど立てるのはもってのほかである。前提知識パーティションデータをパーティション分割することで、各クエリでスキャンするデータの量を制限し、パフォーマンスの向上とコストの削減を達成できます。Athena では、データのパーティション分割に Hive を使用します。すべてのキーでデータをパーティション化できます。一般的な方法では、時間に基づいてデータをパーティション分割します。これにより、通常、複数レベルのパーティション構成となります。たとえば、1 時間ごとに配信されるデータ
- aws
- あとで読む
404 Page
- 10 users
- www.xspdf.com
- テクノロジー
- 2020/09/24
XsPDF.com is professional provider of PDF and Excel document, OCR text recognition, available for ASP.NET AJAX, Windows Forms as well as WPF. We are dedicated to provide powerful & profession PDF document components for creating, processing, converting documents(contains text, image, shape, table, barcode, chart) and more. Also provide wonderful Excel spreedsheets control for generating, loading,
- aws
AWS、自然言語による指示で面倒だったETLスクリプトを自動生成してくれる「Amazon Q data integration in AWS Glue」プレビュー公開
- 8 users
- www.publickey1.jp
- テクノロジー
- 2024/02/01
AWS、自然言語による指示で面倒だったETLスクリプトを自動生成してくれる「Amazon Q data integration in AWS Glue」プレビュー公開 AWSは、ファイルやデータベースなどのデータソースからデータウェアハウスへデータを集積する際のデータ変換や転送処理などのスクリプトを、自然言語による説明から自動的に生成してくれる新サービス「Amazon Q data integration in AWS Glue」のプレビュー公開を発表しました。 Amazon Qは、昨年（2023年）11月に開催されたイベント「AWS re:Invent 2023」で発表された生成AIサービスです。このAmazon QをETLサービスであるAWS Glueと統合することも、AWS re:Invent 2023で予告されていました。参考：［速報］AWS、Copilot対抗となる「Amazo
- techfeed
- aws
- あとで読む
- software
AWS Glue visual ETL now supports new native Amazon Redshift capabilities
- 7 users
- aws.amazon.com
- テクノロジー
- 2023/04/11
AWS Glue Studio now supports new native Amazon Redshift connector capabilities: browse Amazon Redshift tables directly in Glue Studio, add native Redshift SQL, execute common operations while writing to Amazon Redshift including drop, truncate, upsert, create or merge. AWS Glue Studio offers a visual extract-transform-and-load (ETL) interface that helps ETL developers to author, run, and monitor A
- glue
- aws
New book published: Serverless ETL and Analytics with AWS Glue
- 7 users
- medium.com/@moomindani
- テクノロジー
- 2022/08/31
Want to learn how to integrate different data sources and build data platform on AWS? Here’s a new book for you! Serverless ETL and Analytics with AWS GlueWe are happy to publish the new book today! Fortunately I had an opportunity to co-author a book about AWS Glue with five talented engineers; Vishal, Subramanya, Tom, Albert, and Ishan, and publish this book with Packt. This book is the only one
- 書籍
- あとで読む
AthenaでHIVE_PARTITION_SCHEMA_MISMATCHが発生 GlueカタログのTableとPartitionの間のスキーマに不整合直して解消 - YOMON8.NET
- 6 users
- yomon.hatenablog.com
- テクノロジー
- 2019/06/12
掲題のエラーに当たってサポートに対応教えてもらったのでメモ。事象原因パーティションの例テーブルのスキーマパーティション毎のスキーマ対応参考事象 CSVをGlueを使ってパーティション分割して、AthenaでプレビューしてみたらHIVE_PARTITION_SCHEMA_MISMATCHというエラーが発生しました。 SELECT * FROM "tablename" limit 10; Your query has the following error(s): HIVE_PARTITION_SCHEMA_MISMATCH: There is a mismatch between the table and partition schemas. The types are incompatible and cannot be coerced. The column 'drop
- AWS
AWS Glueの開発エンドポイントがそこそこお高いのでローカル開発環境を用意しました | フューチャー技術ブログ
- 6 users
- future-architect.github.io
- テクノロジー
- 2019/11/01
はじめにこんにちは。TIG DXチームの村瀬です。 AWS Glue利用していますか？ETL処理をする上で大変便利ですよね。しかしながら開発に必要不可欠な開発エンドポイントが少々お高く、もう少し安価に利用できればなーと思っていたところ、さすがAWSさん素敵なリリースをしてくれました。 https://aws.amazon.com/jp/about-aws/whats-new/2019/08/aws-glue-releases-binaries-of-glue-etl-libraries-for-glue-jobs/ AWS Glueとは過去のこちらの記事もご参考ください。 5TB/日のデータをAWS Glueでさばくためにやったこと（概要編 5TB/日のデータをAWS Glueでさばくためにやったこと（性能編）ローカルPCの環境を汚さない為に作業を開始する前に確認したところ、Glue
- aws
[新機能] AWS Glue 「Glue Version 2.0」のSpark ETL ジョブの開始時間が10倍速く、最小の請求時間は1分になりました！ | DevelopersIO
- 6 users
- dev.classmethod.jp
- テクノロジー
- 2020/08/12
新たにリリースされた「Glue Version 2.0」では、Sparkジョブの開始時間が10倍速く、最低10分ではなく最低1分の1秒単位で請求になります。インタラクティブなマイクロバッチをより素早くコスト効率よく実行できるようになりました。さらに新しいPythonモジュールの追加・更新、Pythonパッケージインストーラー（pip3）を使用して追加のモジュールをインストールもサポートされました。本日は、「Glue Version 2.0」のSparkジョブの利用方法と起動時間について実際に確認してみます。 AWSJ亀田さんの記事ですが、「世界の亀田さん」なので、執筆時点では英語のみです。新しい Glue Version 2.0 - Spark ETL ジョブ Glue Version 2.0 - Spark ETL ジョブの選択 Spark ETL ジョブでは、新しいSaprk 2.
- AWS
AWS Glueで複雑な処理を開発するときのTips | フューチャー技術ブログ
- 6 users
- future-architect.github.io
- テクノロジー
- 2021/10/13
はじめにこんにちは。TIGの藤田です。 Python連載の8日目として、PySparkを使用したGlueジョブ開発のお話をします。 ETLツールとして使用されるAWS Glueですが、業務バッチで行うような複雑な処理も実行できます。また、処理はGlueジョブとして、Apache Spark分散・並列処理のジョブフローに簡単に乗せることができます！特に複雑な処理は、やや割高な開発エンドポイントは使用せず、ローカル端末で、しっかり開発・テストを行いたいですよね。そのためのローカル開発Tipsをご紹介します。内容 Glueジョブの開発と実行概要 Tip1: ローカル環境構築 Tip2: PySpark, SparkSQL開発 Tip3: 単体テスト(pytest) Tip4: データカタログどうする問題 Glueジョブの開発と実行概要ローカル開発の前に、AWS Glueでのジョブ実行方法を
- aws
【電子書籍版】AWSではじめるデータレイク - テッキーメディア - BOOTH
- 6 users
- booth.pm
- テクノロジー
- 2020/07/09
本書の概要「データレイク」は、大量データ分析／生成データの活用を視野に入れた新しいデータストアのかたちです。従来のデータベース／データウェアハウスの範囲に収まらない多様なデータを大量に保管し、高度な統計分析や機械学習に役立つ情報基盤を作ることが可能です。本書ではデータレイクの概念や特徴、必要とされる機能などをいちから解説し、さらにAmazonが運営するパブリッククラウドサービスAWS（Amazon Web Services）で実現する方法を解説します。従来では想定しえなかった大量のデータを確実に保管するため、データレイクの世界ではクラウドのようなサービス型インフラストラクチャの活用が注目されます。さらにAWSではオブジェクトストレージS3上のデータを直接分析するAmazon Athena、データウェアハウスのAmazon Redshift、機械学習を実現するAmazon SageMak
- AWS
Develop and test AWS Glue version 3.0 and 4.0 jobs locally using a Docker container | Amazon Web Services
- 5 users
- aws.amazon.com
- テクノロジー
- 2022/04/15
AWS Big Data Blog Develop and test AWS Glue version 3.0 and 4.0 jobs locally using a Docker container Apr 2023: This post was reviewed and updated with enhanced support for Glue 4.0 Streaming jobs. Jan 2023: This post was reviewed and updated with enhanced support for Glue 3.0 Streaming jobs, ARM64, and Glue 4.0. AWS Glue is a fully managed serverless service that allows you to process data coming
- aws
- あとで読む
入門 Amazon Athena - Qiita
- 5 users
- qiita.com/simonritchie
- テクノロジー
- 2019/10/03
世の中的には分析などをする際にはBigQueryのケースが多いと思いますが、仕事でAmazon Athenaを触るケースが出てきたので、入門としてまとめておきます。 Amazon Athenaとは BigQueryみたく、SQLで大きなデータを集計などできるAWSのサービスです。分析の他にも他のAWSサービスのログ確認などでも使われたりしますが、今回は分析寄りの記事として進めます。 BigQueryと比べて大きく異なる点として、「データをS3に配置する」という点があります（それによるメリットなどは後述）。コストはどうなの？基本的にスキャンサイズのみに課金されます。 Amazon Athena では、実行したクエリに対してのみ料金が発生します。クエリごとにスキャンされたデータの分量に基づいて料金が請求され、1 テラバイトごとに 5 USD が請求されます。 Amazon Athena
- athena
- aws
- qiita
- python
月18万円!AWS Glueの開発エンドポイントで破産しないために - Qiita
- 5 users
- qiita.com/yomon8
- テクノロジー
- 2019/12/11
Glueの開発エンドポイントとは AWS Glueはデータレイクやビッグデータ系の複数の機能を持ったサービスですが、その主な機能の一つに、サーバレスのSparkとして使えるETLジョブ機能があります。 AWS Glueの開発エンドポイントはこのETLジョブの開発を行うための仕組みです。 GlueのETLジョブはサーバーレスで実行されるSparkなので、ETLスクリプトを投入すればジョブを実行はしてくれるのですが、OSにログオンしたり、デバッグをしながら開発することができません。開発エンドポイントがあると、Jupyter NotebookやZeppelinでGlueの管理しているSparkにアクセスしてインタラクティブにコードを実行しながら、開発を進めることができます。図の引用元： https://www.slideshare.net/AmazonWebServicesJapan/aws
- aws
AWS Glueデータカタログのスキーマが後から変更された際の挙動について調べてみた | DevelopersIO
- 5 users
- dev.classmethod.jp
- テクノロジー
- 2019/11/11
Terraformのテンプレート variablesの部分をお好みで変更してください。 # Terraform Setting terraform { required_version = "0.12.6" } # Provider provider "aws" { region = "ap-northeast-1" } # Kinesis Firehose resource "aws_kinesis_firehose_delivery_stream" "firehose_delivery_stream" { name = "${var.firehose_name}" destination = "extended_s3" extended_s3_configuration { bucket_arn = "${aws_s3_bucket.s3_bucket.arn}" buffer_int
- aws
Redshift とデータ連携するサービスをまとめてみた | DevelopersIO
- 4 users
- dev.classmethod.jp
- テクノロジー
- 2021/04/25
はじめにおはようございます、もきゅりんです。皆さん、Redshift とは仲良しでしょうか？まだあまり仲良しではない自分は、Redshift がどのように他サービスとデータ連携するかをまとめてみました。データのロード元、外部データへのクエリ、Redshift へのクエリ、BIツールとの連携という視点でまとめてみました。(まだまだ足りないものもあるかもしれません) 前提として、 Redshift がどんなサービスかはいちおう把握していることは必要です。数百ギガバイトからペタバイト以上の巨大なデータを扱う、クラスター構成、列指向、PostgreSQL 8.0.2に準拠、などの特長ですね。 Redshift については比較的弊社ブログでの記事数も多く、概要については下記ブログも参考になりますので是非どうぞ。 AWS再入門ブログリレー Amazon Redshift編 AWS再入門 A
- Redshift
[アップデート]AWS GlueでのETLワークロードのコスト削減する実行オプション『Flexジョブ』が登場しました | DevelopersIO
- 4 users
- dev.classmethod.jp
- テクノロジー
- 2022/08/10
データアナリティクス事業本部インテグレーション部コンサルティングチーム・新納（にいの）です。 AWS GlueでETLを行っている方に朗報なアップデートです。ETLワークロードのコスト削減可能な新たな実行オプション「Flexジョブ」が使えるようになりました！ Flexジョブとは？専用ではなく予備のコンピューティングリソースを利用してAWS Glueジョブを実行することで、最大34%コストを削減可能な実行オプションです。 2022年8月10日現在、利用可能なリージョンは以下の通り。 Asia Pacific (Tokyo) Asia Pacific (Seoul) Asia Pacific (Mumbai) Asia Pacific (Singapore) Asia Pacific (Sydney) Canada (Central) Europe (Frankfurt) Europe (I
- AWS
- あとで読む
Introducing AWS Glue Auto Scaling: Automatically resize serverless computing resources for lower cost with optimized Apache Spark | Amazon Web Services
- 4 users
- aws.amazon.com
- テクノロジー
- 2022/04/22
AWS Big Data Blog Introducing AWS Glue Auto Scaling: Automatically resize serverless computing resources for lower cost with optimized Apache Spark June 2023: This post was reviewed and updated for accuracy. Data created in the cloud is growing fast in recent days, so scalability is a key factor in distributed data processing. Many customers benefit from the scalability of the AWS Glue serverless
- aws
- あとで読む
Developing, testing, and deploying custom connectors for your data stores with AWS Glue | Amazon Web Services
- 4 users
- aws.amazon.com
- テクノロジー
- 2021/01/21
AWS Big Data Blog Developing, testing, and deploying custom connectors for your data stores with AWS Glue AWS Glue is a serverless data integration service that makes it easy to discover, prepare, and combine data for analytics, machine learning, and application development. AWS Glue already integrates with various popular data stores such as the Amazon Redshift, RDS, MongoDB, and Amazon S3. Organ
- aws
AmazonがAWS Glueに新しいストリーミングETL機能を導入
- 4 users
- www.infoq.com
- テクノロジー
- 2020/08/21
Spring BootによるAPIバックエンド構築実践ガイド第2版何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。この本では、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...
- aws
【レポート】Architecting and Building – ログデータ用のデータレイク＆分析環境をクイックに構築するには？ #AWSSummit | DevelopersIO
- 4 users
- dev.classmethod.jp
- テクノロジー
- 2020/09/09
はじめに皆さんこんにちは。石橋です。 2020年9月8日から9月30日までオンラインで視聴可能なクラウドカンファレンス、AWS Summit Online 2020が開催中です！！本エントリではライブセッション「AAB-03：Architecting and Building - ログデータ用のデータレイク＆分析環境をクイックに構築するには？」のレポートをお届けします。概要スピーカーアマゾンウェブサービスジャパン株式会社技術統括本部ソリューションアーキテクト下佐粉昭アマゾンウェブサービスジャパン株式会社技術統括本部ソリューションアーキテクト野間愛一郎セッション概要ログやデータベースに色々なデータが溜まっている。できればデータを集めて分析したいんだけど、どのようにすれば良いか分からない、という方も多いのではないでしょうか。本セッションでは、架空のお
- aws
- あとで読む
AWS GlueでS3に入っているデータを加工してみた - サーバーワークスエンジニアブログ
- 4 users
- blog.serverworks.co.jp
- テクノロジー
- 2019/08/05
2017年12月から東京リージョンでも使用可能になったAWS Glue。データの加工や収集ができるともっぱらの噂ですが、どんなことに使えるんだろう・・・？ということで、S3に保存したデータを、Glueを使って加工してみました、というブログです。はじめに 4月は花見で酒が飲めるぞ、5月は何で酒が飲めるんだっけ・・・？　技術1課の原です。昨年発表されたAWS Glue。どんな内容の機能かというと・・・ AWS Glue は、お客様による分析のためのデータの準備とロードが簡単になる、新しい完全マネージド型の ETL (Extract=抽出、Transform=変換・加工、Load=データのロード) サービスです。AWS Glue はサーバーレスであるため、インフラストラクチャの購入、設定、管理は不要です。 AWS マネジメントコンソールから、わずか数クリックで ETL ジョブを作成し、実行
- Glue
- AWS
AWS Glueの単体テスト環境の構築手順 | フューチャー技術ブログ
- 4 users
- future-architect.github.io
- テクノロジー
- 2019/12/12
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 FROM centos:7 # https://omohikane.com/centos7_docker_python36/ RUN yum update -y \ && yum install -y gcc gcc-c++ make openssl-devel readline-devel zlib-devel wget curl unzip vim epel-release git \ && yum install -y vim-e
- aws
- python
Introducing Amazon S3 shuffle in AWS Glue | Amazon Web Services
- 4 users
- aws.amazon.com
- テクノロジー
- 2021/11/04
AWS Big Data Blog Introducing Amazon S3 shuffle in AWS Glue Nov 2022: Newer version of the product is now available to be used for this post. AWS Glue is a serverless data integration service that makes it easy to discover, prepare, and combine data for analytics, machine learning (ML), and application development. In AWS Glue, you can use Apache Spark, which is an open-source, distributed process
- aws
[新機能] AWS Glue 「Glue Version 2.0」のPythonモジュールの更新、pip3によるモジュールインストールがサポートされました！ | DevelopersIO
- 3 users
- dev.classmethod.jp
- テクノロジー
- 2020/08/12
先日の[新機能] AWS Glue 「Glue Version 2.0」のSpark ETL ジョブの開始時間が10倍速く、最小の請求時間は1分になりました！にて、「Glue Version 2.0」のSparkジョブの利用方法と起動時間について実際に確認してみした。本日は、引き継き、「Glue Version 2.0」の新機能である、Pythonモジュールの更新、Pythonパッケージインストーラー（pip3）によるモジュールインストールの方法について実際に確認してみます。ジョブレベルでの追加のPythonモジュールの指定のサポート Glueバージョン2.0では、ジョブレベルで追加のPythonモジュールまたは異なるバージョンを提供することもできます。この--additional-python-modulesオプションをコンマ区切りのPythonモジュールのリストと共に使用して、新し
- AWS