並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 10 件 / 10件

新着順 人気順

aws_Glueの検索結果1 - 10 件 / 10件

  • AWS GlueからAWS Batchにしたことで費用を75%削減した - Classi開発者ブログ

    こんにちは、最近データエンジニア業を多くやっているデータサイエンティストの白瀧です。 これまでClassiのデータ基盤は、Reverse ETLをしたり監視システムを導入したりとさまざまな進化をしてきました。しかし、Classiプロダクトが発展するとともにデータ量が増加し、これまでのデータ基盤では耐えられない状態に近づいてきました。 そこでデータ基盤の一部(DBからのExportを担う部分)のリアーキテクチャを実施したので、この記事で紹介したいと思います。 概要 Classiのデータ基盤では、Amazon RDSからAmazon S3へJSONで出力し、その後GCS→BigQueryという流れでデータを送り、BigQueryからもBIツールやReverse ETLなどで使っています。詳細は、Classiのデータ分析基盤であるソクラテスの紹介 - Classi開発者ブログを参照してください。

      AWS GlueからAWS Batchにしたことで費用を75%削減した - Classi開発者ブログ
    • AWS Glue を使用した個人情報の検出・マスキング・編集および Amazon OpenSearch Service へのロード | Amazon Web Services

      ユースケース: OpenSearch Service への読み込み前の個人情報バッチ検出 このアーキテクチャを実装しているお客様は、さまざまな分析を大規模に実行するために、Amazon S3 上にデータレイクを構築しています。このソリューションは、OpenSearch Service へのリアルタイム取り込みが不要で、スケジュールで実行される、またはイベントによってトリガーされるデータインテグレーションツールを使用することを計画しているお客様に適しています。 Amazon S3 にデータレコードが到着する前に、データレイクにすべてのデータストリームを信頼できる形で安全に取り込むための取り込みレイヤーを実装します。 Kinesis Data Streams は、構造化および半構造化データストリームの高速な取り込みのための取り込みレイヤーとして導入されます。これらの例としては、リレーショナルデ

        AWS Glue を使用した個人情報の検出・マスキング・編集および Amazon OpenSearch Service へのロード | Amazon Web Services
      • AWS、自然言語による指示で面倒だったETLスクリプトを自動生成してくれる「Amazon Q data integration in AWS Glue」プレビュー公開

        AWS、自然言語による指示で面倒だったETLスクリプトを自動生成してくれる「Amazon Q data integration in AWS Glue」プレビュー公開 AWSは、ファイルやデータベースなどのデータソースからデータウェアハウスへデータを集積する際のデータ変換や転送処理などのスクリプトを、自然言語による説明から自動的に生成してくれる新サービス「Amazon Q data integration in AWS Glue」のプレビュー公開を発表しました。 Amazon Qは、昨年(2023年)11月に開催されたイベント「AWS re:Invent 2023」で発表された生成AIサービスです。このAmazon QをETLサービスであるAWS Glueと統合することも、AWS re:Invent 2023で予告されていました。 参考:[速報]AWS、Copilot対抗となる「Amazo

          AWS、自然言語による指示で面倒だったETLスクリプトを自動生成してくれる「Amazon Q data integration in AWS Glue」プレビュー公開
        • S3 ExportされたAuroraのデータをAWS Glueを使ってDBに書き戻す - Akatsuki Hackers Lab | 株式会社アカツキ(Akatsuki Inc.)

          Amazon AuroraのS3エクスポート機能 AuroraのS3エクスポート機能は、DBクラスターの現在のデータやスナップショットのデータをS3にApache Parquet形式で出力する機能です。 Apache Parquet形式は、スキーマ情報を内包している・列志向で分析用途にも適している・高効率な圧縮が可能・複雑なデータ構造にも対応しているといった特徴を備えたデータ形式です。AthenaやRedshift、あるいはBigQueryへの取り込みに利用することができ、これらを使ったDB内のデータ分析が可能になります。 高効率さについての実験として、試しに手元の64GBのクラスタースナップショットをS3エクスポートしてみたところ、出力されたParquetファイルの合計サイズは約4GBと、なんと1/16にも圧縮されました。特に毎日何TBもの大容量データをリージョン外に転送するようなケース

            S3 ExportされたAuroraのデータをAWS Glueを使ってDBに書き戻す - Akatsuki Hackers Lab | 株式会社アカツキ(Akatsuki Inc.)
          • AWS Glue × Apache Iceberg で構築する更新可能なデータレイクテーブル

            こんにちは。シンプルフォーム株式会社 にてインフラエンジニアをしています、山岸です。 社内向けに運用しているデータ分析基盤について現状抱えているいくつかの課題を克服すべく、最近は更改に向けた検証に取り組んでいます。今回は取り組みの一つである「AWS Glue と Apache Iceberg によるデータレイクテーブル構築」についてご紹介したいと思います。 概要 当社ではデータ分析基盤の ETL 処理に AWS Glue を使用しています。社内のデータ分析業務等のため、RDS データベース等のデータソースから日次で S3 上に構築された DWH に連携しています。 現行のデータ分析基盤では、DB テーブル上のデータを毎日全件洗い替えています。このような処理方法は ETL 実装や問題発生時の復旧が簡単である一方、ETL 処理のコスト効率が悪く、データ量の増加に伴って処理時間も長くなっていきま

              AWS Glue × Apache Iceberg で構築する更新可能なデータレイクテーブル
            • 生成AIにETLジョブ作らせてみた。-Amazon Q data integration in AWS Glue- - Qiita

              生成AIにETLジョブ作らせてみた。-Amazon Q data integration in AWS Glue-AWSDatabaseglueETL生成AI 1. はじめに ※この記事は、慎重な検証を行った結果に基づくものではなく、参考情報として提供されています。そのため、内容を鵜呑みにせず、自身で確認や検証を行っていただくことをお勧めします。ご理解のほど、よろしくお願いいたします。 Amazon Q data integration in AWS Glueがプレビューされました(2024/01/30)。 Amazon Q とAWS Glueが統合されたことによって、ETLジョブ作成に関する学習時間や労力の削減が期待できます。具体的な機能としては以下の二つです。 i.生成AIに自然言語で質問すると、回答してくれる。 Bedrockベースの生成AIがAWSのドキュメントを参照してより専門的

                生成AIにETLジョブ作らせてみた。-Amazon Q data integration in AWS Glue- - Qiita
              • Best practices for performance tuning AWS Glue for Apache Spark jobs -

                Best practices for performance tuning AWS Glue for Apache Spark jobs Roman Myers, Takashi Onikura, and Noritaka Sekiyama, Amazon Web Services (AWS) December 2023 (document history) AWS Glue provides different options for tuning performance. This guide defines key topics for tuning AWS Glue for Apache Spark. It then provides a baseline strategy for you to follow when tuning these AWS Glue for Apach

                • AWS Glue for Apache Spark が Google BigQuery 向けネイティブ接続を発表

                  AWS Glue for Apache Spark が Google BigQuery へのネイティブ接続をサポートするようになりました。これにより、ユーザーは Apache Spark ライブラリ用の BigQuery コネクタをインストールしたり管理したりすることなく、BigQuery からデータを効率的に読み書きできるようになります。ユーザーは、ノーコードのドラッグアンドドロップで使用できる AWS Glue Studio の視覚的なインターフェイス内で BigQuery をソースまたはターゲットとして追加したり、AWS Glue ETL ジョブスクリプトでコネクタを直接使用したりできるようになりました。この新しいコネクタを AWS Glue の ETL (抽出、変換、ロード) 機能と組み合わせると、ETL パイプラインの作成が容易になり、ETL デベロッパーはデータパイプラインの構

                    AWS Glue for Apache Spark が Google BigQuery 向けネイティブ接続を発表
                  • Get started managing partitions for Amazon S3 tables backed by the AWS Glue Data Catalog | Amazon Web Services

                    AWS Big Data Blog Get started managing partitions for Amazon S3 tables backed by the AWS Glue Data Catalog Large organizations processing huge volumes of data usually store it in Amazon Simple Storage Service (Amazon S3) and query the data to make data-driven business decisions using distributed analytics engines such as Amazon Athena. If you simply run queries without considering the optimal data

                      Get started managing partitions for Amazon S3 tables backed by the AWS Glue Data Catalog | Amazon Web Services
                    • AWS入門ブログリレー2024〜AWS Glue編〜 | DevelopersIO

                      ますます多機能となりAWSにおけるデータ分析を支えてくれているAWS Glueの2024年時点の機能について、入門におすすめのものをご紹介します。 当エントリは弊社AWS事業本部による『AWS 入門ブログリレー 2024』の42日目のエントリです。 このブログリレーの企画は、普段 AWS サービスについて最新のネタ・深い/細かいテーマを主に書き連ねてきたメンバーの手によって、 今一度初心に返って、基本的な部分を見つめ直してみよう、解説してみようというコンセプトが含まれています。 AWS をこれから学ぼう!という方にとっては文字通りの入門記事として、またすでに AWS を活用されている方にとっても AWS サービスの再発見や 2024 年のサービスアップデートのキャッチアップの場となればと考えておりますので、ぜひ最後までお付合い頂ければ幸いです。 では、さっそくいってみましょう。今回のテーマ

                        AWS入門ブログリレー2024〜AWS Glue編〜 | DevelopersIO
                      1