並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 66件

新着順 人気順

athenaの検索結果1 - 40 件 / 66件

athenaに関するエントリは66件あります。 awsAWSログ などが関連タグです。 人気エントリには 『AWSに集まったログをどう分析するか NTTドコモのエンジニアが教えるサーバーレスなログ分析基盤』などがあります。
  • AWSに集まったログをどう分析するか NTTドコモのエンジニアが教えるサーバーレスなログ分析基盤

    ログ分析勉強会では、「ログ分析」に関わるすべての技術、事例、知見を共有し、日々の業務に役立てられる情報交換ができる場所を目的として活動。初のオンライン開催となった今回、NTTドコモサービスイノベーション部の千田拓矢氏が、AWS純正サーバーレスなログ分析基盤を構築する方法を解説しました。関連資料はこちら。 AWSのサーバーレスサービスでセキュリティのログ分析 千田拓矢氏:それでは始めたいと思います。AWSのサーバーレスサービスでセキュリティのログ分析をしようという話です。 簡単に自己紹介します。千田と申します。NTTドコモのサービスイノベーション部というR&Dの部署に所属していて、5年目社員です。 基本的に普段の業務では、クラウド、AWS、GCP、Azureのセキュリティに関わる仕事をしています。機械学習もちょっとわかるくらいに勉強していて、その関連でFPGAとかGPUみたいなハードウェアの

      AWSに集まったログをどう分析するか NTTドコモのエンジニアが教えるサーバーレスなログ分析基盤
    • ソーシャルゲームの運用に欠かせないデータ分析基盤の作り方

      はじめに 初めまして、バックエンドエンジニアの伊藤皓程です。2015年にサイバーエージェントに入社してからソーシャルゲーム2本、その後アドテクで広告配信システムの開発に携わりました。以前のプロジェクトではデイリーで数TBのログを収集と分析を行なっていた経験があり、また個人でAWS AthenaのTypeScript・Node.js用のクライアントライブラリ1を公開しています。今回は今年にリリースしたアプリボットの新データ分析基盤についてご紹介したいと思います。 経緯 アプリボットではゲームの運用の改善のためにユーザの行動ログの分析に力をいれており、Redshiftを利用したデータ分析基盤2がありました。一方でゲームの運用年数や運用タイトルの増加などにより以下のような課題がありました。 Redshiftのストレージ容量の枯渇 デイリーのレポート集計バッチの実行時間の増加 データ分析基盤の運用

        ソーシャルゲームの運用に欠かせないデータ分析基盤の作り方
      • Qiitaのスパム狩りをしたらAutoMLに仕事を奪われた件 - Qiita

        知っている人は知っていると思うが、Qiitaではたびたび大量のスパム記事が投稿されている。 深夜24~26時頃に記事一覧を確認してみて欲しい。 スパム記事がわんさか出てくるはず。 登録したてのQiitaユーザは不安よな。1 ———— @dcm_chida 動きます🧐 はじめに これはNTTドコモサービスイノベーション部AdventCalendar2019の1日目の記事です。 我々の部署では日頃から「KDDCUP2」や「論文読み会」に取り組んでおり、若手から中堅社員まで最先端の技術取得に励んでいます。 そうした活動をもっと外部へと発信していこうと始めたのがこのAdventCalendarです。社員一人一人が書いた記事を通して、少しでも多くの方に興味を持って頂ければ幸いです。 さて、僕は4年目社員ですがプログラミング初心者の頃から現在に至るまで、Qiitaにはかなりお世話になりました。 自分

          Qiitaのスパム狩りをしたらAutoMLに仕事を奪われた件 - Qiita
        • Amazon Athena を使ったセキュリティログ検索基盤の構築 - クックパッド開発者ブログ

          こんにちは。技術部セキュリティグループの水谷(@m_mizutani )です。最近はFGOで一番好きな話がアニメ化され、毎週感涙に咽びながら視聴しています。 TL;DR これまでセキュリティログ検索にGraylogを使っていたが、主に費用対効果の改善のため新しいセキュリティログ検索基盤を検討した 自分たちの要件を整理し、Amazon Athenaを利用した独自のセキュリティログ検索基盤を構築した まだ完全に移行はできていないが対象ログを1ヶ月間分(約7.5TB1)保持してもコストは1/10以下である3万円に収まる見込み はじめに セキュリティグループでは日頃、社内ネットワークやPC環境、クラウドサービスに関連するセキュリティアラートに対応するセキュリティ監視業務を継続しておこなっています。アラートに対応する時に頼りになるのはやはり様々なサービスやシステムのログで、そのアラートに関連したログ

            Amazon Athena を使ったセキュリティログ検索基盤の構築 - クックパッド開発者ブログ
          • AWS Data Wranglerを使って、簡単にETL処理を実現する | Amazon Web Services

            Amazon Web Services ブログ AWS Data Wranglerを使って、簡単にETL処理を実現する 2019年9月、Github上にAWS Data Wrangler(以下、Data Wrangler)が公開されました。Data Wranglerは、各種AWSサービスからデータを取得して、コーディングをサポートしてくれるPythonのモジュールです。 現在、Pythonを用いて、Amazon Athena(以下、Athena)やAmazon Redshift(以下、Redshift)からデータを取得して、ETL処理を行う際、PyAthenaやboto3、Pandasなどを利用して行うことが多いかと思います。その際、本来実施したいETLのコーディングまでに、接続設定を書いたり、各種コーディングが必要でした。Data Wraglerを利用することで、AthenaやAmazo

              AWS Data Wranglerを使って、簡単にETL処理を実現する | Amazon Web Services
            • Athena+Embulk+BigQueryによるアプリケーションログの分析環境構築

              はじめにこんにちは、Finatextで証券プラットフォーム(Brokerage as a Service、以下BaaS)の開発に携わっている石橋(@bashi0501)です。過去のFinatextテックブログではTerraform、CDKとIaCをテーマにした記事しか書いたことがなかったのですが、今回はログの分析活用をテーマとします。 概要弊社の証券事業ではECSによるワークロードを組んでいます。本テーマのアプリケーションログについては標準出力したものをawslogsログドライバーが回収してCloudWatch Logsに送信しています。 ログの検索という観点ではCloudWatch Logs Insightsというサービスでかなりリッチにフィルターや集計を行うことができるのですが、ログデータを元にしたユーザーのファネル分析や業務改善(後述します)に活かしていきたいという意図があるため、マ

                Athena+Embulk+BigQueryによるアプリケーションログの分析環境構築
              • 「Athenaで170万円請求」「EC2が復旧できない」 AWSしくじり先生 part.1

                Cloud Operator Days Tokyo は、クラウドの運用者に焦点を当てた技術者向けの新しいテックイベントです。AWS環境の運用を手がけるアイレット株式会社のインフラエンジニア古屋氏が、実際にやってしまったしくじりを紹介。原因と対策を語ります。まずは「Athenaで170万円請求」「EC2が復旧できない」 というしくじりから。(全2回) しくじり先生 on AWS 古屋啓介氏(以下、古屋):では「しくじり先生 on AWS」ということで、始めたいと思います。よろしくお願いします。今日は、AWS環境を使って日々運用していく中で発生した、しくじり、失敗事例。そしてそのしくじりの原因と、そこから得られた教訓についてお伝えしようと思います。 今日このお話を聞いたみなさんの中で「あ、うちの環境どうっだったかな?」と、思われる方もいらっしゃるかもしれません。今日お伝えすることの中で、ちょっ

                  「Athenaで170万円請求」「EC2が復旧できない」 AWSしくじり先生 part.1
                • S3データレイクをAWSの分析サービスを使って有効活用する #AWS-06 #AWSSummit | DevelopersIO

                  本記事は、AWS Summit Japan 2021のセッション動画、「AWS-06: 貯めるだけじゃもったいない!AWS 分析サービスを使ったデータレイクの有効活用」のレポート記事です。 「データはとりあえずS3に溜めておけ!」とデータレイクっぽいものは作れたけど上手く使いこなせていない方、それなりにいらっしゃるのではないでしょうか?本セッションでぜひAWSの分析サービスの活用術をおさらいしてみてください。 概要 データの持つ力を活かす方法としてデータレイクがありますが、データレイク上にデータは貯まってきたものの、どう有効活用すればいいか悩んだ経験はないでしょうか?データレイクに存在するデータと分析ツールと組合せ、活用する方法として、“レイクハウスアプローチ”があります。本セッションでは"レイクハウスアプローチ"の考え方を紹介すると共に、どのようなAWSサービスを用いて"レイクハウスアプ

                    S3データレイクをAWSの分析サービスを使って有効活用する #AWS-06 #AWSSummit | DevelopersIO
                  • [新機能]Amazon Athena ルールベースでパーティションプルーニングを自動化する Partition Projection の徹底解説 | DevelopersIO

                    [新機能]Amazon Athena ルールベースでパーティションプルーニングを自動化する Partition Projection の徹底解説 Partition Projection(パーティション射影)は、テーブル定義で指定したパーティションキーのルールやフォーマットからパーティションを計算し、パーティションプルーニングを自動化します。パフォーマンスの向上やパーティション管理の自動化などインパクトがある新機能なので、実際の動作を確認しつつ、ユースケースについて解説します。 用語の補足:パーティションプルーニングとは、一定の期間(年、月、日)やキー情報に基づき、データを分割管理したデータをクエリする際に、範囲外のデータスキャンを避ける仕組みを表します。 Glueパーティションの課題 従来のGlueパーティションは、メタデータストアがパーティション情報を保持しているので、データストア(S

                      [新機能]Amazon Athena ルールベースでパーティションプルーニングを自動化する Partition Projection の徹底解説 | DevelopersIO
                    • 重たい集計バッチをAthenaを利用して高速化した話 - Tech Do | メディアドゥの技術ブログ

                      こんにちは、昨年末に新しくノートPCを注文したら年明けに新モデルが発表されてしまったショックを未だ引きずっているエンジニアの回路(@qazx7412)です。 今回は昨年末に取り組んだAthenaを利用した集計バッチの高速化についての話をしようと思います。 あらすじ さて、私が普段関わっている配信システムには「売上集計」と呼ばれている夜間バッチがあります。 これがなにかといえば名前のとおり売上を集計する夜間バッチなのですが、配信システムにはユーザーが購入を行ったときに発行した購入キーとコンテンツIDおよびユーザーIDを紐付けて購入履歴として管理するテーブルがあり、ここから毎晩その日の購入の集計を行います。 実際のものとは異なりますがたとえばこんな感じです。 (purchase_records) key content_id user_id price unixtime - AAAAbbbb

                        重たい集計バッチをAthenaを利用して高速化した話 - Tech Do | メディアドゥの技術ブログ 
                      • AWS Config の料金がなぜこんなに高い? Amazon Athena でどのリソースが Config の記録対象になっているか調べてみた | DevelopersIO

                        わたしの検証環境で試していきます。 Config の設定確認 AWS Config 配信チャネルで、出力先の S3 バケットがどこであるか確認しましょう。 普段独立したリソースとして意識する機会は少ないと思いますが、マネジメントコンソールで以下から確認できる部分は配信チャネルの設定を表しています。 S3 バケットに格納されたオブジェクトの URI の例は以下です。 s3://バケット名/AWSLogs/アカウント番号/Config/ap-northeast-1/2021/9/24/ConfigSnapshot/ファイル名.json.gz ちょっとした気づきですが、yyyy/mm/dd形式になっていません。2021/09/24のように月や日を 2 桁に揃えてくれるわけでなく、元の数字が 1 桁のままであればそのまま 1 桁です。 Athena のクエリ結果の出力先 S3 バケットの作成 今回

                          AWS Config の料金がなぜこんなに高い? Amazon Athena でどのリソースが Config の記録対象になっているか調べてみた | DevelopersIO
                        • Amazon Athena を使った セキュリティログ検索基盤の構築 /seclog-athena

                          とあるQAエンジニアが、マイクロサービスの開発チームと、出会ったーー / Scrum Fest Niigata 2023

                            Amazon Athena を使った セキュリティログ検索基盤の構築 /seclog-athena
                          • AS59128 のフロー情報収集と Amazon Athena での分析 - KMC活動ブログ

                            こんにちは、 id:sora_h です。これは KMC Advent Calendar 2023 12 日目の記事です (大遅刻)。 KMC ではインターネット接続手段の 1 つとして AS59128 を 2017 年頃より運用して、部室内のサーバーや一部の部員が利用しています。これまでフロー情報の収集は行ってきませんでしたが、今年、フロー情報の統計を収集して分析を可能にしたため、その実装を軽く紹介します。地味に pmacctd のドキュメントが難解だったので…。 経緯 AS59128 は運用初期から複数のトランジットやピア、東西に跨った複数拠点が存在していますが、外部の経路由来の障害や性能劣化についての調査はフロー情報なしで実施していて、特に変化前のトラフィックを確認することがそれなしでは難しくエスパーを繰り返してました。 このままでは障害時の対応が手探りで安定運用に支障がある、また (

                              AS59128 のフロー情報収集と Amazon Athena での分析 - KMC活動ブログ
                            • GitHub - multiprocessio/dsq: Commandline tool for running SQL queries against JSON, CSV, Excel, Parquet, and more.

                              You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                GitHub - multiprocessio/dsq: Commandline tool for running SQL queries against JSON, CSV, Excel, Parquet, and more.
                              • 日々変化するゆるふわフォーマットをBigQueryでおいしく料理する方法。Athenaユーザも必見だよ! - CARTA TECH BLOG

                                3行まとめ 背景 データの流れ そのままコピーするだけのLambda 外部テーブルを使おう ゆるふわをゆるふわのまま扱う JSON Linesを1カラムのレコードとして取り込む 定期的に外部テーブルにクエリして結果を保存する まとめ 3行まとめ BigQueryはいいぞ 外部テーブルはすごいぞ Scheduled Queryも便利だぞ こんにちは。ひむ(@himu)です。 株式会社fluctでエンジニアとして働いていたり、ボルダリングしたりガチャを回したり健康で文化的な生活をしています。 fluctはインターネット広告プラットフォームのサービスなどを提供しており、毎日億単位の大量のイベントログが発生しています。 イベントログには、売上の計算に必要なデータから、アプリケーションを改善する上で必要なデータなど、様々なデータが入り混じっており、情報が追加されることも度々あります。 今回は、そんな

                                  日々変化するゆるふわフォーマットをBigQueryでおいしく料理する方法。Athenaユーザも必見だよ! - CARTA TECH BLOG
                                • Amazon Athenaの新しいフェデレーテッド・クエリによる複数データソースの検索 | Amazon Web Services

                                  Amazon Web Services ブログ Amazon Athenaの新しいフェデレーテッド・クエリによる複数データソースの検索 現在、企業は構築するアプリケーションに最適にフィットした複数のデータストアを利用しています。例えば、ソーシャルネットワークアプリケーションを構築するような場合は、リレーショナルデータベースよりは Amazon Neptune のようなグラフデータベースの方が多くのケースで最適です。同様に頻繁な反復処理(fast iterations)のために柔軟なスキーマが求められるワークロードには、 Amazon DocumentDB (with MongoDB compatibility) がより適しているでしょう。Amazon.com のCTO/VPである Werner Vogels が述べているように、「複数の明確に異なる要件を満たすことが出来る単一のデータベース

                                    Amazon Athenaの新しいフェデレーテッド・クエリによる複数データソースの検索 | Amazon Web Services
                                  • mikanのデータ分析基盤の歴史 - mikan Developers' Blog

                                    こんにちは、株式会社mikanでデータ分析を担当している @ij_spitz です。 データ分析チームのブログも2本目になりますが、今回は前回の記事で少しだけ頭出しをしていたデータ分析基盤の歴史について書いていきます。 ↓前回の記事はこちら mikan-tech.hatenablog.jp 英単語アプリmikanは2014年10月にリリースされたプロダクトでデータ分析基盤も年月を経て変わってきました。 その頃と比べると現在はAWSやGCPで分析系のサービスが充実しており、知見も豊富になってきているので、現行の基盤以外は正直参考になりません。 また自分たちでもそんなことをしてたのかと疑いたくなるような運用をしていたので、ツッコミを入れつつ、温かい目で見ていただけると幸いです。笑 第1世代: Redshift(2014年末 ~ 2019年始め) HTMLでのビジュアライズ(2014年末 ~ 2

                                      mikanのデータ分析基盤の歴史 - mikan Developers' Blog
                                    • Athenaのクエリ課金額をSlack通知する - Gunosy Tech Blog

                                      はじめに こんにちは!DR&MLOps グループの阿部です。 Gunosyには社内警察と呼ばれる人がおり、たとえばデータ可視化の際に円グラフを使うと正しい使い方を教えてくれる、母数という言葉の使い方を正してくれる、方々がいます。 今回はAthenaで課金額の高いクエリを投げるとSlackで警告してくれる、Athena課金警察というボットを紹介します。 そういえばこんな記事もありました。 data.gunosy.io さあ、高額課金者を晒し上げにしてやりましょう! 目次 はじめに 目次 どうやってやるか Lambdaの中身 結果 悩み まとめ どうやってやるか 最近 CloudWatch Events で Athenaの Query State 監視に対応したようです。 aws.amazon.com 今回はその機能を使い、Query State に変化があったときに Lambda を呼び出し

                                        Athenaのクエリ課金額をSlack通知する - Gunosy Tech Blog
                                      • Digdag と Embulk と Athena で作る Gunosy の ELT基盤

                                        生データを最速で取り込むチャレンジ ~LayerXデータ基盤成長物語 part1~ / Building a data infrastructure that captures raw data at the fastest

                                          Digdag と Embulk と Athena で作る Gunosy の ELT基盤
                                        • Query any data source with Amazon Athena’s new federated query | Amazon Web Services

                                          AWS Big Data Blog Query any data source with Amazon Athena’s new federated query Organizations today use data stores that are the best fit for the applications they build. For example, for an organization building a social network, a graph database such as Amazon Neptune is likely the best fit when compared to a relational database. Similarly, for workloads that require flexible schema for fast it

                                            Query any data source with Amazon Athena’s new federated query | Amazon Web Services
                                          • Athenaを使ったデータ処理基盤の設計 - Speee DEVELOPER BLOG

                                            こんにちは。UZOUのプロダクト開発をしているエンジニアの@kanga333です。 UZOUでは広告データの集計の一部にAmazon Athenaを採用しています。 この記事ではUZOUにおけるAthenaを使ったデータ処理基盤の設計について紹介したいと思います。 全体構成 データ処理基盤の全体構成は次のようになっています。 以後はそれぞれのコンポーネントについて順次紹介していきます。 FleuntdによるS3への集約 UZOUでは特にFluentdアグリゲータのような中継サーバは設けていません。広告配信サーバに常駐するFluentdがログを直接S3にプットしています。 以下はFluentdのS3 output部分の設定の一部抜粋です。 <buffer time> @type file timekey 60m </buffer> path example_table/dt=%Y%m%d/h

                                              Athenaを使ったデータ処理基盤の設計 - Speee DEVELOPER BLOG
                                            • 知らなかったのは私だけでしょうか・・・。東京リージョンでも Amazon Athena フェデレーテッド・クエリが GA されていました | DevelopersIO

                                              え・・・いつからそこに居たの。 ずっと待ってたんだよ・・・ ということで、ひっそりと東京リージョンでも Amazon Athena の Federated Query が GA されていました。 いつから? 2020年12月16日にドキュメント更新されていたようです。 こんな待望のアップデートを 1 ヶ月も見落としていたなんて。。私、アップデート職人だと自負していましたが、これはアップデート職人引退が迫られる事案だと重く受け止めています。。 Amazon Athena Federated Query Amazon Athena のフェデレーテッド・クエリはリレーショナル、非リレーショナル、オブジェクト、およびカスタムのデータソースに格納されているデータに対して SQL クエリを実行できるようになる機能です。フェデレーテッド・クエリについては以下のブログを参照ください。 これまで Athen

                                                知らなかったのは私だけでしょうか・・・。東京リージョンでも Amazon Athena フェデレーテッド・クエリが GA されていました | DevelopersIO
                                              • Amazon AthenaでIPレンジを使ってアクセスログを集計したい - hitode909の日記

                                                運用しているウェブアプリケーションへの、Cloudflare経由のリクエスト数はどれくらいあるかな、と調べたくなった。 そのさい、ちょっと試行錯誤することになったので記しておく。 CloudflareのIPレンジはこのあたりに記されているので、これと合致するかを調べていけばよさそう。 IP Ranges | Cloudflare https://www.cloudflare.com/ips-v4 以降、アクセスログはS3に置いていて、hostカラムにリクエスト元IPが格納されていて、Amazon AthenaからSELECTできるものとする。 また、実際には日付での絞り込みをおこなわないと、全範囲の探索になってしまうので注意。 is_subnet_of Prestoの0.233以降だと、is_subnet_ofという関数が用意されていて、IPレンジ内にIPがあるかを判定できるようだった。

                                                  Amazon AthenaでIPレンジを使ってアクセスログを集計したい - hitode909の日記
                                                • Amazon AthenaのPartition Projectionを使ったALBのアクセスログ解析環境をTerraformで構築する | Recruit Tech Blog

                                                  こんにちは。スタディサプリ ENGLISH SREグループの木村です。 はじめに 障害調査などでALBのアクセスログを解析したいというときが皆あると思います。 私はあります。 今回はAthenaを使ってALBのログを解析する方法と新機能で発表されたPartition Projectionを利用するとどのようなメリットがあるのか説明したいと思います。 ALBのアクセスログ ALBには標準でアクセスログを出力する機能があり、有効化することで自動でS3にアクセスログを保存することができます。 しかし、標準でアクセスログはgz形式で出力されており、通常解析するにはS3からダウンロードをしてきて、その後にgzを解凍してから、別途ツールを使って分析するなどの面倒な作業が発生してしまいます。 また、アクセスログはデータが大量になることも多く、DLして利用する場合でも一度に多くの範囲を分析するのは困難です

                                                    Amazon AthenaのPartition Projectionを使ったALBのアクセスログ解析環境をTerraformで構築する | Recruit Tech Blog
                                                  • 「このパラメータストア、誰が使ってるん?」の疑問を解消するための CloudTrail とAthena の使い方 | DevelopersIO

                                                    「あれ。。このパラメータストア、誰が使ってるんだっけ。」 (なんか最近読んだような入り方ですが…) 今回、SSM パラメータストアを整理する機会がありましたが、使ってるのか、使ってないのか判断に迷うところがあったので、CloudTrail と Athena を使って調査した方法をまとめます。 まず CloudTrail だけでやってみる CloudTrail のイベント履歴を開き、[イベント名] [GetParameters] で検索してやると、パラメータストアを取得した履歴が表示されます。 ただ、これだとどのパラメータを GetParameters したのか判りません。ここから [イベントの表示] をクリックすると、以下のような詳細が表示され、はじめてパラメータストアの名前が判別できます。 正直、これを1件、1件やっていくのは無理ですよね。そうなると、Athena でサクッと検索したくな

                                                      「このパラメータストア、誰が使ってるん?」の疑問を解消するための CloudTrail とAthena の使い方 | DevelopersIO
                                                    • Docker のログを columnify で Athena (Presto) に特化した Parquet にする

                                                      先日 columnify という、入力データを Parquet フォーマットに変換するツールがリリースされました。 cf. 軽量な Go 製カラムナフォーマット変換ツール columnify を作った話 - Repro Tech Blog また、fluent-plugin-s3 で compressor として columnify をサポートする話が出ています。1 cf. Add parquet compressor using columnify by okkez · Pull Request #338 · fluent/fluent-plugin-s3 個人的に前々から Docker のログを Parquet フォーマットで S3 に put して Athena で検索できると素敵だなと思っていたので喜ばしいことですね!そんなわけで、Docker のログを fluentd log dr

                                                        Docker のログを columnify で Athena (Presto) に特化した Parquet にする
                                                      • Athenaで気軽にS3のデータを集計する - Qiita

                                                        S3のJSONを気軽にAthenaで集計したいと思い、安く済ます方法を調べた。 事前の印象では結構なお値段かかってしまうものだと思っていたが、小さいデータを最低コストで集計する分にはかなり安く済みそうだった。 ということで、ここでやりたいのは、 S3の小さいデータを 気軽に 安く SQLで集計する ということで、RDSなど立てるのはもってのほかである。 前提知識 パーティション データをパーティション分割することで、各クエリでスキャンするデータの量を制限し、パフォーマンスの向上とコストの削減を達成できます。Athena では、データのパーティション分割に Hive を使用します。すべてのキーでデータをパーティション化できます。一般的な方法では、時間に基づいてデータをパーティション分割します。これにより、通常、複数レベルのパーティション構成となります。たとえば、1 時間ごとに配信されるデータ

                                                          Athenaで気軽にS3のデータを集計する - Qiita
                                                        • 【全リージョン対応】CloudTrailのログをAthenaのPartition Projectionなテーブルで作る | DevelopersIO

                                                          CloudTrailのログを分析するためのAthenaテーブルを作る機会がありましたので、AthenaのPartition Projectionという機能を用いてリージョンごと・時系列ごとでパーティションを分割するように設定してみました。 今回はPartition Projectionについてざっくりおさらいして、CloudTrailのPartition ProjectionのサンプルDDLをご紹介します。 これまで CloudTrail画面から作成されるデフォルトのDDLを用いてAthenaでテーブルを作成して、 us-east-1 の結果を返すクエリを投げてみます。 デフォルトのDDL(クリックで展開) CREATE EXTERNAL TABLE cloudtrail_logs ( eventVersion STRING, userIdentity STRUCT< type: STRI

                                                            【全リージョン対応】CloudTrailのログをAthenaのPartition Projectionなテーブルで作る | DevelopersIO
                                                          • Amazon Athena Federated Query経由でAmazon DynamoDBのデータをAmazon QuickSightで可視化するハンズオンの公開 | Amazon Web Services

                                                            Amazon Web Services ブログ Amazon Athena Federated Query経由でAmazon DynamoDBのデータをAmazon QuickSightで可視化するハンズオンの公開 Amazon AthenaはS3上に置かれたファイルにクエリ(SQL)を実行できるサーバレスのサービスです。先日GAしたFederated Query機能を利用すると、クエリの範囲をS3に加えて多数のデータソース(例えば他のRDBやAmazon DynamoDB等)に広げ、複数のデータソースにまたがってSQL処理することが可能になります。(Federated Queryの機能説明はこちらにあります) 先日(4/17)、「AWSの基礎を学ぼう」というオンライン勉強会に講師として呼んでいただく機会があったので、このFederated Queryを使ったハンズオンキットを作成しました

                                                              Amazon Athena Federated Query経由でAmazon DynamoDBのデータをAmazon QuickSightで可視化するハンズオンの公開 | Amazon Web Services
                                                            • Partition Projection を使って AWS WAF のログを分析してみた | DevelopersIO

                                                              Amazon Athena (以降、Athena) の利用料金とパフォーマンスは、スキャン対象のデータ量に比例します。 Athena では、パーティションを追加することによって、スキャン対象のデータ量を絞り、コストを減らしスキャン速度を向上できます。 パーティションを追加するには、 ALTER TABLE ADD PARTITION を実行 Glueのクローラで Glue Data Catalog にパーティションを登録 といった方法がございますが、これらはクエリを実行する度に実行しなくてはなりません。 また、多くのパーティションが存在するケースでは Glue Data Catalog からパーティションを取得する API の呼び出しがクエリパフォーマンスのボトルネックとなる可能性がございました。 これらの課題を解決するために Partition Projection を使うことで、パーテ

                                                                Partition Projection を使って AWS WAF のログを分析してみた | DevelopersIO
                                                              • AWS CloudWatch Logs に貯めこんだログをどうにかしようとしてハマった話 - アクトインディ開発者ブログ

                                                                こんにちは!!こんにちは!! インフラエンジニアのyamamotoです。 AWS CloudWatch Logs に貯めこんだログを、Kinesis Data Firehose を使って S3 に保管し、Athenaで検索しよう、と思ったらいろいろつまづいたのでまとめてみました。 きっかけ 当社の新プロジェクトで、ログをどげんかせんといかん、という話に。 ひとまず CloudWatch Logs に保存しておいて後でどうにかしようと思ったのですが、検索するにも保管するにも良くないので、S3に保管してAthenaで読めたらいいよねー、ということになりました。 しかし CloudWatch Logs のログを S3 に出そうとすると、手動での実行か、Lambdaでゴニョゴニョしないといけなさそうです。 もっとスマートに、逐次出力できないものか、と思って調べてみたところ、Kinesis Data

                                                                  AWS CloudWatch Logs に貯めこんだログをどうにかしようとしてハマった話 - アクトインディ開発者ブログ
                                                                • AthenaでHIVE_PARTITION_SCHEMA_MISMATCHが発生 GlueカタログのTableとPartitionの間のスキーマに不整合直して解消 - YOMON8.NET

                                                                  掲題のエラーに当たってサポートに対応教えてもらったのでメモ。 事象 原因 パーティションの例 テーブルのスキーマ パーティション毎のスキーマ 対応 参考 事象 CSVをGlueを使ってパーティション分割して、AthenaでプレビューしてみたらHIVE_PARTITION_SCHEMA_MISMATCHというエラーが発生しました。 SELECT * FROM "tablename" limit 10; Your query has the following error(s): HIVE_PARTITION_SCHEMA_MISMATCH: There is a mismatch between the table and partition schemas. The types are incompatible and cannot be coerced. The column 'drop

                                                                    AthenaでHIVE_PARTITION_SCHEMA_MISMATCHが発生 GlueカタログのTableとPartitionの間のスキーマに不整合直して解消 - YOMON8.NET
                                                                  • [動画公開] Amazon Athena (Iceberg) x dbt ではじめるデータ分析! #ちょっぴりDD | DevelopersIO

                                                                    [動画公開] Amazon Athena (Iceberg) x dbt ではじめるデータ分析! #ちょっぴりDD データアナリティクス事業本部のコンサルティングチームの石川です。AWS主催のオンラインカンファレンス、ちょっぴり DiveDeep する AWS の時間にて「Amazon Athena (Iceberg) x dbt ではじめるデータ分析!」というテーマにて登壇しました。セッション動画と資料が公開されました。 セッション概要 コンサルティングチームでは、Amazon RedshiftやSnowflakeと「dbt」を用いたサーバレスなデータプラットフォームである「dbt-template」ソリューションと、コンサルティングサービスをご提供しております。今回は、「dbt-template」のAmazon Athena対応で得られた技術調査の結果と、テーブルフォーマット「Iceb

                                                                      [動画公開] Amazon Athena (Iceberg) x dbt ではじめるデータ分析! #ちょっぴりDD | DevelopersIO
                                                                    • 列指向のデータストレージ形式、Apache Parquetについてもう少しだけ詳しく調べてみた | そう備忘録

                                                                      列指向のデータストレージ形式、Apache Parquetについてもう少しだけ詳しく調べてみた by souichirou · 公開済み 2020年8月3日 · 更新済み 2021年7月13日 Apache ParquetCSVとの違い以前のAWS Athenaの記事でCSVとParquetとのファイル形式の違いでSQL実行時のRun Timeとスキャンデータ量にどの程度違いが出るのかを検証した。 CSVで8MByte程のファイルサイズで特定の1列だけを取り出すようなSQLの場合、スキャンデータ量はParquetの方が明らかに少なかった。 AWS Athenaはスキャン量に応じて課金されるのでParquet形式のほうが有利という事になるので、もう少しParquetについて調べてみることにした。 Apache ParquetとはTwitter社とCloudera社(米国のソフトウェア会社)で

                                                                        列指向のデータストレージ形式、Apache Parquetについてもう少しだけ詳しく調べてみた | そう備忘録
                                                                      • Athenaのパーティションを事前に一括作成する方法 | DevelopersIO

                                                                        AthenaでHive互換のパーティションに対応していないログに一括でパーティションを作成します。ALTER TABLEを都度適用する運用負荷が軽減できます。 Hive互換になっていないログなどでは ALTER TABLE ADD PARTITIONを実行する必要があります。新しくデータが保存されたタイミングで作成するのは、運用の中で行うのは面倒です。実はデータがなくでもパーティションを事前に作成しておくことができるので、今回は一括でパーティションを作成するスクリプトを作成してみました。これを使って一年先までのパーティションを作成してみたいと思います。 今回はVPCフローログをサンプルデータとして使用します。 テーブルを作成 VPCフローログは下記の形式で出力されますので、year/month/day を利用してパーティション分割したいと思います。 bucket_ARN/optional_

                                                                          Athenaのパーティションを事前に一括作成する方法 | DevelopersIO
                                                                        • 【電子書籍版】AWSではじめるデータレイク - テッキーメディア - BOOTH

                                                                          本書の概要「データレイク」は、大量データ分析/生成データの活用を視野に入れた新しいデータストアのかたちです。従来のデータベース/データウェアハウスの範囲に収まらない多様なデータを大量に保管し、高度な統計分析や機械学習に役立つ情報基盤を作ることが可能です。 本書ではデータレイクの概念や特徴、必要とされる機能などをいちから解説し、さらにAmazonが運営するパブリッククラウドサービスAWS(Amazon Web Services)で実現する方法を解説します。 従来では想定しえなかった大量のデータを確実に保管するため、データレイクの世界ではクラウドのようなサービス型インフラストラクチャの活用が注目されます。さらにAWSではオブジェクトストレージS3上のデータを直接分析するAmazon Athena、データウェアハウスのAmazon Redshift、機械学習を実現するAmazon SageMak

                                                                            【電子書籍版】AWSではじめるデータレイク - テッキーメディア - BOOTH
                                                                          • 入門 Amazon Athena - Qiita

                                                                            世の中的には分析などをする際にはBigQueryのケースが多いと思いますが、仕事でAmazon Athenaを触るケースが出てきたので、入門としてまとめておきます。 Amazon Athenaとは BigQueryみたく、SQLで大きなデータを集計などできるAWSのサービスです。 分析の他にも他のAWSサービスのログ確認などでも使われたりしますが、今回は分析寄りの記事として進めます。 BigQueryと比べて大きく異なる点として、「データをS3に配置する」という点があります(それによるメリットなどは後述)。 コストはどうなの? 基本的にスキャンサイズのみに課金されます。 Amazon Athena では、実行したクエリに対してのみ料金が発生します。クエリごとにスキャンされたデータの分量に基づいて料金が請求され、1 テラバイトごとに 5 USD が請求されます。 Amazon Athena

                                                                              入門 Amazon Athena - Qiita
                                                                            • [Amazon Athena]一見json配列に見えるvarcharのデータをパースして集計できる形式に変換する | DevelopersIO

                                                                              データアナリティクス事業本部の貞松です。最近は少々データレイクに想いを馳せています。 今回は業務で発生したAmazon Athenaのクエリ集計について、実現したい内容とその実現方法を解説します。 集計対象データと実現したい内容 集計対象データの中身 集計対象のテーブルデータは以下のようなものです。 [{"item_id":"1","score":"0.8351"},{"item_id":"2","score":"0.8026"},{"item_id":"3","score":"0.7885"},{"item_id":"4","score":"0.7789"},{"item_id":"5","score":"0.7699"}] [{"item_id":"3","score":"0.8701"},{"item_id":"5","score":"0.8219"},{"item_id":"7",

                                                                                [Amazon Athena]一見json配列に見えるvarcharのデータをパースして集計できる形式に変換する | DevelopersIO
                                                                              • Amazon Athena がついにINSERT INTOをサポートしたので実際に試してみました! | DevelopersIO

                                                                                ついにAmazon Athena がINSERT INTOをサポートしました!これまでは、更新系クエリはCTAS(CREATE TABLE AS)のみでしたが、INSERT INTOによる書き込みクエリがサポートされました。既存のテーブルに対してどのようにデータを追加するのか、どのレベルまでサポートしているのか、気になること満載なので実際に試してみます。 Amazon Athena adds support for inserting data into a table using the results of a SELECT query or using a provided set of values 目次 INSERT INTOのサポート内容 構文と例 データのファイルフォーマット INSERT INTO ... VALUEの動作を確認 パーティションしていないテーブルの検証 パー

                                                                                  Amazon Athena がついにINSERT INTOをサポートしたので実際に試してみました! | DevelopersIO
                                                                                • 今さらだけど、AWS ELBのログ解析にAthenaを用いたら、簡単で便利だった - Qiita

                                                                                  きっかけ トラブルの原因を調べるなどの理由で、ELBのアクセスログを解析する必要に迫られることは多いと思います。 私は、当初、ログを格納しているS3から、ファイルをLinuxサーバーにダウンロードしてgrepやawkで集計したり、Windows PCに移してExcelのピボットで集計したりしていました。 ただ、ログファイルは、ノードや時間ごとに細かく分かれており、意外と手間がかかります。 AWSには、S3上のデータを、S3に格納したままSQLで操作できるAthenaというサービスがあります。このAthenaを使って、ログ解析を試みたところ、非常に簡単で便利でした。 SQLクエリーを工夫することで、毎時ごとのアクセス数なども手軽に集計できます。 ALBとCLB Application Load BalancerとClassic Load Balancerとでは、アクセスログに記録される項目や

                                                                                    今さらだけど、AWS ELBのログ解析にAthenaを用いたら、簡単で便利だった - Qiita

                                                                                  新着記事