athenaの人気記事 66件 - はてなブックマーク

1 - 40 件 / 66件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

athenaの検索結果1 - 40 件 / 66件

athenaに関するエントリは66件あります。 aws、 AWS、ログなどが関連タグです。人気エントリには『AWSに集まったログをどう分析するか　NTTドコモのエンジニアが教えるサーバーレスなログ分析基盤』などがあります。

AWSに集まったログをどう分析するか　NTTドコモのエンジニアが教えるサーバーレスなログ分析基盤
- 286 users
- logmi.jp
- テクノロジー
- 2020/07/29
ログ分析勉強会では、「ログ分析」に関わるすべての技術、事例、知見を共有し、日々の業務に役立てられる情報交換ができる場所を目的として活動。初のオンライン開催となった今回、NTTドコモサービスイノベーション部の千田拓矢氏が、AWS純正サーバーレスなログ分析基盤を構築する方法を解説しました。関連資料はこちら。 AWSのサーバーレスサービスでセキュリティのログ分析千田拓矢氏：それでは始めたいと思います。AWSのサーバーレスサービスでセキュリティのログ分析をしようという話です。簡単に自己紹介します。千田と申します。NTTドコモのサービスイノベーション部というR&Dの部署に所属していて、5年目社員です。基本的に普段の業務では、クラウド、AWS、GCP、Azureのセキュリティに関わる仕事をしています。機械学習もちょっとわかるくらいに勉強していて、その関連でFPGAとかGPUみたいなハードウェアの
- aws
- ログ
- あとで読む
- log
- 分析
- データ分析
- athena
- 運用
- セキュリティ
- Monitoring
ソーシャルゲームの運用に欠かせないデータ分析基盤の作り方
- 245 users
- blog.applibot.co.jp
- テクノロジー
- 2019/05/31
はじめに初めまして、バックエンドエンジニアの伊藤皓程です。2015年にサイバーエージェントに入社してからソーシャルゲーム2本、その後アドテクで広告配信システムの開発に携わりました。以前のプロジェクトではデイリーで数TBのログを収集と分析を行なっていた経験があり、また個人でAWS AthenaのTypeScript・Node.js用のクライアントライブラリ1を公開しています。今回は今年にリリースしたアプリボットの新データ分析基盤についてご紹介したいと思います。経緯アプリボットではゲームの運用の改善のためにユーザの行動ログの分析に力をいれており、Redshiftを利用したデータ分析基盤2がありました。一方でゲームの運用年数や運用タイトルの増加などにより以下のような課題がありました。 Redshiftのストレージ容量の枯渇デイリーのレポート集計バッチの実行時間の増加データ分析基盤の運用
Qiitaのスパム狩りをしたらAutoMLに仕事を奪われた件 - Qiita
- 170 users
- qiita.com/dcm_chida
- テクノロジー
- 2019/12/01
知っている人は知っていると思うが、Qiitaではたびたび大量のスパム記事が投稿されている。深夜24~26時頃に記事一覧を確認してみて欲しい。スパム記事がわんさか出てくるはず。登録したてのQiitaユーザは不安よな。1 ———— @dcm_chida 動きます🧐 はじめにこれはNTTドコモサービスイノベーション部AdventCalendar2019の1日目の記事です。我々の部署では日頃から「KDDCUP2」や「論文読み会」に取り組んでおり、若手から中堅社員まで最先端の技術取得に励んでいます。そうした活動をもっと外部へと発信していこうと始めたのがこのAdventCalendarです。社員一人一人が書いた記事を通して、少しでも多くの方に興味を持って頂ければ幸いです。さて、僕は4年目社員ですがプログラミング初心者の頃から現在に至るまで、Qiitaにはかなりお世話になりました。自分
- 機械学習
- AutoML
- qiita
- あとで読む
- データ分析
- BERT
- spam
- lambda
- データ
- AWS
Amazon Athena を使ったセキュリティログ検索基盤の構築 - クックパッド開発者ブログ
- 108 users
- techlife.cookpad.com
- テクノロジー
- 2019/11/20
こんにちは。技術部セキュリティグループの水谷（@m_mizutani ）です。最近はFGOで一番好きな話がアニメ化され、毎週感涙に咽びながら視聴しています。 TL;DR これまでセキュリティログ検索にGraylogを使っていたが、主に費用対効果の改善のため新しいセキュリティログ検索基盤を検討した自分たちの要件を整理し、Amazon Athenaを利用した独自のセキュリティログ検索基盤を構築したまだ完全に移行はできていないが対象ログを1ヶ月間分（約7.5TB1）保持してもコストは1/10以下である3万円に収まる見込みはじめにセキュリティグループでは日頃、社内ネットワークやPC環境、クラウドサービスに関連するセキュリティアラートに対応するセキュリティ監視業務を継続しておこなっています。アラートに対応する時に頼りになるのはやはり様々なサービスやシステムのログで、そのアラートに関連したログ
- athena
- aws
- ログ
- あとで読む
- security
- log
- セキュリティ
- lambda
- 検索
- cookpad

AWS Data Wranglerを使って、簡単にETL処理を実現する | Amazon Web Services
- 95 users
- aws.amazon.com
- テクノロジー
- 2019/09/25
Amazon Web Services ブログ AWS Data Wranglerを使って、簡単にETL処理を実現する 2019年9月、Github上にAWS Data Wrangler(以下、Data Wrangler)が公開されました。Data Wranglerは、各種AWSサービスからデータを取得して、コーディングをサポートしてくれるPythonのモジュールです。現在、Pythonを用いて、Amazon Athena(以下、Athena)やAmazon Redshift(以下、Redshift)からデータを取得して、ETL処理を行う際、PyAthenaやboto3、Pandasなどを利用して行うことが多いかと思います。その際、本来実施したいETLのコーディングまでに、接続設定を書いたり、各種コーディングが必要でした。Data Wraglerを利用することで、AthenaやAmazo
- aws
- athena
- etl
- あとで読む
- python
- data
- pandas
- CSV
Athena+Embulk+BigQueryによるアプリケーションログの分析環境構築
- 85 users
- techblog.finatext.com
- テクノロジー
- 2021/03/18
はじめにこんにちは、Finatextで証券プラットフォーム（Brokerage as a Service、以下BaaS）の開発に携わっている石橋（@bashi0501）です。過去のFinatextテックブログではTerraform、CDKとIaCをテーマにした記事しか書いたことがなかったのですが、今回はログの分析活用をテーマとします。概要弊社の証券事業ではECSによるワークロードを組んでいます。本テーマのアプリケーションログについては標準出力したものをawslogsログドライバーが回収してCloudWatch Logsに送信しています。ログの検索という観点ではCloudWatch Logs Insightsというサービスでかなりリッチにフィルターや集計を行うことができるのですが、ログデータを元にしたユーザーのファネル分析や業務改善（後述します）に活かしていきたいという意図があるため、マ
- bigquery
- あとで読む
- embulk
- firehose
- finatext
- ログ
- Athena
- logging
- aws
- log
「Athenaで170万円請求」「EC2が復旧できない」　AWSしくじり先生 part.1
- 74 users
- logmi.jp
- テクノロジー
- 2021/01/08
Cloud Operator Days Tokyo は、クラウドの運用者に焦点を当てた技術者向けの新しいテックイベントです。AWS環境の運用を手がけるアイレット株式会社のインフラエンジニア古屋氏が、実際にやってしまったしくじりを紹介。原因と対策を語ります。まずは「Athenaで170万円請求」「EC2が復旧できない」　というしくじりから。（全2回）しくじり先生 on AWS 古屋啓介氏（以下、古屋）：では「しくじり先生 on AWS」ということで、始めたいと思います。よろしくお願いします。今日は、AWS環境を使って日々運用していく中で発生した、しくじり、失敗事例。そしてそのしくじりの原因と、そこから得られた教訓についてお伝えしようと思います。今日このお話を聞いたみなさんの中で「あ、うちの環境どうっだったかな？」と、思われる方もいらっしゃるかもしれません。今日お伝えすることの中で、ちょっ
- aws
- あとで読む
- EC2
- lambda
- 運用
- トラブル
S3データレイクをAWSの分析サービスを使って有効活用する #AWS-06 #AWSSummit | DevelopersIO
- 55 users
- dev.classmethod.jp
- テクノロジー
- 2021/05/16
本記事は、AWS Summit Japan 2021のセッション動画、「AWS-06: 貯めるだけじゃもったいない！AWS 分析サービスを使ったデータレイクの有効活用」のレポート記事です。「データはとりあえずS3に溜めておけ！」とデータレイクっぽいものは作れたけど上手く使いこなせていない方、それなりにいらっしゃるのではないでしょうか？本セッションでぜひAWSの分析サービスの活用術をおさらいしてみてください。概要データの持つ力を活かす方法としてデータレイクがありますが、データレイク上にデータは貯まってきたものの、どう有効活用すればいいか悩んだ経験はないでしょうか？データレイクに存在するデータと分析ツールと組合せ、活用する方法として、“レイクハウスアプローチ”があります。本セッションでは"レイクハウスアプローチ"の考え方を紹介すると共に、どのようなAWSサービスを用いて"レイクハウスアプ
- aws
- s3
- あとで読む
- datalake
[新機能]Amazon Athena ルールベースでパーティションプルーニングを自動化する Partition Projection の徹底解説 | DevelopersIO
- 52 users
- dev.classmethod.jp
- テクノロジー
- 2020/06/28
[新機能]Amazon Athena ルールベースでパーティションプルーニングを自動化する Partition Projection の徹底解説 Partition Projection（パーティション射影）は、テーブル定義で指定したパーティションキーのルールやフォーマットからパーティションを計算し、パーティションプルーニングを自動化します。パフォーマンスの向上やパーティション管理の自動化などインパクトがある新機能なので、実際の動作を確認しつつ、ユースケースについて解説します。用語の補足：パーティションプルーニングとは、一定の期間（年、月、日）やキー情報に基づき、データを分割管理したデータをクエリする際に、範囲外のデータスキャンを避ける仕組みを表します。 Glueパーティションの課題従来のGlueパーティションは、メタデータストアがパーティション情報を保持しているので、データストア（S
- Athena
- aws
- あとで読む
- データ
重たい集計バッチをAthenaを利用して高速化した話 - Tech Do | メディアドゥの技術ブログ
- 47 users
- techdo.mediado.jp
- テクノロジー
- 2020/04/23
こんにちは、昨年末に新しくノートPCを注文したら年明けに新モデルが発表されてしまったショックを未だ引きずっているエンジニアの回路（@qazx7412）です。今回は昨年末に取り組んだAthenaを利用した集計バッチの高速化についての話をしようと思います。あらすじさて、私が普段関わっている配信システムには「売上集計」と呼ばれている夜間バッチがあります。これがなにかといえば名前のとおり売上を集計する夜間バッチなのですが、配信システムにはユーザーが購入を行ったときに発行した購入キーとコンテンツIDおよびユーザーIDを紐付けて購入履歴として管理するテーブルがあり、ここから毎晩その日の購入の集計を行います。実際のものとは異なりますがたとえばこんな感じです。（purchase_records） key content_id user_id price unixtime - AAAAbbbb
- athena
- aurora
- aws
- 技術
- あとで読む
- ブログ
AWS Config の料金がなぜこんなに高い？ Amazon Athena でどのリソースが Config の記録対象になっているか調べてみた | DevelopersIO
- 45 users
- dev.classmethod.jp
- テクノロジー
- 2021/09/25
わたしの検証環境で試していきます。 Config の設定確認 AWS Config 配信チャネルで、出力先の S3 バケットがどこであるか確認しましょう。普段独立したリソースとして意識する機会は少ないと思いますが、マネジメントコンソールで以下から確認できる部分は配信チャネルの設定を表しています。 S3 バケットに格納されたオブジェクトの URI の例は以下です。 s3://バケット名/AWSLogs/アカウント番号/Config/ap-northeast-1/2021/9/24/ConfigSnapshot/ファイル名.json.gz ちょっとした気づきですが、yyyy/mm/dd形式になっていません。2021/09/24のように月や日を 2 桁に揃えてくれるわけでなく、元の数字が 1 桁のままであればそのまま 1 桁です。 Athena のクエリ結果の出力先 S3 バケットの作成今回
- aws
- あとで読む
Amazon Athena を使ったセキュリティログ検索基盤の構築 /seclog-athena
- 44 users
- speakerdeck.com/mizutani
- テクノロジー
- 2020/01/31
とあるQAエンジニアが、マイクロサービスの開発チームと、出会ったーー / Scrum Fest Niigata 2023
AS59128 のフロー情報収集と Amazon Athena での分析 - KMC活動ブログ
- 41 users
- blog.kmc.gr.jp
- テクノロジー
- 2023/12/24
こんにちは、 id:sora_h です。これは KMC Advent Calendar 2023 12 日目の記事です (大遅刻)。 KMC ではインターネット接続手段の 1 つとして AS59128 を 2017 年頃より運用して、部室内のサーバーや一部の部員が利用しています。これまでフロー情報の収集は行ってきませんでしたが、今年、フロー情報の統計を収集して分析を可能にしたため、その実装を軽く紹介します。地味に pmacctd のドキュメントが難解だったので…。経緯 AS59128 は運用初期から複数のトランジットやピア、東西に跨った複数拠点が存在していますが、外部の経路由来の障害や性能劣化についての調査はフロー情報なしで実施していて、特に変化前のトラフィックを確認することがそれなしでは難しくエスパーを繰り返してました。このままでは障害時の対応が手探りで安定運用に支障がある、また (
- BGP
- あとで読む
- aws
- Network
GitHub - multiprocessio/dsq: Commandline tool for running SQL queries against JSON, CSV, Excel, Parquet, and more.
- 36 users
- github.com/multiprocessio
- テクノロジー
- 2022/01/12
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- sql
- json
- csv
- excel
- golang
- tool
- github
- Go
- DB
日々変化するゆるふわフォーマットをBigQueryでおいしく料理する方法。Athenaユーザも必見だよ！ - CARTA TECH BLOG
- 33 users
- techblog.cartaholdings.co.jp
- テクノロジー
- 2020/10/07
3行まとめ背景データの流れそのままコピーするだけのLambda 外部テーブルを使おうゆるふわをゆるふわのまま扱う JSON Linesを1カラムのレコードとして取り込む定期的に外部テーブルにクエリして結果を保存するまとめ 3行まとめ BigQueryはいいぞ外部テーブルはすごいぞ Scheduled Queryも便利だぞこんにちは。ひむ（@himu）です。株式会社fluctでエンジニアとして働いていたり、ボルダリングしたりガチャを回したり健康で文化的な生活をしています。 fluctはインターネット広告プラットフォームのサービスなどを提供しており、毎日億単位の大量のイベントログが発生しています。イベントログには、売上の計算に必要なデータから、アプリケーションを改善する上で必要なデータなど、様々なデータが入り混じっており、情報が追加されることも度々あります。今回は、そんな
- BigQuery
- あとで読む
- GCP
- aws
Amazon Athenaの新しいフェデレーテッド・クエリによる複数データソースの検索 | Amazon Web Services
- 28 users
- aws.amazon.com
- テクノロジー
- 2019/11/28
Amazon Web Services ブログ Amazon Athenaの新しいフェデレーテッド・クエリによる複数データソースの検索現在、企業は構築するアプリケーションに最適にフィットした複数のデータストアを利用しています。例えば、ソーシャルネットワークアプリケーションを構築するような場合は、リレーショナルデータベースよりは Amazon Neptune のようなグラフデータベースの方が多くのケースで最適です。同様に頻繁な反復処理(fast iterations)のために柔軟なスキーマが求められるワークロードには、 Amazon DocumentDB (with MongoDB compatibility) がより適しているでしょう。Amazon.com のCTO/VPである Werner Vogels が述べているように、「複数の明確に異なる要件を満たすことが出来る単一のデータベース
- athena
- aws
- amazon
- あとで読む
- データ
- ブログ
- web
mikanのデータ分析基盤の歴史 - mikan Developers' Blog
- 21 users
- mikan-tech.hatenablog.jp
- テクノロジー
- 2021/02/24
こんにちは、株式会社mikanでデータ分析を担当している @ij_spitz です。データ分析チームのブログも2本目になりますが、今回は前回の記事で少しだけ頭出しをしていたデータ分析基盤の歴史について書いていきます。 ↓前回の記事はこちら mikan-tech.hatenablog.jp 英単語アプリmikanは2014年10月にリリースされたプロダクトでデータ分析基盤も年月を経て変わってきました。その頃と比べると現在はAWSやGCPで分析系のサービスが充実しており、知見も豊富になってきているので、現行の基盤以外は正直参考になりません。また自分たちでもそんなことをしてたのかと疑いたくなるような運用をしていたので、ツッコミを入れつつ、温かい目で見ていただけると幸いです。笑第1世代: Redshift（2014年末 ~ 2019年始め） HTMLでのビジュアライズ（2014年末 ~ 2
- data
- aws
- あとで読む
Athenaのクエリ課金額をSlack通知する - Gunosy Tech Blog
- 19 users
- tech.gunosy.io
- テクノロジー
- 2020/04/28
はじめにこんにちは！DR&MLOps グループの阿部です。 Gunosyには社内警察と呼ばれる人がおり、たとえばデータ可視化の際に円グラフを使うと正しい使い方を教えてくれる、母数という言葉の使い方を正してくれる、方々がいます。今回はAthenaで課金額の高いクエリを投げるとSlackで警告してくれる、Athena課金警察というボットを紹介します。そういえばこんな記事もありました。 data.gunosy.io さあ、高額課金者を晒し上げにしてやりましょう！目次はじめに目次どうやってやるか Lambdaの中身結果悩みまとめどうやってやるか最近 CloudWatch Events で Athenaの Query State 監視に対応したようです。 aws.amazon.com 今回はその機能を使い、Query State に変化があったときに Lambda を呼び出し
- aws
- *program
- golang
- あとで読む
Digdag と Embulk と Athena で作る Gunosy の ELT基盤
- 15 users
- speakerdeck.com/civitaspo
- テクノロジー
- 2019/07/31
生データを最速で取り込むチャレンジ ~LayerXデータ基盤成長物語 part1~ / Building a data infrastructure that captures raw data at the fastest
Query any data source with Amazon Athena’s new federated query | Amazon Web Services
- 13 users
- aws.amazon.com
- テクノロジー
- 2019/11/28
AWS Big Data Blog Query any data source with Amazon Athena’s new federated query Organizations today use data stores that are the best fit for the applications they build. For example, for an organization building a social network, a graph database such as Amazon Neptune is likely the best fit when compared to a relational database. Similarly, for workloads that require flexible schema for fast it
- aws
- あとで読む
Athenaを使ったデータ処理基盤の設計 - Speee DEVELOPER BLOG
- 13 users
- tech.speee.jp
- テクノロジー
- 2020/11/10
こんにちは。UZOUのプロダクト開発をしているエンジニアの@kanga333です。 UZOUでは広告データの集計の一部にAmazon Athenaを採用しています。この記事ではUZOUにおけるAthenaを使ったデータ処理基盤の設計について紹介したいと思います。全体構成データ処理基盤の全体構成は次のようになっています。以後はそれぞれのコンポーネントについて順次紹介していきます。 FleuntdによるS3への集約 UZOUでは特にFluentdアグリゲータのような中継サーバは設けていません。広告配信サーバに常駐するFluentdがログを直接S3にプットしています。以下はFluentdのS3 output部分の設定の一部抜粋です。 <buffer time> @type file timekey 60m </buffer> path example_table/dt=%Y%m%d/h
- aws
知らなかったのは私だけでしょうか･･･。東京リージョンでも Amazon Athena フェデレーテッド・クエリが GA されていました | DevelopersIO
- 12 users
- dev.classmethod.jp
- テクノロジー
- 2021/01/29
え・・・いつからそこに居たの。ずっと待ってたんだよ・・・ということで、ひっそりと東京リージョンでも Amazon Athena の Federated Query が GA されていました。いつから？ 2020年12月16日にドキュメント更新されていたようです。こんな待望のアップデートを 1 ヶ月も見落としていたなんて。。私、アップデート職人だと自負していましたが、これはアップデート職人引退が迫られる事案だと重く受け止めています。。 Amazon Athena Federated Query Amazon Athena のフェデレーテッド・クエリはリレーショナル、非リレーショナル、オブジェクト、およびカスタムのデータソースに格納されているデータに対して SQL クエリを実行できるようになる機能です。フェデレーテッド・クエリについては以下のブログを参照ください。これまで Athen
- AWS
Amazon AthenaでIPレンジを使ってアクセスログを集計したい - hitode909の日記
- 12 users
- blog.sushi.money
- テクノロジー
- 2021/09/05
運用しているウェブアプリケーションへの、Cloudflare経由のリクエスト数はどれくらいあるかな、と調べたくなった。そのさい、ちょっと試行錯誤することになったので記しておく。 CloudflareのIPレンジはこのあたりに記されているので、これと合致するかを調べていけばよさそう。 IP Ranges | Cloudflare https://www.cloudflare.com/ips-v4 以降、アクセスログはS3に置いていて、hostカラムにリクエスト元IPが格納されていて、Amazon AthenaからSELECTできるものとする。また、実際には日付での絞り込みをおこなわないと、全範囲の探索になってしまうので注意。 is_subnet_of Prestoの0.233以降だと、is_subnet_ofという関数が用意されていて、IPレンジ内にIPがあるかを判定できるようだった。
Amazon AthenaのPartition Projectionを使ったALBのアクセスログ解析環境をTerraformで構築する | Recruit Tech Blog
- 11 users
- blog.recruit.co.jp
- テクノロジー
- 2020/07/09
こんにちは。スタディサプリ ENGLISH SREグループの木村です。はじめに障害調査などでALBのアクセスログを解析したいというときが皆あると思います。私はあります。今回はAthenaを使ってALBのログを解析する方法と新機能で発表されたPartition Projectionを利用するとどのようなメリットがあるのか説明したいと思います。 ALBのアクセスログ ALBには標準でアクセスログを出力する機能があり、有効化することで自動でS3にアクセスログを保存することができます。しかし、標準でアクセスログはgz形式で出力されており、通常解析するにはS3からダウンロードをしてきて、その後にgzを解凍してから、別途ツールを使って分析するなどの面倒な作業が発生してしまいます。また、アクセスログはデータが大量になることも多く、DLして利用する場合でも一度に多くの範囲を分析するのは困難です
- athena
- terraform
- aws
「このパラメータストア、誰が使ってるん？」の疑問を解消するための CloudTrail とAthena の使い方 | DevelopersIO
- 10 users
- dev.classmethod.jp
- テクノロジー
- 2020/02/18
「あれ。。このパラメータストア、誰が使ってるんだっけ。」 (なんか最近読んだような入り方ですが…) 今回、SSM パラメータストアを整理する機会がありましたが、使ってるのか、使ってないのか判断に迷うところがあったので、CloudTrail と Athena を使って調査した方法をまとめます。まず CloudTrail だけでやってみる CloudTrail のイベント履歴を開き、[イベント名] [GetParameters] で検索してやると、パラメータストアを取得した履歴が表示されます。ただ、これだとどのパラメータを GetParameters したのか判りません。ここから [イベントの表示] をクリックすると、以下のような詳細が表示され、はじめてパラメータストアの名前が判別できます。正直、これを1件、1件やっていくのは無理ですよね。そうなると、Athena でサクッと検索したくな
- AWS
- あとで読む
Docker のログを columnify で Athena (Presto) に特化した Parquet にする
- 10 users
- abicky.net
- テクノロジー
- 2020/08/26
先日 columnify という、入力データを Parquet フォーマットに変換するツールがリリースされました。 cf. 軽量な Go 製カラムナフォーマット変換ツール columnify を作った話 - Repro Tech Blog また、fluent-plugin-s3 で compressor として columnify をサポートする話が出ています。1 cf. Add parquet compressor using columnify by okkez · Pull Request #338 · fluent/fluent-plugin-s3 個人的に前々から Docker のログを Parquet フォーマットで S3 に put して Athena で検索できると素敵だなと思っていたので喜ばしいことですね！そんなわけで、Docker のログを fluentd log dr
- docker
- あとで読む
Athenaで気軽にS3のデータを集計する - Qiita
- 10 users
- qiita.com/ryo0301
- テクノロジー
- 2021/03/14
S3のJSONを気軽にAthenaで集計したいと思い、安く済ます方法を調べた。事前の印象では結構なお値段かかってしまうものだと思っていたが、小さいデータを最低コストで集計する分にはかなり安く済みそうだった。ということで、ここでやりたいのは、 S3の小さいデータを気軽に安く SQLで集計するということで、RDSなど立てるのはもってのほかである。前提知識パーティションデータをパーティション分割することで、各クエリでスキャンするデータの量を制限し、パフォーマンスの向上とコストの削減を達成できます。Athena では、データのパーティション分割に Hive を使用します。すべてのキーでデータをパーティション化できます。一般的な方法では、時間に基づいてデータをパーティション分割します。これにより、通常、複数レベルのパーティション構成となります。たとえば、1 時間ごとに配信されるデータ
- aws
- あとで読む
【全リージョン対応】CloudTrailのログをAthenaのPartition Projectionなテーブルで作る | DevelopersIO
- 10 users
- dev.classmethod.jp
- テクノロジー
- 2021/02/08
CloudTrailのログを分析するためのAthenaテーブルを作る機会がありましたので、AthenaのPartition Projectionという機能を用いてリージョンごと・時系列ごとでパーティションを分割するように設定してみました。今回はPartition Projectionについてざっくりおさらいして、CloudTrailのPartition ProjectionのサンプルDDLをご紹介します。これまで CloudTrail画面から作成されるデフォルトのDDLを用いてAthenaでテーブルを作成して、 us-east-1 の結果を返すクエリを投げてみます。デフォルトのDDL(クリックで展開) CREATE EXTERNAL TABLE cloudtrail_logs ( eventVersion STRING, userIdentity STRUCT< type: STRI
- cloudtrail
- athena
- aws
Amazon Athena Federated Query経由でAmazon DynamoDBのデータをAmazon QuickSightで可視化するハンズオンの公開 | Amazon Web Services
- 9 users
- aws.amazon.com
- テクノロジー
- 2021/04/26
Amazon Web Services ブログ Amazon Athena Federated Query経由でAmazon DynamoDBのデータをAmazon QuickSightで可視化するハンズオンの公開 Amazon AthenaはS3上に置かれたファイルにクエリ（SQL）を実行できるサーバレスのサービスです。先日GAしたFederated Query機能を利用すると、クエリの範囲をS3に加えて多数のデータソース（例えば他のRDBやAmazon DynamoDB等）に広げ、複数のデータソースにまたがってSQL処理することが可能になります。（Federated Queryの機能説明はこちらにあります）先日(4/17)、「AWSの基礎を学ぼう」というオンライン勉強会に講師として呼んでいただく機会があったので、このFederated Queryを使ったハンズオンキットを作成しました
- DynamoDB
- aws
Partition Projection を使って AWS WAF のログを分析してみた | DevelopersIO
- 7 users
- dev.classmethod.jp
- テクノロジー
- 2020/09/14
Amazon Athena （以降、Athena）の利用料金とパフォーマンスは、スキャン対象のデータ量に比例します。 Athena では、パーティションを追加することによって、スキャン対象のデータ量を絞り、コストを減らしスキャン速度を向上できます。パーティションを追加するには、 ALTER TABLE ADD PARTITION を実行 Glueのクローラで Glue Data Catalog にパーティションを登録といった方法がございますが、これらはクエリを実行する度に実行しなくてはなりません。また、多くのパーティションが存在するケースでは Glue Data Catalog からパーティションを取得する API の呼び出しがクエリパフォーマンスのボトルネックとなる可能性がございました。これらの課題を解決するために Partition Projection を使うことで、パーテ
- aws
- あとで読む
AWS CloudWatch Logs に貯めこんだログをどうにかしようとしてハマった話 - アクトインディ開発者ブログ
- 7 users
- tech.actindi.net
- テクノロジー
- 2019/05/29
こんにちは!!こんにちは!! インフラエンジニアのyamamotoです。 AWS CloudWatch Logs に貯めこんだログを、Kinesis Data Firehose を使って S3 に保管し、Athenaで検索しよう、と思ったらいろいろつまづいたのでまとめてみました。きっかけ当社の新プロジェクトで、ログをどげんかせんといかん、という話に。ひとまず CloudWatch Logs に保存しておいて後でどうにかしようと思ったのですが、検索するにも保管するにも良くないので、S3に保管してAthenaで読めたらいいよねー、ということになりました。しかし CloudWatch Logs のログを S3 に出そうとすると、手動での実行か、Lambdaでゴニョゴニョしないといけなさそうです。もっとスマートに、逐次出力できないものか、と思って調べてみたところ、Kinesis Data
- AWS
- あとで読む
AthenaでHIVE_PARTITION_SCHEMA_MISMATCHが発生 GlueカタログのTableとPartitionの間のスキーマに不整合直して解消 - YOMON8.NET
- 6 users
- yomon.hatenablog.com
- テクノロジー
- 2019/06/12
掲題のエラーに当たってサポートに対応教えてもらったのでメモ。事象原因パーティションの例テーブルのスキーマパーティション毎のスキーマ対応参考事象 CSVをGlueを使ってパーティション分割して、AthenaでプレビューしてみたらHIVE_PARTITION_SCHEMA_MISMATCHというエラーが発生しました。 SELECT * FROM "tablename" limit 10; Your query has the following error(s): HIVE_PARTITION_SCHEMA_MISMATCH: There is a mismatch between the table and partition schemas. The types are incompatible and cannot be coerced. The column 'drop
- AWS
[動画公開] Amazon Athena (Iceberg) x dbt ではじめるデータ分析！ #ちょっぴりDD | DevelopersIO
- 6 users
- dev.classmethod.jp
- テクノロジー
- 2023/09/04
[動画公開] Amazon Athena (Iceberg) x dbt ではじめるデータ分析！ #ちょっぴりDD データアナリティクス事業本部のコンサルティングチームの石川です。AWS主催のオンラインカンファレンス、ちょっぴり DiveDeep する AWS の時間にて「Amazon Athena (Iceberg) x dbt ではじめるデータ分析！」というテーマにて登壇しました。セッション動画と資料が公開されました。セッション概要コンサルティングチームでは、Amazon RedshiftやSnowflakeと「dbt」を用いたサーバレスなデータプラットフォームである「dbt-template」ソリューションと、コンサルティングサービスをご提供しております。今回は、「dbt-template」のAmazon Athena対応で得られた技術調査の結果と、テーブルフォーマット「Iceb
- dbt
- data
- AWS
- あとで読む
列指向のデータストレージ形式、Apache Parquetについてもう少しだけ詳しく調べてみた | そう備忘録
- 6 users
- www.souichi.club
- テクノロジー
- 2021/03/19
列指向のデータストレージ形式、Apache Parquetについてもう少しだけ詳しく調べてみた by souichirou · 公開済み 2020年8月3日 · 更新済み 2021年7月13日 Apache ParquetCSVとの違い以前のAWS Athenaの記事でCSVとParquetとのファイル形式の違いでSQL実行時のRun Timeとスキャンデータ量にどの程度違いが出るのかを検証した。 CSVで８MByte程のファイルサイズで特定の１列だけを取り出すようなSQLの場合、スキャンデータ量はParquetの方が明らかに少なかった。 AWS Athenaはスキャン量に応じて課金されるのでParquet形式のほうが有利という事になるので、もう少しParquetについて調べてみることにした。 Apache ParquetとはTwitter社とCloudera社（米国のソフトウェア会社）で
- api
- tech
- web
Athenaのパーティションを事前に一括作成する方法 | DevelopersIO
- 6 users
- dev.classmethod.jp
- テクノロジー
- 2020/03/31
AthenaでHive互換のパーティションに対応していないログに一括でパーティションを作成します。ALTER TABLEを都度適用する運用負荷が軽減できます。 Hive互換になっていないログなどでは ALTER TABLE ADD PARTITIONを実行する必要があります。新しくデータが保存されたタイミングで作成するのは、運用の中で行うのは面倒です。実はデータがなくでもパーティションを事前に作成しておくことができるので、今回は一括でパーティションを作成するスクリプトを作成してみました。これを使って一年先までのパーティションを作成してみたいと思います。今回はVPCフローログをサンプルデータとして使用します。テーブルを作成 VPCフローログは下記の形式で出力されますので、year/month/day を利用してパーティション分割したいと思います。 bucket_ARN/optional_
- athena
- aws
【電子書籍版】AWSではじめるデータレイク - テッキーメディア - BOOTH
- 6 users
- booth.pm
- テクノロジー
- 2020/07/09
本書の概要「データレイク」は、大量データ分析／生成データの活用を視野に入れた新しいデータストアのかたちです。従来のデータベース／データウェアハウスの範囲に収まらない多様なデータを大量に保管し、高度な統計分析や機械学習に役立つ情報基盤を作ることが可能です。本書ではデータレイクの概念や特徴、必要とされる機能などをいちから解説し、さらにAmazonが運営するパブリッククラウドサービスAWS（Amazon Web Services）で実現する方法を解説します。従来では想定しえなかった大量のデータを確実に保管するため、データレイクの世界ではクラウドのようなサービス型インフラストラクチャの活用が注目されます。さらにAWSではオブジェクトストレージS3上のデータを直接分析するAmazon Athena、データウェアハウスのAmazon Redshift、機械学習を実現するAmazon SageMak
- AWS
入門 Amazon Athena - Qiita
- 5 users
- qiita.com/simonritchie
- テクノロジー
- 2019/10/03
世の中的には分析などをする際にはBigQueryのケースが多いと思いますが、仕事でAmazon Athenaを触るケースが出てきたので、入門としてまとめておきます。 Amazon Athenaとは BigQueryみたく、SQLで大きなデータを集計などできるAWSのサービスです。分析の他にも他のAWSサービスのログ確認などでも使われたりしますが、今回は分析寄りの記事として進めます。 BigQueryと比べて大きく異なる点として、「データをS3に配置する」という点があります（それによるメリットなどは後述）。コストはどうなの？基本的にスキャンサイズのみに課金されます。 Amazon Athena では、実行したクエリに対してのみ料金が発生します。クエリごとにスキャンされたデータの分量に基づいて料金が請求され、1 テラバイトごとに 5 USD が請求されます。 Amazon Athena
- athena
- aws
- qiita
- python
[Amazon Athena]一見json配列に見えるvarcharのデータをパースして集計できる形式に変換する | DevelopersIO
- 5 users
- dev.classmethod.jp
- テクノロジー
- 2020/09/30
データアナリティクス事業本部の貞松です。最近は少々データレイクに想いを馳せています。今回は業務で発生したAmazon Athenaのクエリ集計について、実現したい内容とその実現方法を解説します。集計対象データと実現したい内容集計対象データの中身集計対象のテーブルデータは以下のようなものです。 [{"item_id":"1","score":"0.8351"},{"item_id":"2","score":"0.8026"},{"item_id":"3","score":"0.7885"},{"item_id":"4","score":"0.7789"},{"item_id":"5","score":"0.7699"}] [{"item_id":"3","score":"0.8701"},{"item_id":"5","score":"0.8219"},{"item_id":"7",
Amazon Athena がついにINSERT INTOをサポートしたので実際に試してみました！ | DevelopersIO
- 5 users
- dev.classmethod.jp
- テクノロジー
- 2019/09/20
ついにAmazon Athena がINSERT INTOをサポートしました！これまでは、更新系クエリはCTAS（CREATE TABLE AS）のみでしたが、INSERT INTOによる書き込みクエリがサポートされました。既存のテーブルに対してどのようにデータを追加するのか、どのレベルまでサポートしているのか、気になること満載なので実際に試してみます。 Amazon Athena adds support for inserting data into a table using the results of a SELECT query or using a provided set of values 目次 INSERT INTOのサポート内容構文と例データのファイルフォーマット INSERT INTO ... VALUEの動作を確認パーティションしていないテーブルの検証パー
- AWS
今さらだけど、AWS ELBのログ解析にAthenaを用いたら、簡単で便利だった - Qiita
- 5 users
- qiita.com/kimama-cloud
- テクノロジー
- 2019/07/09
きっかけトラブルの原因を調べるなどの理由で、ELBのアクセスログを解析する必要に迫られることは多いと思います。私は、当初、ログを格納しているS3から、ファイルをLinuxサーバーにダウンロードしてgrepやawkで集計したり、Windows PCに移してExcelのピボットで集計したりしていました。ただ、ログファイルは、ノードや時間ごとに細かく分かれており、意外と手間がかかります。 AWSには、S3上のデータを、S3に格納したままSQLで操作できるAthenaというサービスがあります。このAthenaを使って、ログ解析を試みたところ、非常に簡単で便利でした。 SQLクエリーを工夫することで、毎時ごとのアクセス数なども手軽に集計できます。 ALBとCLB Application Load BalancerとClassic Load Balancerとでは、アクセスログに記録される項目や