タグ

athenaに関するymm1xのブックマーク (21)

  • Amazon Athena にクエリの分析および調整用の視覚的なツールを追加

    Amazon Athena ユーザーは視覚的でインタラクティブなツールを使用して、クエリを分析および調整できるようになりました。クエリの最適化とエラーのデバッグは困難なタスクです。多くの場合、クエリの動作に関する知識と、クエリのロジックを調整するための慎重なアプローチが必要になります。日のリリースにより、Athena コンソールから、エラーのデバッグとパフォーマンスの向上を簡単に実現できるツールでクエリを分析できるようになりました。 クエリがどのように実行されるかを実行前に把握できるように、インタラクティブで視覚的なクエリプランにアクセスできるようになりました。ワンクリックで、クエリプランを生成し、それを使用してクエリの各ステップで処理される演算子、結合、データを調べることができます。クエリの実行後は、クエリレベルの新しい指標として、キューイング、プランニング、実行の各段階で費やされた時

    Amazon Athena にクエリの分析および調整用の視覚的なツールを追加
    ymm1x
    ymm1x 2022/10/09
  • 列指向のデータストレージ形式、Apache Parquetについてもう少しだけ詳しく調べてみた | そう備忘録

    列指向のデータストレージ形式、Apache Parquetについてもう少しだけ詳しく調べてみた by souichirou · 公開済み 2020年8月3日 · 更新済み 2021年7月13日 Apache ParquetCSVとの違い以前のAWS Athenaの記事でCSVとParquetとのファイル形式の違いでSQL実行時のRun Timeとスキャンデータ量にどの程度違いが出るのかを検証した。 CSVで8MByte程のファイルサイズで特定の1列だけを取り出すようなSQLの場合、スキャンデータ量はParquetの方が明らかに少なかった。 AWS Athenaはスキャン量に応じて課金されるのでParquet形式のほうが有利という事になるので、もう少しParquetについて調べてみることにした。 Apache ParquetとはTwitter社とCloudera社(米国のソフトウェア会社)で

    列指向のデータストレージ形式、Apache Parquetについてもう少しだけ詳しく調べてみた | そう備忘録
    ymm1x
    ymm1x 2022/09/23
  • S3バケットのファイルを上書きした際のAthena動作を確認する | DevelopersIO

    S3バケットに置いたCSVファイルやJSONファイルをAmazon Athenaで確認することがあります。 そこでふと気になりました。ファイルを上書き(または削除してから追加)した場合、ちゃんと反映されるのだろうか?)と。 試してみました。 おすすめの方 S3のファイルを上書き(または削除&追加)した際のAthena動作を知りたい方 最初に結論 S3のファイルを上書き(または削除&追加)したとき、新しいファイルの内容が取得できる CSVファイルで試してみる S3バケットへのアップロード(CSV) S3バケットにCSVファイルをアップロードします。 sample.csv time,user,level 2020-11-23,aaa,111 2020-11-23,bbb,333 2020-11-24,aaa,113 2020-11-25,aaa,115 2020-11-25,bbb,334 ア

    S3バケットのファイルを上書きした際のAthena動作を確認する | DevelopersIO
  • AWSに集まったログをどう分析するか NTTドコモのエンジニアが教えるサーバーレスなログ分析基盤

    ログ分析勉強会では、「ログ分析」に関わるすべての技術、事例、知見を共有し、日々の業務に役立てられる情報交換ができる場所を目的として活動。初のオンライン開催となった今回、NTTドコモサービスイノベーション部の千田拓矢氏が、AWS純正サーバーレスなログ分析基盤を構築する方法を解説しました。関連資料はこちら。 AWSのサーバーレスサービスでセキュリティのログ分析 千田拓矢氏:それでは始めたいと思います。AWSのサーバーレスサービスでセキュリティのログ分析をしようという話です。 簡単に自己紹介します。千田と申します。NTTドコモのサービスイノベーション部というR&Dの部署に所属していて、5年目社員です。 基的に普段の業務では、クラウド、AWSGCP、Azureのセキュリティに関わる仕事をしています。機械学習もちょっとわかるくらいに勉強していて、その関連でFPGAとかGPUみたいなハードウェアの

    AWSに集まったログをどう分析するか NTTドコモのエンジニアが教えるサーバーレスなログ分析基盤
  • 重たい集計バッチをAthenaを利用して高速化した話 - Tech Do | メディアドゥの技術ブログ 

    こんにちは、昨年末に新しくノートPCを注文したら年明けに新モデルが発表されてしまったショックを未だ引きずっているエンジニアの回路(@qazx7412)です。 今回は昨年末に取り組んだAthenaを利用した集計バッチの高速化についての話をしようと思います。 あらすじ さて、私が普段関わっている配信システムには「売上集計」と呼ばれている夜間バッチがあります。 これがなにかといえば名前のとおり売上を集計する夜間バッチなのですが、配信システムにはユーザーが購入を行ったときに発行した購入キーとコンテンツIDおよびユーザーIDを紐付けて購入履歴として管理するテーブルがあり、ここから毎晩その日の購入の集計を行います。 実際のものとは異なりますがたとえばこんな感じです。 (purchase_records) key content_id user_id price unixtime - AAAAbbbb

    重たい集計バッチをAthenaを利用して高速化した話 - Tech Do | メディアドゥの技術ブログ 
  • INSERT INTO - Amazon Athena

    ソーステーブルで実行される SELECT クエリステートメント、またはステートメントの一部として提供される VALUES のセットに基づいて、送信先テーブルに新しい行を挿入します。ソーステーブルが CSV や JSON などの形式の基盤データに基づくもので、宛先テーブルが Parquet や ORC など別の形式に基づいている場合は、INSERT INTO クエリを使用して、選択したデータを宛先テーブルの形式に変換できます。 考慮事項と制約事項 Athena で INSERT クエリを使用するときは、以下の点を考慮してください。 Amazon S3 で暗号化された基盤データがあるテーブルに対して INSERT クエリを実行する場合、INSERT クエリが書き込む出力ファイルはデフォルトで暗号化されません。暗号化されたデータを含むテーブルに挿入する場合は、INSERT クエリの結果を暗号化す

  • Amazon Athena で CTAS ステートメントを使用して、コストを削減し、パフォーマンスを向上させる | Amazon Web Services

    Amazon Web Services ブログ Amazon Athena で CTAS ステートメントを使用して、コストを削減し、パフォーマンスを向上させる Amazon Athena は、標準 SQL を使用して Amazon S3 でのデータの分析を簡易化するインタラクティブなクエリサービスです。Athena はサーバーレスであるため、インフラストラクチャの管理は不要であり、実行したクエリにのみ課金されます。Athena は最近、SELECT クエリまたは CREATE TABLE AS SELECT (CTAS) ステートメントの結果を使用するテーブルの作成のサポートをリリースしました。 アナリストは、CTAS ステートメントを使用して、データのサブセットまたは列のサブセット上の既存のテーブルから新しいテーブルを作成することができます。また、Apache Parquet や Apa

    Amazon Athena で CTAS ステートメントを使用して、コストを削減し、パフォーマンスを向上させる | Amazon Web Services
  • Amazon Athena RegexSerDe を利用して ALB ログを探索する(2018年8月版) | DevelopersIO

    はじめに 今回はALBログの最新フォーマットに対応した探索方法をご紹介します。一年前にAmazon Athena RegexSerDe を利用して ALB ログを探索するというブログでALB ログを探索する方法を紹介しましたが、最新のALB ログが探索できないという報告を受けました。確認したところログフォーマット最後に以下の6項目追加されていました。 domain_name chosen_cert_arn matched_rule_priority request_creation_time actions_executed redirect_url 執筆時点では、追加されたフィールドの情報は、以下の英語マニュアルにのみの記載となりますのでご注意ください。 Access Logs for Your Application Load Balancer - Access Log Entries

    Amazon Athena RegexSerDe を利用して ALB ログを探索する(2018年8月版) | DevelopersIO
    ymm1x
    ymm1x 2018/08/15
  • AWS 導入事例:株式会社ナビタイムジャパン | AWS

    AWS 採用を掲げクラウド化を前面に打ち出したところ、インフラ部門に関心を持つエンジニアや配属希望者が急増し、人材確保の悩みが解消されました。また、エンジニアにコスト意識が身につき、モチベーションも高まりました。 位置情報、移動軌跡、経路検索情報などのログを分析する基盤にサーバーレスのクエリサービス Amazon Athena を採用。他社クラウドのビッグデータクエリサービスから乗り換えたことで、Amazon S3 に蓄積していたログを転送する必要がなくなり、インフラコストを 75 %削減しました。また、同時にセキュリティ強化と運用負荷軽減も実現しました。 IT インフラのクラウド化により、リソース調達のリードタイムの短縮やオートスケールが可能になり、降雪時などアクセスが集中するタイミングでの対応力の向上、チャレンジコストの最小化、サービスごとの利用コストの可視化などを実現しています。 コ

    AWS 導入事例:株式会社ナビタイムジャパン | AWS
  • 配列のクエリ - Amazon Athena

    Amazon Athena では、配列の作成、連結、異なるデータ型への変換を実行して、その後それらをフィルタリング、フラット化、および並び替えることができます。

  • 配列での集計関数の使用 - Amazon Athena

    配列内の値を加算するには、次の例のように SUM を使用します。 配列内の複数の行を集計するには、array_agg を使用します。詳細については、サブクエリからの配列の作成を参照してください。 WITH dataset AS ( SELECT ARRAY [ ARRAY[1,2,3,4], ARRAY[5,6,7,8], ARRAY[9,0] ] AS items ), item AS ( SELECT i AS array_items FROM dataset, UNNEST(items) AS t(i) ) SELECT array_items, sum(val) AS total FROM item, UNNEST(array_items) AS t(val) GROUP BY array_items;最後の SELECT ステートメントでは、sum() と UNNEST を使用す

    ymm1x
    ymm1x 2018/03/30
  • Presto で JSON の ARRAY を集計する - Qiita

    効率よい方法ではないですが、Fluentd 経由で S3 に送り込んだ JSON のログを Presto で集計するときにこんなやり方もできるというメモ。 下記のような構造のログが S3 に置いてあり、Hive の external table として raw_impressions というテーブルを定義して読めるようになっているとします。

    Presto で JSON の ARRAY を集計する - Qiita
    ymm1x
    ymm1x 2018/03/30
    “CROSS JOIN UNNEST”
  • Amazon Athena クエリの結果を別のクエリで使用する

    解決方法 Athena クエリの結果を別のクエリで使用するには、次のいずれかの手法を使用します。 CREATE TABLE AS SELECT (CTAS): CTAS クエリ は、別のクエリに含まれる SELECT ステートメントの結果から新しいテーブルを作成します。CTAS は、定期的にクエリしたいデータを変換する場合に便利です。CTAS にはいくつかの制限があります。例えば、新しく指定できるパーティションは最大 100 個です。詳細については、CTAS クエリに関する考慮事項と制約事項を参照してください。例については、CTAS クエリの例を参照してください。 ビューの作成: ビューは、小規模から中規模で変更予定のない、特定のクエリの結果をクエリするのに便利です。詳細については、ビューの使用を参照してください。 WITH 句を使用した複数の SELECT ステートメントの同時実行: W

    Amazon Athena クエリの結果を別のクエリで使用する
  • Amazon Athena で実現する データ分析の広がり

    2017/9-5-7 に開催された db tech showcase の発表スライドです. http://www.db-tech-showcase.com/dbts/tokyo

    Amazon Athena で実現する データ分析の広がり
  • ライブラリ開発屋がAthenaを利用してログの収集分析をやりやすくした話 - woshidan's blog

    この記事はServerless Advent Calender 2017の16日目の記事です。 ライブラリ開発屋として仕事でAthenaを使ってログの収集分析をやりやすくした話をします。 はじめに 普段は開発者としてiOS/Android両対応のモバイルアプリ向けのライブラリの開発やテストをしています。その業務の中でお問い合わせを受けた際、お客さんの状況を聞いてライブラリを修正したり使い方を提案したりして対応させていただくことがあります*1。 その中で、なかなか言葉で状況の説明が難しい場合があり、そういうときは動作検証時のログをいただいて状況の確認をさせていただきます。しかし、いかんせんそういう状況は再現が難しかったりするもので動作検証のログがとれないか試しているうちに時間が経ってしまってもどかしいことが結構ありました。 そこで、なるべく早くお客様に解決方法の提案ができるように、それらしい

    ライブラリ開発屋がAthenaを利用してログの収集分析をやりやすくした話 - woshidan's blog
    ymm1x
    ymm1x 2018/01/22
    クエリの生成もスクリプト化してコストを抑えた, テーブルを分割してパーティション制約を回避
  • Amazon Athena 新しくサポートされた OpenCSVSerDeを使ってみた | Developers.IO

    待望の OpenCSVSerDeが新たにサポートされましたので早速使ってみました。OpenCSVSerDeを利用することで引用符で囲まれた列のデータの取り出しが可能になります。 OpenCSVSerDeとは 最初に「SerDe」とは、Serialize/Deserializeの略で、あらゆるデータを入出力できる形式に変換するためのインタフェースを提供します。そのインタフェースを継承したクラスの一つがOpenCSVSerDeです。 例えば、以下のようなCSVファイルあった場合、LazySimpleSerDeでは、列データに引用符が含まれてしまいます。 "a1","a2","a3","a4" "1","2","abc","def" "a","a1","abc3","ab4" そこで登場したのが、日ご紹介するOpenCSVSerDeです。OpenCSVSerDeは、CSVファイルのすべての列が

    Amazon Athena 新しくサポートされた OpenCSVSerDeを使ってみた | Developers.IO
    ymm1x
    ymm1x 2017/11/24
    “Athenaのクエリー結果で得られたS3ファイルに対して更にクエリーを実行することが可能に”
  • SELECT — User Guide

    ymm1x
    ymm1x 2017/11/16
    Athena のサポートする SELECT 構文
  • 現場で運用する視点から見た Amazon Athena - Qiita

    個人的なプロジェクトも含め、いくつかの現場で Amazon Athena について触れる機会があったので、個人的に思うところについて記載します。 数時間で書いた雑な文章ですが、ご了承ください。 なお、先日リリースされた Amazon Athena API については以下の Qiita に first impression をまとめているので、 API 以外の話題について書きます。 Amazon Athena の API を使ってみた (2017/05) データの設計について Amazon Athena は managed な Presto 環境で、 事前に Presto サーバーの立ち上げなどリソース確保を行わなくても良い データについても、S3 にファイルをアップさえすれば、後付でいかようにでもデータの解析が出来る という手軽さを売りにされています。 これは利点としていっさい間違いではな

    現場で運用する視点から見た Amazon Athena - Qiita
  • Amazon Athena のパフォーマンスチューニング Tips トップ 10 | Amazon Web Services

    Amazon Web Services ブログ Amazon Athena のパフォーマンスチューニング Tips トップ 10 2020/10/13 に、原文の更新に合わせて最新のバージョンにアップデートしました Amazon Athena は、S3 に保存されたデータに対して標準 SQL で簡単に分析を行える、インタラクティブクエリサービスです。Athena はサーバーレスのためインフラ管理の必要がなく、また実行したクエリのぶんだけ料金を支払うかたちになります。Athena は簡単に使えます。Amazon S3 上のデータに対してスキーマを定義し、標準 SQL でクエリを投げるだけです。 このブログポストでは、クエリパフォーマンスを改善するための 10 個の Tips をご紹介します。Tips には、Amazon S3 に置かれたデータに関するものと、クエリチューニングに関するものがあ

    Amazon Athena のパフォーマンスチューニング Tips トップ 10 | Amazon Web Services
  • Amazon Athena: Tipsと機能/サービス/SQLの制限事項 まとめ #reinvent | DevelopersIO

    新サービス Amazon Athenaについて、マニュアルとこれまでの検証結果をベースに、利用するにあたり抑えておいたほうが良い思われる、Tipsや制限事項についてまとめました。 Tips もしかすると役立つかもしれないTipsやトリックを紹介します。 アンダースコアで始まるテーブル名 アンダースコア(_)で始まるテーブル名にしたい場合はテーブル名をバッククォートで囲んでください。 例えば: CREATE EXTERNAL TABLE IF NOT EXISTS `default._users` ( `_id` int, `_name` string, `_created` date ) ... しかし、このテーブルを参照するときはバッククォートを外さないと参照できないのでご注意を。 SELECT * FROM default._users; なお、同じようにデータベース名に同じ指定で可能

    Amazon Athena: Tipsと機能/サービス/SQLの制限事項 まとめ #reinvent | DevelopersIO
    ymm1x
    ymm1x 2017/09/19