タグ

*dataとawsに関するsh19910711のブックマーク (313)

  • Glue + Athenaのローカル開発環境をOSSで構築(MinIO + Trino + HIVE) | moritalous blog

    この環境をDocker Composeを使い構築します。 環境構築​MinIO​まずはS3を置き換えるMinIOからです。 ポイントは path-styleではなくvirtual-hosted styleを使用するため、MINIO_DOMAIN環境変数をセット他のコンテナから[バケット名].minioで名前解決できるようにhostnameを指定path-styleとvirtual-hosted styleの違いはこちらを参照ください。 version: '3' services: minio: image: quay.io/minio/minio hostname: bucket001.minio restart: always volumes: - ./minio/data:/data environment: - MINIO_DOMAIN=minio command: ["server

    Glue + Athenaのローカル開発環境をOSSで構築(MinIO + Trino + HIVE) | moritalous blog
    sh19910711
    sh19910711 2024/05/28
    "MINIO_DOMAIN環境変数をセット + 他のコンテナから[バケット名].minioで名前解決できるようにhostnameを指定 / Trino: 公式イメージが用意 + 必要なのはMinIOをカタログとして使用するための設定ファイル" 2022
  • S3バケット内のファイル一覧(S3 Inventory)をAthenaを利用して分析する | DevelopersIO

    数千万単位のオブジェクトを配置したS3バケット内に、特定の拡張子のオブジェクトが何点存在するかを簡単に確認する方法がないか調べる機会があり、S3 Inventory機能を利用してファイル一覧を取得し、その結果をAthenaを利用して解析してみたので、その方法をご紹介します。 西澤です。お客様よりお問い合わせをいただき、数千万単位のオブジェクトを配置したS3バケット内に、特定の拡張子のオブジェクトが何点存在するかを簡単に確認する方法がないか調べる機会がありました。aws s3 lsの結果をgrepするっていう気の遠くなるような方法は現実的ではないオブジェクト数だった為、S3 Inventory機能を利用してファイル一覧を取得し、その結果をAthenaを利用して解析してみることにしましたので、その方法をご紹介します。 【新機能】S3 Inventoryを試してみた #reinvent | De

    S3バケット内のファイル一覧(S3 Inventory)をAthenaを利用して分析する | DevelopersIO
    sh19910711
    sh19910711 2024/05/28
    "特定の拡張子のオブジェクトが何点存在するか / aws s3 lsの結果をgrepするっていう気の遠くなるような方法は現実的ではないオブジェクト数 / S3インベントリでは、Apache Hive互換のマニフェストファイルを生成" 2018
  • Redshift Serverless RPUスケールの挙動 - Qiita

    Redshift Serverlessを使用して気づいたポイントについて記す 思ったよりスケールしない Serverlessであり、負荷に応じて自動的にスケールするなら、Base RPUは8(最小値)で良いと考えて設定した。 しかし、実際にQueryを実行すると、非常に実行が遅く、実際に実行時のCloudwatchを見ると全くRPUがスケールしていないことがわかった。 この挙動が疑問に思えたため、以下の試行を行い、挙動を確認した。 (ちなみに試したのは2023年の3月なのでまた挙動は変わっている可能性もある) まず、十分な負荷のかかるようなデータとSQLを準備するのはそれ自体が工数がかかるので、AWSのブログで紹介されているTPC-DSベースのRedshift用のDWHベンチマークを使用することとした https://github.com/awslabs/amazon-redshift-u

    Redshift Serverless RPUスケールの挙動 - Qiita
    sh19910711
    sh19910711 2024/05/24
    "自動的にスケールするなら、Base RPUは8(最小値)で良いと考え / 非常に実行が遅く、実際に実行時のCloudwatchを見ると全くRPUがスケールしていないことがわかった / Cloud-DWB-Derived-from-TPCDS" 2023
  • AWS から OCI に移行してコストを約半額にした話 - Qiita

    OCIについて知らない方向け AWSは知ってるがOCIを知らないという方は取り急ぎ以下のようなページを読むとイメージが掴みやすいかと思いますのでリンクを貼っておきます。 件では細かい用語の違いなどの説明は省略します。 OCIへの移行理由 今回移行した理由はコスト削減が最大の理由でした。 オンプレからAWSに移行したのは3年前の2021年2月で当時のドル円相場は約106円でした。 2021年のAWS移行当時、RDSのReserved InstancesとEC2のSavings Plansを3年で購入していました。(通常は1年などで購入されるケースの方が多いと思いますが、歴史のあるサービスなので急激なリソースの増減はあまり無さそうではと考えたためとなります。結果としては円が強いタイミングで安く買えて助かりました) 移行を検討し始めたのはRI/SPが切れる1年前くらいで、その時点のドル円レート

    AWS から OCI に移行してコストを約半額にした話 - Qiita
    sh19910711
    sh19910711 2024/05/21
    "AWS移行当時、RDSのReserved InstancesとEC2のSavings Plansを3年で購入 + 当時のドル円相場は約106円 / MySQL Shell の Instance Dump Utility: 並列化により非常に高速に Dump/Import が行える + mysqldump で昔のように頑張るより ~ 手間が減って楽"
  • Storage Transfer ServiceにAmazon S3からのデータ転送をより安くするオプションが追加されました | DevelopersIO

    Google Cloudデータエンジニアのはんざわです。 2024年5月17日、Storage Transfer ServiceにGoogleが管理するマネージド・プライベート・ネットワーク経由でのデータ転送のオプションが追加されました。 May 17, 2024 この記事では、新しいオプションの概要や料金などを簡単に紹介したいと思います。 マネージド・プライベート・ネットワークとは? マネージド・プライベート・ネットワークとは、Storage Transfer Serviceを利用して、Amazon S3からGoogle Cloud Storageへデータを転送するためのオプションの1つです。 このオプションを有効化するとGoogleが管理するCross-Cloud Interconnect経由でデータが転送されます。 これにより、Amazon S3のEgress料金がかからなくなり、代

    Storage Transfer ServiceにAmazon S3からのデータ転送をより安くするオプションが追加されました | DevelopersIO
    sh19910711
    sh19910711 2024/05/20
    "オプションを有効化するとGoogleが管理するCross-Cloud Interconnect経由でデータが転送 / 今まではAWS側で発生していた料金がGoogle Cloud側に請求 / 対応しているリージョンがまだ少ない + ap-northeast-1のサポート待ってます"
  • Redshiftのデータ共有で元DBに作成したテーブルを即時反映させる - Qiita

    はじめに Redshiftのデータ共有、皆さん使われているでしょうか。 物理的なコピーをせず、Redshift間でデータの共有ができて便利ですよね。 さて、このデータ共有ですが、既に共有されているテーブルに対してデータの追加や更新(INSERTやUPDATE)をすると即時反映されますが、テーブルの作成(CREATE TABLE)はデフォルトでは即時反映されません。 テーブルの作成も即時反映させたい場合は、ALTER文で SET INCLUDENEW = TRUE SCHEMA schema を実施する必要があります。デフォルトではこれがFALSEになっており、かつGUI上ではこれをTRUEに設定できるところが見つかりませんでした。 今回はこれをクエリエディタv2で実施してみます。 前提条件 以下のRedshiftを、それぞれ別のアカウントで作成済み。 プロデューサーはRedshift Pr

    Redshiftのデータ共有で元DBに作成したテーブルを即時反映させる - Qiita
    sh19910711
    sh19910711 2024/05/18
    "データの追加や更新(INSERTやUPDATE)をすると即時反映されますが、テーブルの作成(CREATE TABLE)はデフォルトでは即時反映されません / ALTER文で SET INCLUDENEW = TRUE SCHEMA schema を実施する必要"
  • 【AWS】Amazon Security Lakeの概要とアクセス管理の検証 - Qiita

    はじめに 2023年5月に一般提供を開始したAmazon Security Lake(以後Security Lakeと記載)についてサービスの概要と特徴であるアクセス管理(データアクセス,クエリアクセス)に焦点をあてて記載します。 今回解説を行わない内容 Security Lake 環境構築の諸設定解説 Security Lake に蓄積したデータの可視化 目次 ・Security Lakeとは ・メリット ・システム構成図とアクセス管理の検証箇所 ・導入ステップ ・アクセス管理動作検証 ・どのような活用が期待されるか ・注意点 Security Lakeとは Security Lakeは、フルマネージド型のセキュリティデータレイクサービスです。 AWS環境・SaaSプロバイダー・オンプレミス・クラウドソースからのセキュリティデータ(ログ・イベントデータ)を、アカウントに保存されている専用

    【AWS】Amazon Security Lakeの概要とアクセス管理の検証 - Qiita
    sh19910711
    sh19910711 2024/05/09
    "Security Lake: 検知したデータと他のログデータと組み合わせて分析や機械学習に利用する + サードパーティのデータもOSCF形式に変換することで一元管理 / 従量課金: データの取込みとデータ変換(正規化)"
  • 分析基盤をAthenaからBigQueryへノーコードで移行した話 - mikan Developers' Blog

    この記事はmikan Advent Calendar 2023の24日目の記事です。 こんにちは。株式会社mikanでPlatform Engineeringチームのリーダーをしております。@hoshitocat です。Platform Engineeringチームは最近できたチームですが、その取り組み内容についてはまた後ほどご紹介できればと思っています。 昨日はQAチームのchiakiさんによる、 「テスト自動化で試行錯誤した話」でした。QAの自動化に取り組みたいと思っている方や、QAコスト削減方法に悩んでいる方はぜひ読んでみてください! note.com なお、mikan Advent Calendar 2023の他の記事は下記のリンクからご覧ください。 adventar.org はじめに これまでの分析基盤の課題 BigQuery利用への意思決定 Glueを使ってみるが断念 Athe

    分析基盤をAthenaからBigQueryへノーコードで移行した話 - mikan Developers' Blog
    sh19910711
    sh19910711 2024/05/07
    "STSとDataprepを使って、S3にある行動ログをAthenaで集計していたものを、BigQueryで集計できるようにする / Dataprep: Plansというものがあり定期実行することもでき + Jobの実行状況ごとにSlack通知" 2023
  • S3のコスト削減に成功した話 〜カギはバッチウィンドウ〜|ハンズラボ株式会社

    こんにちは!POSグループのhktです。 こちらの記事は、「S3のコスト削減に失敗した話」の後編になります。 もしまだ前編をご覧になっていない方は、ぜひ読んでみてください。 さて、前編では、S3のコストを調査したところ、最も費用がかかっているのがPutObjectであることが判明しました。 今回は、S3のコストを削減するために、PutObjectの実行回数を減らすことはできないか検討しました。 PutObjectの実行回数を減らしたい POSグループが運用するAWSアカウントでは、ログデータをS3に保存するために、Kinesis Data StreamsをトリガーとするLambda関数が稼働しています。 具体的には、以下のような構成になっています。HandsPOSアプリからKinesis Data Streamsにログデータが送信され、Kinesis Data StreamsからLambd

    S3のコスト削減に成功した話 〜カギはバッチウィンドウ〜|ハンズラボ株式会社
    sh19910711
    sh19910711 2024/05/04
    "S3のコストを調査したところ、最も費用がかかっているのがPutObjectで / ログデータをS3に保存するために、Kinesis Data StreamsをトリガーとするLambda関数が稼働 / バッチウィンドウ: 最大300秒間レコードをバッファリング" 2023
  • GlueJobからRedshiftServerlessに直接インサートするサンプルデータパイプラインのご紹介|基幹システムのクラウド移行・構築・導入支援のBeeX

    はじめにこんにちは、半田(@handy)です。 AWS上でデータパイプラインを検討する際、よく見る構成としてはS3上のファイルをGlue Jobで変換した後、再度S3に格納してAthenaやRedshiftなどから参照する方法があります。 ただ、パフォーマンス要件からRedshiftにデータを取り込む必要がある場合、定期的にS3からのロードを行う必要があります。 今回の構成では途中に変換後用のS3を介することなく、Glue Jobから直接Redshiftにインサートを行うデータパイプラインを構築してみましたので、その構成や具体的な設定内容などについてご紹介します。 また、Glue Jobで変換する際、通常は一度S3に入れた変換前データをGlue Crawlerでクローリングし、メタデータをGlue DataCatalogに登録して、Glue DataCatalog経由でデータをロードする方

    GlueJobからRedshiftServerlessに直接インサートするサンプルデータパイプラインのご紹介|基幹システムのクラウド移行・構築・導入支援のBeeX
    sh19910711
    sh19910711 2024/05/04
    "Redshift Serverless: これまでSecrets Managerでのパスワード管理に対応していませんでしたが、2024年3月にアップデートがあり、現在では利用できるようになりました / 「redshift![名前空間名]-[DBユーザー名]」のフォーマット"
  • Amazon Redshift 最適な分散スタイルを自動設定する『DISTSTYLE AUTO』の動きを確認してみました | DevelopersIO

    はじめに 2018年の11月のCluster Version Historyに記載のあった『DISTSTYLE AUTO』がついに利用できるようになりました。分散スタイルにAUTOを指定すると最適な分散スタイルを自動的かつ動的に設定する新機能です。リリースバージョン 1.0.6754 以降で利用可能になりましたので、実際にテーブルを作成してどのように自動的かつ動的に設定が変化するかを確認したいと思います。 RedshiftのテーブルのDISTSTYLEに「AUTO」が追加され、東京リージョンでも使えるようになりました。今まではデフォルトはEVEN分散だったのですが、これからはデフォルトではじめはALL、件数が増えてくるとEVENというようにダイナミックに持ち方が変わる動きになります。https://t.co/UR8x2S2Qgi — Junpei Ozono (@jostandard) A

    Amazon Redshift 最適な分散スタイルを自動設定する『DISTSTYLE AUTO』の動きを確認してみました | DevelopersIO
    sh19910711
    sh19910711 2024/05/03
    "レコード数が少ない間は分散スタイルALL + レコード数が増加すると自動的に分散スタイルEVENに切り替わります / ALL: 全てのコンピュートノードに同じデータを配置 / EVEN: ラウンドロビンで均等にデータを配置" 2019
  • Spark 2.0 on EMR で Structured Streaming をやってみた

    “Distributed computing (Apache Hadoop, Spark, …) Advent Calendar 2016” の 12/19 担当ということで、Spark 2.0 on EMR で Spark Streaming と Structured Streaming をやってみた結果を書きます。 この記事でやること この記事では Spark 2.0 で、現在アルファ版の Structured Streaming をやってみます。 Structured Streaming とは、Spark SQL エンジンで実現されたストリーム処理の仕組みです。 従来型の Spark Streaming は RDD を DStream とよばれる Spark Streaming 特有のモデルを導入して扱うのに対して、Structured Streaming では Spark SQL

    Spark 2.0 on EMR で Structured Streaming をやってみた
    sh19910711
    sh19910711 2024/04/29
    "Structured Streaming: Spark SQL エンジンで実現されたストリーム処理の仕組み + バッチジョブと同じ書き方で Streaming 処理を実現 / 従来型の Spark Streaming は RDD を DStream とよばれる Spark Streaming 特有のモデル" 2016
  • QuickSightでの分析の幅が広がるレベルアウェア計算(LAC)を理解する | DevelopersIO

    データアナリティクス事業コンサルティングチーム・新納(にいの)です。 低コストでシンプルに可視化が行えることが強みのQuickSightですが、「もう少し踏み込んで分析をしたい…」と思う方もいらっしゃるのではないでしょうか。そんな方に朗報のレベルアウェア計算(level-aware calculations - LAC)について解説していきます。 レベルアウェア計算(LAC)を理解する 実際に試してみる前に、まずはレベルアウェア計算について理解することで今回のアップデートの嬉しさを100%フルパワーで享受できるようになります。 レベルアウェア計算とは レベルアウェア計算とは、ウィンドウ関数と集計関数を使う際に関数を適用する粒度を指定できるQuickSightの機能です。集計関数に使えるLAC-A関数とウィンドウ関数に使えるLAC-W関数の二種類あります。LAC-W関数はこれまでLAA(

    QuickSightでの分析の幅が広がるレベルアウェア計算(LAC)を理解する | DevelopersIO
    sh19910711
    sh19910711 2024/04/27
    "ディメンションと違う粒度で集計をさせたい / ウィンドウ関数と集計関数を使う際に関数を適用する粒度を指定できるQuickSightの機能 / Tableauに馴染みのある方であれば「LOD表現に似た概念だな」とピンとくるかも" 2022
  • Amazon Bedrock+Anthropic Claude 3 Sonnetで会話履歴を保持するSlackチャットボットを作成する - Qiita

    Amazon Bedrock+Anthropic Claude 3 Sonnetで会話履歴を保持するSlackチャットボットを作成するDynamoDBslackbotAWSSAMbedrockclaude3 はじめに 前回の記事「Amazon Bedrock+Anthropic Claude 3 SonnetSlackチャットボットを作成する」では、会話履歴を保持しないシンプルなSlackチャットボットを作成しました。 記事では、DynamoDBを使って会話履歴を保持するチャットボットを作成してみました。会話履歴の呼び出しや更新にLangchainのChatMessageHistoryを使うことで、DynamoDBに会話履歴を保存する処理を簡単に実装できました。 デモ動画 チャットボットとの会話履歴 このように、追加の質問に対し、チャットボットは会話履歴を踏まえた回答を生成しました。

    Amazon Bedrock+Anthropic Claude 3 Sonnetで会話履歴を保持するSlackチャットボットを作成する - Qiita
    sh19910711
    sh19910711 2024/04/27
    "DynamoDBChatMessageHistory (LangChain): DynamoDBに会話履歴を保存 + 会話履歴を踏まえた回答を生成 / ラップのリズムに乗せて説明してください。といったリクエストを送ると、チャットボットがそれに答えてくれます"
  • AWS Glue での Spark のパフォーマンス (実行時間) を改善したい - クラウドエンジニアのノート

    はじめに 準備 データ 計測関数 CSV vs Parquet Parquet 参考 読み取り速度比較 データ作成 読み取り 読み取って Filter 処理した際の速度比較 データサイズ比較 csv gzip はどれくらい? まとめ Glue DynamicFrame vs Spark DataFrame データ読み取り速度比較 まとめ パーティション数の違いによる速度比較 準備 シャッフルが発生しない処理 シャッフルが発生する処理 まとめ Spark Join BroadCast Join まとめ キャッシュを使う キャッシュありなし比較 遅延評価? まとめ はじめに 最近 O'Reilly のLearning Spark 2nd Edition を読み始めました。 https://learning.oreilly.com/library/view/learning-spark-2nd/

    AWS Glue での Spark のパフォーマンス (実行時間) を改善したい - クラウドエンジニアのノート
    sh19910711
    sh19910711 2024/04/25
    "データ全体の読み取り速度は csv も parquet も変わらない / Filter 等を実行する場合 (Predicate Pushdown を使う場合) Parquet の方が読み取り早い / cache() や persist() は action ではなく transformation なので遅延評価" 2023
  • Amazon AthenaのクエリをAmazon S3 Object Lambdaアクセスポイントに対して実行してみました | DevelopersIO

    Amazon AthenaのクエリをAmazon S3 Object Lambdaアクセスポイントに対して実行してみました 初めに 少し遡り2023/10頃のアップデートですがAmazon AthenaとAmazon S3 Object Lambdaの統合のアップデートがありました。 Amazon S3 Object LambdaはS3バケットからデータを取得し返却するタイミングでLambdaの処理によりデータを加工することができるアクセスポイントで、こちらを指定し経由することで個人情報のマスキングなどの処理ができるため派生データを作成せず1マスタ複数パターンを実現することが可能です。 上記のアップデートによりはAmazon Athenaがこちらのアクセスポイントを指定しクエリを実行に応じデータを加工し参照できるようになったため試してみます。 やること 以前DMARCレポートをAmazon

    Amazon AthenaのクエリをAmazon S3 Object Lambdaアクセスポイントに対して実行してみました | DevelopersIO
    sh19910711
    sh19910711 2024/04/25
    "S3 Object Lambda: S3バケットからデータを取得し返却するタイミングでLambdaの処理によりデータを加工することができる / Lambda関数の呼び出しを見てみると稼働自体は並行で行われますが、起動自体はファイル単位"
  • Amazon SageMaker Data Wrangler に画像の前処理が追加 - Qiita

    はじめに AWS UpdateでAmazon SageMaker Data Wranglerに画像の前処理機能が追加されました。 Data WranglerはAmazon SageMaker Studioの機能の一つで、データの前処理が行えるサービスです。 従来はファイルタイプとしてcsv, parquet, json, jsonl, orcに対応していたようですが、「image」が追加されました。 利用イメージは以下のようになります。 やってみる 「S3からインポート → 重複削除 → ノイズ付与 → S3にエクスポート」という流れを試してみます。 インポートするS3バケット内に同じ画像データを2枚用意しました。 この画像に処理を行い、エクスポートするまでを試してみます。 データインポート データソースをS3としてインポートします。File typeは「image」を選択しました。 イン

    Amazon SageMaker Data Wrangler に画像の前処理が追加 - Qiita
    sh19910711
    sh19910711 2024/04/23
    "Data Wrangler: SageMaker Studioの機能の一つで、データの前処理が行えるサービス / 組み込みの変換も用意 + 今回は重複削除とノイズ付与 / カスタムで作成したスクリプトをステップに追加することもできる" 2023
  • Amazon S3 Express One Zone ディレクトリバケットを Mountpoint for Amazon S3 でマウントしてみた #AWSreInvent | DevelopersIO

    Amazon S3 Express One Zone ストレージクラスの登場と同時に Mountpoint for Amazon S3 へ対応しました。さっそく EC2 にマウント可能か試してみました。 Mountpoint for Amazon S3 now supports the Amazon S3 Express One Zone storage class Amazon S3 Express One Zone とは re:Invent 2023 で発表された新しいストレージクラスです。S3 Standard と比べると耐久性を多少犠牲にして高パフォーマンスを実現したストレージクラスです。大量のデータを処理する AL/ML トレーニングや、ゲノム解析などのワークロードでは EC2 にマウントして使いたい場面があるのではないでしょうか。 やってみた EC2(Amazon Linux

    Amazon S3 Express One Zone ディレクトリバケットを Mountpoint for Amazon S3 でマウントしてみた #AWSreInvent | DevelopersIO
    sh19910711
    sh19910711 2024/04/23
    "S3 Express One Zone: 登場と同時に Mountpoint for Amazon S3 へ対応 + ゲノム解析などのワークロードでは EC2 にマウントして使いたい場面がある / Mountpoint for Amazon S3 はバージョン1.3.0から S3 Express One Zone をサポート" 2023
  • S3 Express One Zone 用の VPC エンドポイント Gateway 型を作成する CloudFormation テンプレートの紹介 | DevelopersIO

    S3 Express One Zone 用の VPC エンドポイント Gateway 型を作成する CloudFormation テンプレートの紹介 CloudFormation で構築済みの VPC に S3 Express One Zone 用の Gateway 型の VPC エンドポイントを追加する機会がありました。CloudFormation で構築するテンプレートのサンプルを紹介します。 S3 Express One Zone とは re:Invent 2023 において、Amazon S3 の新機能として、低レイテンシとハイパフォーマンスを実現する新しいストレージクラスが発表されました。このストレージクラスは、特に S3 におけるデータアクセスの速度を重視するユースケースに適しています。詳細については下記のブログをご覧ください。 S3 Express One Zone の VP

    S3 Express One Zone 用の VPC エンドポイント Gateway 型を作成する CloudFormation テンプレートの紹介 | DevelopersIO
    sh19910711
    sh19910711 2024/04/23
    "S3 Express One Zone: re:Invent 2023 + 低レイテンシとハイパフォーマンスを実現する新しいストレージクラス / 通信をVPCエンドポイント経由するにはS3 Express One Zone用のVPCエンドポイントも必要 + 通常のエンドポイントとは異なる"
  • Amazon EMR のバージョンアップ 2/3:メジャーバージョンアップで遭遇した問題 - Repro Tech Blog

    前回の続きです。 EMR 5.36.1 から EMR 6.6.0 への更新について書きます。 EMR 5.36.1 から EMR 6.6.0 への更新 アプリケーション等 EMR 5.36.1 EMR 6.6.0 Tez 0.9.2 0.9.2 Hue 4.10.0 4.10.0 Hive 2.3.9 3.1.2 Hadoop 2.10.1 3.2.1 Presto 0.267 0.267 Trino N/A 367 Amazon Linux 2 2 このバージョンアップでは Hive と Hadoop のメジャーバージョンアップがあるので、Upgrade Amazon EMR Hive Metastore from 5.X to 6.X | AWS Big Data Blog のとおりに Hive メタストアをマイグレートしました。 その後、検証用 EMR cluster を作成してクエ

    Amazon EMR のバージョンアップ 2/3:メジャーバージョンアップで遭遇した問題 - Repro Tech Blog
    sh19910711
    sh19910711 2024/04/21
    "UDF を使ったクエリが動作が怪しくなり / Vectorized Query Execution を無効にして試したところ、独自開発した Hive UDF の部分で型のエラーが発生 / 修正するとクエリは通ったのですが、実行時間が大幅に長くなってしまい"