HiveQLではスピードに難を感じていたため、私もPrestoを使い始めました。 MySQLやHiveで使っていたクエリを置き換える時にハマったTipsをまとめていきます。 AWS AthenaでPrestoを使っている方も増えてると思うので、Presto標準関数での記述例も拡充していきます。 Prestoとは Prestoはオンメモリで動く分散SQLエンジンで、その進化は目を見張る物です。 発表された当時は色々な成約があり使うことを躊躇していましたが、2015年頃からはもう使わない理由はなくなりました。 アドホックに使えるとても高速なSQLエンジンですので、バッチ向けのHiveのように実行結果を待つ時間はほとんどありません。 Hiveですと1つ1つの実行に時間が掛かるので、クエリに慣れていない新参者には辛い物がありました。 しかしPrestoではインタラクティブに実行できますので、トライ
HIVEクエリを書いていてハマったエラーと、その対処法を記載していきます。 WINDOW関数で集計範囲が異なる時のエラー ROWS BETWEENかの指定が異なる物が混じってるときに発生するエラーです。 他と記述を合わせることで、エラーは解消しました。 FAILED: SemanticException Failed to breakup Windowing invocations into Groups. At least 1 group must only depend on input columns. Also check for circular dependencies. Underlying error: Expecting right window frame boundary for function lag((TOK_TABLE_OR_COL weight), 12)
データマネジメントなき経営は、破綻する。 〜2つのデータ分析プロジェクトに学ぶ「残酷な真実」〜 第1回 DLG Cross (データマネジメントとデータパイプライン) の発表資料です。 https://data-learning-guild.connpass.com/event/170177/ データマネジメントの Why(なぜ必要か) What(どんな活動なのか) How(どうやるのか)について、 データ分析プロジェクトの成功例と失敗例を比べながら紹介します。 参考文献『データマネジメントが30分でわかる本』 https://amazon.co.jp/dp/B085W4YSZJ/ [2020-04-21] 一部表現を修正しました。
こんにちは、みかみです。 これまで BigQuery のデータのアクセス制御を指定できる最下層のリソースはデータセットで、テーブルやカラム単位でのアクセス制御はできませんでしたが、Data Catalog のポリシータグを付与することで、カラムレベルのアクセス制御が指定できるようになったそうです。 BigQuery の列レベルのセキュリティで、きめ細かなアクセス制御を | GCP ブログ Introduction to BigQuery Column-level security | BigQuery ドキュメント Restricting access with BigQuery Column-level security | BigQuery ドキュメント やりたいこと BigQuery のカラムレベルのアクセス制御を行うにはどうすればいいのか知りたい BigQuery のカラムレベルの
CMAK (previously known as Kafka Manager) is a tool for managing Apache Kafka clusters. See below for details about the name change. CMAK supports the following: Manage multiple clusters Easy inspection of cluster state (topics, consumers, offsets, brokers, replica distribution, partition distribution) Run preferred replica election Generate partition assignments with option to select brokers to us
2020年5月12日 更新 Qiita ついにTreasure Data のオプトアウトに対応する 2020年5月8日にQiitaの利用規約が改定されました。 blog.qiita.com 同時にプライバシーポリシーも改定されました。 qiita.com そして、ずーっと私が言ってた!!オプトアウト設定が入りました!! 2020年3月26日から騒いで、ここまで来ましたね。 現場のエンジニアさんも頑張ってくれました、対応に感謝します。 オプトアウトするにはQiitaにログインしてアカウントの設定を行います。 qiita.com このオプトアウトの文言を見ると、このように記載があります。 拒否すると、匿名情報のみがTreasure Dataに送信されます。と書いてあるので、利用情報は渡るようです。 これは匿名加工情報制度によるものなので違法ではないです。 (気分的に嫌と感じる人は、ログアウトし
こんにちは。DA事業本部の春田です。 Supervisor型の旧版Redashサーバーをホストしている方はそれなりにいらっしゃるかと思いますが、version8以降から bin/upgrade のサポートが廃止されているのはご存知ですか?( download_url がありません!) $ curl https://version.redash.io/api/releases | jq [ { "id": 39, "version": "8.0.0", "channel": "stable", "download_url": "", "backward_compatible": false, "released_at": "2019-10-27T00:00:00.000Z", "description": "See [CHANGELOG](https://github.com/getreda
※この投稿は米国時間 2020 年 3 月 18 日に、Google Cloud blog に投稿されたものの抄訳です。 Twitter の広告プラットフォームでは、日常業務の一環として数十億もの広告エンゲージメント イベントが日々発生しています。そしてこれらのイベントのひとつひとつが、ダウンストリームの数百もの集約指標に影響を及ぼす可能性があります。広告主がユーザー エンゲージメントを測定し、広告キャンペーンを効率よく追跡できるように、Twitter はさまざまな分析ツール、API、ダッシュボードを提供しています。これらは 1 秒あたりに数百万もの指標をほぼリアルタイムで集約することが可能です。 本投稿では、Steve Niemitz がリードを務めるTwitter の収益データプラットフォームエンジニアチームが、Twitter の広告分析プラットフォームの収益正確性と信頼性を向上させる
LinkedIn has become a staple for the modern professional, whether it’s used for searching for a new job, reading industry news, or keeping up with professional connections. As a rapidly growing platform that serves more than 675 million users today, LinkedIn is a company that can boast of having one of the largest user bases in the world. How these users interact with the site and react to recomme
第1回 今求められるデータ基盤とGCP GCPにおけるデータ処理のアーキテクチャーをひもときながら、現在の企業システムで求められるデータ基盤とはどのようなものであるかを整理した上で、それを構築する方法を説明します。 2020.02.17 第2回 BigQueryによるDWHの構築と管理 サーバーレスで柔軟な分析基盤の中心となるデータウエアハウス(DWH)である、BigQueryについて詳しく解説します。どんなものなのかを体感するため、あらかじめBigQueryに用意されたデータを操作してみましょう。 2020.02.17 第3回 BigQueryへのデータ取り込みとメタデータ管理 Google Cloud Platform(GCP)のサーバーレスのDWH(データウエアハウス)であるBigQuery。BigQueryで構築したデータ基盤へのデータの取り込み方法を見ていきましょう。 2020.
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く