タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

hiveに関するtgkのブックマーク (2)

  • SQL感覚でHiveQLを書くと痛い目にあう例 - still deeper

    Hadoop Advent Calendar 2013 4日目の記事です tl;dr explainとjob historyを読め 1 reducerは悪 data skewは悪 前書き みんな大好きSQLでHadoop上での処理を実行できるHiveにはみなさん普段からお世話になっていることでしょう。ちょっと調べ物でググる度に目に入る愛らいしいマスコットが、荒んだ心に清涼な風をはこんでくれます。 ですがHiveのクエリ言語はSQLではなくHiveQLですし、実行エンジンもRDBのそれとは全く異なるMapReduceです。SQLのつもりでHiveQLを書いていると地雷を踏んでしまうことがまれによくあります。エントリでは陥りがちなHiveQLの落とし穴を2つ紹介します。 例1 SELECT count(DISTINCT user_id) FROM access_log SQLに慣れた方であれ

    tgk
    tgk 2018/10/10
    HiveQLでサブクエリ/表式を書くとMapReduceが書いた通りに分割されるらしい。そのつもりでサブクエリに割っていくと分散を良好にできるケースがある
  • HiveQL TABLEメモ(Hishidama's Apache Hive TABLE Memo)

    HiveQL(HiveのSQLっぽい独自言語)のテーブルに関するメモ。 Hiveでは操作対象のファイル(基的にはHDFS上のファイル)をテーブルと呼んで扱う。 「テーブル」と呼んでいても、データの実体はファイル。 CREATE CREATE [EXTERNAL] TABLE [IF NOT EXISTS] テーブル名 [(項目名 型 [COMMENT コメント], …)] [COMMENT テーブルのコメント] [PARTITIONED BY (項目名 型 [COMMENT コメント], …)] [CLUSTERED BY (項目名, …) [STORED BY (項目名 [ASC|DESC], …)] INTO バケット数 BUCKETS] [ROW FORMAT 行フォーマット] [ STORED AS ファイルフォーマット] | STORED BY 'クラス名' [WITH SER

    tgk
    tgk 2018/08/27
  • 1