タグ

Hiveに関するtatsu_toraのブックマーク (2)

  • SQL感覚でHiveQLを書くと痛い目にあう例 - still deeper

    Hadoop Advent Calendar 2013 4日目の記事です tl;dr explainとjob historyを読め 1 reducerは悪 data skewは悪 前書き みんな大好きSQLでHadoop上での処理を実行できるHiveにはみなさん普段からお世話になっていることでしょう。ちょっと調べ物でググる度に目に入る愛らいしいマスコットが、荒んだ心に清涼な風をはこんでくれます。 ですがHiveのクエリ言語はSQLではなくHiveQLですし、実行エンジンもRDBのそれとは全く異なるMapReduceです。SQLのつもりでHiveQLを書いていると地雷を踏んでしまうことがまれによくあります。エントリでは陥りがちなHiveQLの落とし穴を2つ紹介します。 例1 SELECT count(DISTINCT user_id) FROM access_log SQLに慣れた方であれ

  • ビッグデータを支える技術 - Qiita

    Hadoop 大規模な分散処理を支えるJavaフレームワーク HadoopはGoogleMapReduce、GFS(Google File System)の技術をベースとして作られた HadoopではMapReduceはそのまま「MapReduce(Hadoop/MapReduce)」、GFSは「HDFS(Hadoop Distributed File System)」という名前でそれぞれ開発・公開されている MapReduce データを「Map処理」、「Reduce処理」の2つの処理で処理するモデル 以下、Hadoop/MapReduceの機能 複数のマシン上にデータとデータを処理するためのプログラムモジュールを配置し、プログラムを並列実行する 複数マシン上で分散実行される処理の順序や優先度の制御 障害時の自動リカバリ 処理状況のステータス管理や監視機能 処理全体のパフォーマンスを向上

    ビッグデータを支える技術 - Qiita
  • 1