fluentdでJSON形式のデータを溜め込んだらそれを分析してみたいよね…、ということでHiveでJSONデータを扱うには、という観点でうっすら調べてみた(分析までやっていないので「準備」です)。 実はその前に、fluentdのログをJSONではなくLTSVというフォーマットで出力するプラグインも試してみた。LTSVというのははてなが開発したフォーマットで、これでTSVファイルとして変換できれば当然Hiveでも扱いやすくなる。しかし、こっちの方がJSON parserを調べるよりてっとり早くていいかも、という目論みは通らなかった。2つほどプラグインを実装してみたが、fluentdの起動時にFAILEDになってしまい動作以前の問題。基本的な導入方法とか設定が間違っているのかもしれないが、何せ開発元のドキュメントも乏しい。ここで格闘するのも時間の無駄なのでこっちはパス。 で、Hive + J