まだ本格的な運用は始まっていないけどログ分析環境を少しづつ作ってるのでメモっておく。 ETL処理は既存資産の活用を考慮してPython 2.7でやっています。 hiveserver2との接続はpythonからhiveserver2につなごうとしていろいろハマったのでメモっておく - wyukawa’s blogに書いた通りだいぶ苦労したけど独自にpatchあてて対応した。 sqoop imortもやりつつある。最初はsqoop2を使おうかなと思ったけどhiveとの連携がまだみたいなのと、既存資産の活用もあって古いsqoopのまま処理を進めている。 Hiveからselectして結果をMySQLへinsertする部分はMySQL-Python使っています。この辺も既存資産があるからですね。 Python 3は使っていないので下記にあるような事情は今回特に関係ないです。とはいえPython 3も