[B! Hadoop][AWS-EMR] InoHiroのブックマーク

InoHiro id:InoHiro

HadoopとAWS-EMRに関するInoHiroのブックマーク (2)

Hiveを導入・高速化したい時に最低限必要な知識 - Qiita
お疲れ様です。ビッグデータという言葉が流行りだしてから幾星霜、皆さんの中でもそろそろ社内にビッグデータ処理基盤を作りたいという方がいるのではないでしょうか？というわけでSQL on Hadoopでよく知られるHiveを使う上で最低限必要だなと思う知識をまとめてみました。 PrestoやAWS Athena、Amazon Redshift Spectrumを使う場合でも裏側にはHiveのテーブルが必要な場合が多いと思いますので、知っておいて損は無いかと思います。テーブル・データ設計パーティションを設定する Hiveではテーブルにパーティションを設定する事でテーブルの検索・更新範囲を限定する事ができます。逆に言えばパーティションを設定しない場合、常にテーブル全体を検索・更新してしまうという事です。なのでパーティション設定は基本的に必須です。パーティションはデータをインポートする頻度に応
InoHiro 2017/11/14
Hive

AWS-EMR

Hadoop
リンク
S3 上の大量データを EMR するときは S3DistCp を使うと捗る – I'm Sei.
CloudFront のアクセスログを S3 に出力するように設定していると、日に日に大量のログファイルが溜まっていきます。中には 1 MB 程度のファイルもあれば、数百 bytes 程度の小さなものもあります。何にせよ、とにかく大量にあります。小さいファイルはまとめるCloudFront のログのように小さいファイルが大量にあるようなケースは Hadoop が苦手とするパターンで、そのまま扱うと大抵めちゃんこ時間がかかります。そういう場合は、S3DistCp という便利ツールを使って S3 上のログファイルをもうすこし大きいサイズに連結して、HDFS にコピーするとパフォーマンスがあがることがあります。ちなみに、EMR のベストプラクティスによると、Gzip で圧縮されている場合は 1 ~ 2GB、LZO で圧縮されている場合は 2 ~ 4GB が最適なファイルサイズらしいです
InoHiro 2017/11/14
Hadoop

Hive

AWS-EMR
リンク
1