タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

HadoopとAWS-EMRに関するInoHiroのブックマーク (2)

  • Hiveを導入・高速化したい時に最低限必要な知識 - Qiita

    お疲れ様です。ビッグデータという言葉が流行りだしてから幾星霜、皆さんの中でもそろそろ社内にビッグデータ処理基盤を作りたいという方がいるのではないでしょうか? というわけでSQL on Hadoopでよく知られるHiveを使う上で最低限必要だなと思う知識をまとめてみました。 PrestoやAWS Athena、Amazon Redshift Spectrumを使う場合でも裏側にはHiveのテーブルが必要な場合が多いと思いますので、知っておいて損は無いかと思います。 テーブル・データ設計 パーティションを設定する Hiveではテーブルにパーティションを設定する事でテーブルの検索・更新範囲を限定する事ができます。逆に言えばパーティションを設定しない場合、常にテーブル全体を検索・更新してしまうという事です。なのでパーティション設定は基的に必須です。 パーティションはデータをインポートする頻度に応

    Hiveを導入・高速化したい時に最低限必要な知識 - Qiita
  • S3 上の大量データを EMR するときは S3DistCp を使うと捗る – I'm Sei.

    CloudFront のアクセスログを S3 に出力するように設定していると、日に日に大量のログファイルが溜まっていきます。 中には 1 MB 程度のファイルもあれば、数百 bytes 程度の小さなものもあります。 何にせよ、とにかく大量にあります。 小さいファイルはまとめるCloudFront のログのように小さいファイルが大量にあるようなケースは Hadoop が苦手とするパターンで、そのまま扱うと大抵めちゃんこ時間がかかります。 そういう場合は、S3DistCp という便利ツールを使って S3 上のログファイルをもうすこし大きいサイズに連結して、HDFS にコピーするとパフォーマンスがあがることがあります。 ちなみに、EMR のベストプラクティスによると、Gzip で圧縮されている場合は 1 ~ 2GB、LZO で圧縮されている場合は 2 ~ 4GB が最適なファイルサイズらしいです

    S3 上の大量データを EMR するときは S3DistCp を使うと捗る – I'm Sei.
  • 1