タグ

ブックマーク / qiita.com/bwtakacy (1)

  • HDFS SnapshotsとDistCpを利用したHDFSデータの差分更新 - Qiita

    Cloudera Engineering BlogにてCDH5.5にDistCpの高速化が実装されたと紹介されていたので、試してみました。 リンク先の説明を読んだ限り、2つのHDFS Snapshot間の差分情報を使って 削除・名前変更はDistCpを使わずに反映 新規作成・変更されたファイルだけをDistCpで同期 することで、高速化を図っているようです。 試した環境は、 CentOS: 7.2 (64bit) CDH 5.7.0 (擬似分散) です。 HDFSの準備 今回は、 同期元ディレクトリ:/user/hadoop/source 同期先ディレクトリ:/user/hadoop/target という状況とします。 [hadoop@localhost ~]$ hdfs dfs -mkdir source [hadoop@localhost ~]$ hdfs dfs -mkdir tar

    HDFS SnapshotsとDistCpを利用したHDFSデータの差分更新 - Qiita
    kimutansk
    kimutansk 2016/04/09
    こうやってできるのか!と思う前に「Snapshotをとるタイミング同期はどうやるんだろう」と思ってしまうあたり職業病。NNのEditLogから取られている、でいいんですかね
  • 1