原文: http://blog.cloudera.com/blog/2016/10/how-to-use-the-new-hdfs-intra-datanode-disk-balancer-in-apache-hadoop/ 現在、HDFSにはノードでデータを移動するための包括的なストレージ容量管理アプローチが含まれています (CDH 5.8.2以降)。 HDFSでは、DataNodeはhdfs-site.xmlのdfs.datanode.data.dirを用いて指定できるローカルのファイルシステムディレクトリにデータブロックを分配します。HDFSの用語でボリュームと呼ばれる各ディレクトリは、一般的なインストールでは別のデバイス(たとえば、別のHDDやSSD)上にあります。 新しいブロックをHDFSに書き込む際、DataNodeはボリューム選択ポリシー(volume-choosing po
出典:日経コンピュータ 2012年6月7日号 pp.102-103 (記事は執筆時の情報に基づいており、現在では異なる場合があります) Hadoopの高速性をひも解くとき、分散ファイルシステム「HDFS」の存在は欠かせない。MapReduceと協調して行う“ローカル処理”は、バッチ処理の高速化に向くアーキテクチャーだ。そんなHDFSにも、BIツールなどが使いづらいという課題がある。HDFSの代替製品をHadoopに組み込む動きは、その解決を目指すものだ。 「HDFS(Hadoop Distributed File System)」は、その名の通り分散バッチ処理ソフト「Apache Hadoop」向けのファイルシステムだ。ファイルを分割して複数のディスクで管理、大量データ処理のスループットを引き上げる。最近になり、HDFSの課題を解決しようと、代替製品をHadoopに組み込む例が増えてきた。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く