はじめに Hadoop StreamingでMapReduceをシェルで実装する方法を記述します。 環境 CentOS 6.5 CDH5 構成 ホスト名 IPアドレス ResourceManager Namenode NodeManager Datanode JobHistoryServer
S-JIS[2011-09-25/2012-01-07] 変更履歴 Hadoop(仮想)分散環境 Hadoopの分散環境を、VMware Playerを用いた仮想マシンを使って構築してみる。 複数の仮想マシンを起動してHadoopクラスターを組む。 CentOSへのインストール CDH3版Hadoop本体がCentOSへインストールされている前提。 そのCentOSをNameNodeとし、VMイメージをコピーしてDataNodeを作る。 VMware上のCentOSを起動し、rootユーザーでログインする。 NameNodeやDataNode用のデーモンを起動する為のシェルをインストールする。# yum install -y hadoop-0.20-namenode # yum install -y hadoop-0.20-datanode # yum install -y hadoop-
GFS クローンの Hadoop Distributed File System (HDFS) をfuseを利用することでローカルにマウントし、直接操作できるファイルシステムとして使えるようなので試してみた。 参考はHadoopのサイトよりMounting HDFS。 今回は Ubuntu 9.04 ベースで、Hadoop はすでに別サーバで構築済みの環境で行っています。 Hadoopの構築については Hadoop/Hbase Clusterの構築 このあたりを参考にどうぞ。 1.必要ライブラリのインストール $ sudo apt-get install default-jdk ant $ sudu apt-get install automake autoconf libfuse-dev 完了です。 2.Hadoopの取得とhdfs用ライブラリのコンパイル HDFSをマウントするためには
前回の記事「Apache Hadoop 2.5.0 セットアップ手順 その1 – ローカル実行からシングルノードクラスター起動まで」で、Apache Hadoop 2.xのセットアップを公式ドキュメントに沿って確認したので、今回は複数ノードに分散させたクラスターを組んでみます。 環境は、Ubuntu 14.04です。 各ノードにHadoopをインストール 前回の記事の「Hadoopのインストール」までの手順を各ノードで行います。 各ノードからホスト名でアクセスできるように設定 クラスターに参加する全ノードの/etc/hostsに各ノードを指定します。 [text title=”/etc/hosts”] 192.168.33.11 master 192.168.33.12 slave01 [/text] hostnameも設定しておきます。 [bash gutter=”false”] $ s
Hadoopにどっぷりつかってもうすぐほぼ一年。去年の今頃はKVMやCluster、Linuxのパフォーマンスチューニングやらで休む暇もなかったわけですが、今年はより自転車操業的生活を送っています。 – * – * – * – さて、Hadoopのクラスタを構築する場合、エンタープライズで安定して利用できるとということからRed Hat Enterprise LinuxやCentOSを選ぶ方は多いでしょう。これらのOSにHadoopをインストールする場合、ClouderaのCDH(Cloudera’s distribution including Apache Hadoop)をRPMパッケージ[1]を利用すると便利です。あるいは、前回紹介したCloudera Managerを利用すればもっと簡単にセットアップできます。 今回はRPMの便利な使い方を5つ紹介します。インストールや削除などの基
大規模データの分散処理を支えるJavaソフトウェアフレームワークであり、フリーソフトウェアとして配布されている「Apache Hadoop」。その作者ダグ・カティング(Doug Cutting)さんが「Cloud Computing World Tokyo 2011」&「Next Generation Data Center 2011」において「Apache Hadoop: A New Paradigm for Data Processing」という講演をしていたので聞きに行ってきました。 満員の客席。 皆様を前にして講演できることを大変光栄に思っております。「Apache Hadoop」について皆様に伝えていきますが、これはまさにデータ処理の新たなるパラダイムを提供するものではないかと私は思っております。 まずは簡単に自己紹介をさせていただきましょう。私は25年に渡ってシリコンバレーで仕
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く