Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
(追記)若干認識違いがあったので修正しました。 前回に引き続き、頭を整理するためHadoop設計周りの覚え書きなど記載。多分鬼のように追記する。書いているうちに枝分かれしてきたので、次世代MapReduce/YARNの話も。HadoopディストリビューションはCDH4の利用を前提としている。 マスタノードに必要なプロセス NameNode SecondaryNamenode (起動は任意) JobTracker (YARNではResouceManager) HistoryServer (CDH4) スレーブノードに必要なプロセス DataNode TaskTracker (YARNではNodeManager) 設計・構築上の注意 マスタノードとスレーブノードにおいてすべて同じパッケージを入れても問題ないが、予期しない事故を防ぐため、各マシンで不要なサービスは起動させないようにしておく。 マ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く