タグ

qiitaとmapreduceに関するnabinnoのブックマーク (2)

  • Spark and YARN - Qiita

    SparkとYARNについて書きます。テーマ的にインフラストラクチャについての話が多くなると思います。 SparkとHadoopの関係性 SparkはHadoopクラスタへの依存はしていない。(ただし、ややこしいのだがHDFSやYARNのクライアントライブラリへの依存はある)なのでHadoopなしでも動かすことができる。しかしそれでもHadoopと一緒に動作させることが多いのは以下の理由による。 クラスタマネージャとしてのYARN Sparkはアプリケーション(厳密にはSparkアプリケーション)ごとに下記のようなクラスタが構築される。Driver Programと呼ばれる、SparkContextオブジェクトを持ち、アプリケーションコードの主要部分を実行するアプリケーションのマスタコンポーネントと、RDDに対するオペレーションを実行するExecutor群。そして、Driver Progr

    Spark and YARN - Qiita
  • Apache Spark で分散処理入門 - Qiita

    Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 2.0.0 /_/ 2016年7月末にApache Spark 2.0.0がリリースされ、始めてみたので色々メモ メモなのでご容赦ください🙇 また、この記事中にサンプルで載せているコードはjavaがメインですがscalapythonの方がすっきりかけている気がじます。 これからも随時編集していきます Apache Spark とは 上の画像はhttps://spark.apache.orgから、場合によってはHadoopのMapReduce100倍速いらしいです、強い、Spark Sparkは巨大なデータに対して高速に分散処理を行うオープンソースのフレームワーク。 (Java Magazin

    Apache Spark で分散処理入門 - Qiita
  • 1