タグ

apache-sparkとresilient-distributed-datasetに関するnabinnoのブックマーク (1)

  • [Apache Spark]RDDについて簡単にまとめてみた | DevelopersIO

    はじめに t.hondaです。前回の最後に書いたように、今回はRDDについて書いてみたいと思います。 RDD(Resilient Distributed Dataset) RDDとは、以前にも書きましたが「不変(イミュータブル)で並列実行可能な(分割された)コレクション」です。Apache Sparkのプログラミングでは、このRDDにデータを保持して操作することがメインとなります。RDDの操作には用意されているメソッドを使うことで、Sparkは自動的に分散処理を行い、開発者は分散処理を意識することなくプログラミングできます。 RDDのメソッドの種類 RDDに保持したデータを操作するメソッドは大きく分けて2つに分類されます。「Transformations」と「Actions」です。「Transformations」はRDDを操作し、結果を新しいRDDとして返します。「Actions」はRD

    [Apache Spark]RDDについて簡単にまとめてみた | DevelopersIO
  • 1