タグ

apache-sparkとe-bookに関するnabinnoのブックマーク (2)

  • O'Reilly Japan - 入門 PySpark

    PythonからSparkを利用するための機能、PySparkを使いこなすテクニックとノウハウを習得する書籍です。はじめに高速になったSpark 2.0の特徴とアーキテクチャを解説し、次に構造化及び非構造化データの読み取り、PySparkで利用できる基的なデータ型、MLlibとMLパッケージによる機械学習モデルの構築を説明します。さらにGraphFramesを使ったグラフの操作、ストリーミングデータの読み取り、クラウドへのモデルのデプロイなどの方法を豊富なサンプルと一緒に学びます。またローカルでのSpark+Python+Jupyter環境の構築方法も紹介。大規模なデータを処理し、活用したいエンジニア必携の一冊です。 序文 訳者まえがき はじめに 1章 Sparkを理解する 1.1 Apache Sparkとは 1.2 SparkのジョブとAPI 1.2.1 実行のプロセス 1.2.2 

    O'Reilly Japan - 入門 PySpark
  • 初めてのSpark

    Sparkの概要、RDDを使ったプログラミング、キー/値ペアの処理など基礎的な説明から、Sparkの高度なプログラミング、クラスタ上での格的な利用まで解説した、Sparkの総合的な入門書です。日語版の内容にはバージョン1.3/1.4での機能強化も取り入れ、土橋昌氏による「原書発行以降の変更点」、猿田浩輔氏による「Spark SQLについて編の補足」、堀越保徳氏と濱口智大氏による「Spark/MapReduceの機械学習ライブラリ比較検証」を収録。全編にわたりCloudera株式会社エンジニアチームによるテクニカルレビューを実施。Sparkについて包括的に学べる書は、ビッグデータや機械学習に携わる開発者必携の一冊です。 目次 はじめに 日語版まえがき まえがき 1章 Sparkによるデータ分析への招待 1.1 Apache Sparkとは何か? 1.2 統合スタック 1.2.1 S

    初めてのSpark
  • 1