[B! apache-spark][mapreduce] nabinnoのブックマーク

nabinno id:nabinno

apache-sparkとmapreduceに関するnabinnoのブックマーク (15)

Private Presentation
Private content!This content has been marked as private by the uploader.
nabinno 2020/12/14
slideshare

mamoru-komachi

apache-spark

apache-hadoop

mapreduce
リンク
What is AWS Glue? - AWS Glue
AWS Glue is a serverless data integration service that makes it easy for analytics users to discover, prepare, move, and integrate data from multiple sources. You can use it for analytics, machine learning, and application development. It also includes additional productivity and data ops tooling for authoring, running jobs, and implementing business workflows. With AWS Glue, you can discover and
nabinno 2019/12/29
aws-glue

aws-glue-studio

pyspark

apache-spark

mapreduce

documentation
リンク
Spark vs. Hadoop MapReduce: Which big data framework to choose
nabinno 2019/12/27
"Linear processing of huge datasets is the advantage of Hadoop MapReduce, while Spark delivers fast performance, iterative processing, real-time analytics, graph processing, machine learning and more"

sciencesoft

alex-bekker

apache-spark

apache-hadoop

mapreduce

functional-comparison
リンク
Spark and YARN - Qiita
SparkとYARNについて書きます。テーマ的にインフラストラクチャについての話が多くなると思います。 SparkとHadoopの関係性 SparkはHadoopクラスタへの依存はしていない。(ただし、ややこしいのだがHDFSやYARNのクライアントライブラリへの依存はある)なのでHadoopなしでも動かすことができる。しかしそれでもHadoopと一緒に動作させることが多いのは以下の理由による。クラスタマネージャとしてのYARN Sparkはアプリケーション（厳密にはSparkアプリケーション）ごとに下記のようなクラスタが構築される。Driver Programと呼ばれる、SparkContextオブジェクトを持ち、アプリケーションコードの主要部分を実行するアプリケーションのマスタコンポーネントと、RDDに対するオペレーションを実行するExecutor群。そして、Driver Progr
nabinno 2019/12/19
qiita

apache-spark

mapreduce

distributed-computing

apache-yarn

cluster-manager

concurrent-computing
リンク
Apache Spark - RDD
nabinno 2019/12/16
tutorialspoint

apache-spark

resilient-distributed-dataframe

mapreduce
リンク
Apache Sparkってどんなものか見てみる（その１ - 夢とガラクタの集積場
こんにちは。 Kafkaを試している最中で微妙ですが、最近使えるのかなぁ、と情報を集めているのが「Apache Spark」です。 MapReduceと同じく分散並行処理を行う基盤なのですが、MapReduceよりも数十倍速いとかの情報があります。・・・んな阿呆な、とも思ったのですが、内部で保持しているRDDという仕組みが面白いこともあり、とりあえず資料や論文を読んでみることにしました。まず見てみた資料は「Overview of Spark」（http://spark.incubator.apache.org/talks/overview.pdf）です。というわけで、読んだ結果をまとめてみます。 Sparkとは？高速でインタラクティブな言語統合クラスタコンピューティング基盤 Sparkプロジェクトのゴールは？以下の2つの解析ユースケースにより適合するようMapReduceを拡張
nabinno 2019/12/15
apache-spark

mapreduce

apache-hadoop

distributed-computing

concurrent-computing
リンク
概要 - Spark 2.0.0 ドキュメント日本語訳
Sparkの概要 Apache Sparkは高速で汎用的なクラスタコンピュータシステムです。Java, Scale, PythonおよびRの高レベルのAIPを提供し、一般的な実行グラフをサポートする最適化されたエンジンを提供します。SQLおよび構造データのためのSpark SQL、機械学習のためのMLlib、グラフ処理のためのGraphX およびSpark Streamingを含む高レベルのツールの充実したセットもサポートします。ダウンロードプロジェクトのwebサイトのダウンロードページからSparkを取得します。このドキュメントはSpark バージョン 2.0.0 のものです。SparkはHDFSおよびYARNのためにHadoopのクライアントライブラリを使用します。ダウンロードは少数の一般的なHadoopバージョンのためにあらかじめパッケージ化されています。ユーザは"Hadoo
nabinno 2019/12/15
apache-spark

mapreduce

apache-hadoop

documentation
リンク
O'Reilly Japan - 入門 PySpark
PythonからSparkを利用するための機能、PySparkを使いこなすテクニックとノウハウを習得する書籍です。はじめに高速になったSpark 2.0の特徴とアーキテクチャを解説し、次に構造化及び非構造化データの読み取り、PySparkで利用できる基本的なデータ型、MLlibとMLパッケージによる機械学習モデルの構築を説明します。さらにGraphFramesを使ったグラフの操作、ストリーミングデータの読み取り、クラウドへのモデルのデプロイなどの方法を豊富なサンプルと一緒に学びます。またローカルでのSpark＋Python＋Jupyter環境の構築方法も紹介。大規模なデータを処理し、活用したいエンジニア必携の一冊です。序文訳者まえがきはじめに 1章　Sparkを理解する 1.1　Apache Sparkとは 1.2　SparkのジョブとAPI 1.2.1　実行のプロセス 1.2.2　
nabinno 2019/12/15
oreilly

tomasz-drabas

pyspark

apache-spark

mapreduce

distributed-computing

concurrent-computing

e-book

python
リンク
Apache Spark で分散処理入門 - Qiita
Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 2.0.0 /_/ 2016年7月末にApache Spark 2.0.0がリリースされ、始めてみたので色々メモメモなのでご容赦ください🙇 また、この記事中にサンプルで載せているコードはjavaがメインですがscala、pythonの方がすっきりかけている気がじます。これからも随時編集していきます Apache Spark とは上の画像はhttps://spark.apache.orgから、場合によってはHadoopのMapReduce100倍速いらしいです、強い、Spark Sparkは巨大なデータに対して高速に分散処理を行うオープンソースのフレームワーク。 (Java Magazin
nabinno 2019/12/15
qiita

apache-spark

mapreduce

distributed-computing

concurrent-computing

guide
リンク
分散処理に入門してみた（Hadoop + Spark） | Casley Deep Innovations株式会社技術ブログ
こんにちは。SI部の腰塚です。 RDBやデータウェアハウスの仕事に携わることが多かった筆者は、数年前からたびたび聞こえたビッグデータ分析や機械学習のための分散処理フレームワークに興味を覚えたものの、ついぞアクセスしないままここまで来てしまいました。今回ブログを書くにあたって、せっかくなのでイチから手さぐり入門し、いまさら他人に聞けない分散処理の初歩からhadoop・sparkを触ってみるまでをまとめたいと思います。 1.分散処理の基礎知識 1-1.分散処理の処理方式：MapReduce まず分散処理とは、ひとつの計算処理をネットワークで接続した複数のコンピュータで同時並列で処理することです。ビッグデータ活用の市場が日々大きくなるに従って、数百テラ～ペタのデータ処理も珍しいものではなくなっており、日常的にこの規模のデータを扱うシステムでは、現実的な時間的・費用的コストで処理する工夫が必要
nabinno 2019/12/15
apache-hadoop

apache-spark

mapreduce

distributed-computing

concurrent-computing
リンク
Apache Spark - Wikipedia
Apache Sparkはオープンソースのクラスタコンピューティングフレームワークである。カリフォルニア大学バークレー校のAMPLabで開発されたコードが、管理元のApacheソフトウェア財団に寄贈された。Sparkのインタフェースを使うと、暗黙のデータ並列性と耐故障性を備えたクラスタ全体をプログラミングできる。日経BP社が発表した「ITインフラテクノロジーAWARD 2015」において、SparkはDockerに次ぐ準グランプリとされた[2]。概要[編集] フォールトトレラントシステムで管理され、複数マシンのクラスタに分散されたデータ項目の読み取り専用多重集合であるRDD（resilient distributed dataset）と呼ばれるデータ構造を中心とするアプリケーションプログラミングインターフェイスを備えている。MapReduceは、分散プログラム上で特定の線形データフロー
nabinno 2019/09/18
apache-spark

mapreduce

scala
リンク
Apache Spark - Wikipedia
Apache Spark is an open-source unified analytics engine for large-scale data processing. Spark provides an interface for programming clusters with implicit data parallelism and fault tolerance. Originally developed at the University of California, Berkeley's AMPLab, the Spark codebase was later donated to the Apache Software Foundation, which has maintained it since. Overview[edit] Apache Spark ha
nabinno 2016/01/05
apache-spark

apache-sftware-foundation

mapreduce

database

machine-learning

python
リンク
初めてのSpark
Sparkの概要、RDDを使ったプログラミング、キー／値ペアの処理など基礎的な説明から、Sparkの高度なプログラミング、クラスタ上での本格的な利用まで解説した、Sparkの総合的な入門書です。日本語版の内容にはバージョン1.3/1.4での機能強化も取り入れ、土橋昌氏による「原書発行以降の変更点」、猿田浩輔氏による「Spark SQLについて本編の補足」、堀越保徳氏と濱口智大氏による「Spark/MapReduceの機械学習ライブラリ比較検証」を収録。全編にわたりCloudera株式会社エンジニアチームによるテクニカルレビューを実施。Sparkについて包括的に学べる本書は、ビッグデータや機械学習に携わる開発者必携の一冊です。目次はじめに日本語版まえがきまえがき 1章　Sparkによるデータ分析への招待 1.1　Apache Sparkとは何か？ 1.2　統合スタック 1.2.1　S
nabinno 2015/08/11
oreilly

holden-harau

apache-spark

mapreduce

distributed-computing

e-book
リンク
[Apache Spark]RDDについて簡単にまとめてみた | DevelopersIO
はじめに t.hondaです。前回の最後に書いたように、今回はRDDについて書いてみたいと思います。 RDD(Resilient Distributed Dataset) RDDとは、以前にも書きましたが「不変(イミュータブル)で並列実行可能な(分割された)コレクション」です。Apache Sparkのプログラミングでは、このRDDにデータを保持して操作することがメインとなります。RDDの操作には用意されているメソッドを使うことで、Sparkは自動的に分散処理を行い、開発者は分散処理を意識することなくプログラミングできます。 RDDのメソッドの種類 RDDに保持したデータを操作するメソッドは大きく分けて2つに分類されます。「Transf ormations」と「Actions」です。「Transf ormations」はRDDを操作し、結果を新しいRDDとして返します。「Actions」はRD
nabinno 2015/03/30
classmethod

apache-spark
リンク
Apache Spark™ - Unified Engine for large-scale data analytics
Apache Spark™ is a multi-language engine for executing data engineering, data science, and machine learning on single-node machines or clusters.
nabinno 2014/12/07
apache-spark

data-mining

python

graphx

scala

apache-software-foundation

machine-learning

mapreduce

database
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx