JJUG CCC 2015 Fall http://www.java-users.jp/?page_id=2056
だいぶ今更ながらですが、Apache Sparkを試してみることにしました。前々から、興味がちょっとありまして。 Apache Spark http://spark.apache.org/ Apache Spark の紹介(前半:Sparkのキホン) http://www.slideshare.net/hadoopxnttdata/apache-spark-spark Apache Sparkのご紹介 (後半:技術トピック) http://www.slideshare.net/hadoopxnttdata/apache-spark が、あんまりSpark自体まだよくわかっていないので、ちょっとずつ触りながら感覚をつかめたらいいなーと思っています。 とりあえず、くじけなければ継続テーマにするつもりです(笑)。 では、Hello World的に始めてみたいと思います。 Apache Spark
はじめに t.hondaです。前回の最後に書いたように、今回はRDDについて書いてみたいと思います。 RDD(Resilient Distributed Dataset) RDDとは、以前にも書きましたが「不変(イミュータブル)で並列実行可能な(分割された)コレクション」です。Apache Sparkのプログラミングでは、このRDDにデータを保持して操作することがメインとなります。RDDの操作には用意されているメソッドを使うことで、Sparkは自動的に分散処理を行い、開発者は分散処理を意識することなくプログラミングできます。 RDDのメソッドの種類 RDDに保持したデータを操作するメソッドは大きく分けて2つに分類されます。「Transformations」と「Actions」です。「Transformations」はRDDを操作し、結果を新しいRDDとして返します。「Actions」はRD
$ mkdir SparkGroovyExample $ cd SparkGroovyExample $ gradle init --type groovy-library build.gradleを編集。 dependenciesにsparkを追加。 "gradlew run"が使いたかったので、applicationプラグインを追加し、mainClassNameを指定している。 apply plugin: 'groovy' apply plugin: 'application' mainClassName = 'ExampleService' // パッケージ名も必要に応じて指定 foo.bar.ExampleService等 repositories { jcenter() } dependencies { compile 'org.codehaus.groovy:groovy-al
2月21日(土)にスマートニュースさんの新オフィスで開催された「実戦での Scala 〜6つの事例から知る Scala の勘所〜」で発表してきました。togetterでのまとめはこちら。 ビズリーチの新サービスをScalaで作ってみた 〜マイクロサービスの裏側 #jissenscala from takezoe スマートニュースの村石さんが「Scalaで快適に開発するためにはいいマシンを使う」と仰られてましたが、3年前のScala Conferenceで全く同じことを言った記憶があります。Javaのコンパイルも昔は死ぬほど遅かったですが、当時とはCPUの進化の方向が違うのでScalaに関しては今後も当分はコンパイル遅い問題は続いていくでしょう。 普及という観点では、昨年くらいからWeb界隈を中心にいろんな会社でScalaが使われるようになってきました。最初にScalaを実戦投入しは
日経BPのITインフラテクノロジーAWARD 2015が発表されました。2015年にブレークすると予想されるクラウドやビッグデータの製品やサービスを選出しています。グランプリにDocker、準グランプリにApache Sparkが選ばれました。Sparkは2014年に入り盛り上がってきています。インメモリで高速に分散処理ができるため、機械学習のような繰り返し処理に向いています。MLibの機械学習ライブラリもあるので分散型機械学習フレームワークとして注目を集めています。そんなDockerとSparkを使い手軽に分散型機械学習の環境をつくり勉強していこうと思います。 このシリーズ Spark on Dockerで分散型機械学習を始める - Part 1: インストール Spark on Dockerで分散型機械学習を始める - Part 2: UbuntuでIPython Notebookを使
このエントリは G*Advent Calendar(Groovy,Grails,Gradle,Spock...) Advent Calendar 2014 - Qiita の12/20担当分です。 Apache Sparkとは? Hadoopエコシステムにおける次世代の分散処理基盤として注目されています。インメモリ処理とDAGによるタスクスケジューリングを特徴とし、分散処理に必要な耐障害性を備えています。また、RDDという共通のプログラミングモデルの上で機械学習やストリーミング処理が統一的に扱えるため、複雑なビッグデータ処理を実装するのに有利です。 概要をつかむにはこのへんの資料がよいかと思います。 Spark MLlibではじめるスケーラブルな機械学習 from NTT DATA OSS Professional Services Groovyから使ってみようと思った動機 公式サイト A
以前、H2 を使って CSV ファイルを SQL で処理しましたが、今回は Spark SQL を使ってみました。 Spark SQL 「IPアドレスから地域を特定する2 - GeoLite Legacy Country CSV」 で使った GeoLite Legacy Country CSV を使って同様の処理を Spark SQL で実装します。 GeoLite Legacy 今回のソースは http://github.com/fits/try_samples/tree/master/blog/20141103-2/ Spark SQL を使って IP アドレスから国判定 Spark SQL で扱うテーブルのスキーマを定義する方法はいくつか用意されているようですが、今回はケースクラスをスキーマとして登録する方法で実装しました。 処理の手順は下記のようになります。 (1) スキーマ用のク
You want to learn scala. And you want to learn spark. And you've heard of SBT. Where do you start? There are alot of different idioms ...
Sparkの設定やチューニングにおいてはいくつかの方法があり、かつSpark standaloneなのかYARNなのかによってもやり方が変わってわかりにくいのでまとめてみた。 (追記:情報は2014年8月時点のものです) Sparkのプロパティをセットするにはいくつか方法があるが、コード中にハードコーディングする方法がある。 val conf = new SparkConf() .setMaster("local") .setAppName("CountingSheep") .set("spark.executor.memory", "1g") val sc = new SparkContext(conf) (Sparkドキュメントより引用) 特定のプロパティをSparkConf内でハードコードしたくない場合、初期化状態でSparkConfを定義した後、オプションで任意のプロパティをセット
Spark 1.0が、5/30にようやくリリースされた…! Announcing Spark 1.0 The Apache Software Foundation Announces Apache™ Spark™ v1.0 さておきYARNモードにてSparkサンプルプログラムを動かしてみたのだが、そもそもの前提とか、書くと長くなるので前半/後半に分ける。前半は、YARNに関わらない部分もあるが、周辺用語の覚え書き。 Sparkの動作モード周辺の概念や用語が分かりにくいので、まとめてみた。まず、Sparkの起動モードには以下3種類がある。(Mesos使う場合は、調べてないので不明) Spark Stand Aloneモード Spark yarn-clientモード Spark yarn-clusterモード 最後のyarn-clusterモードは、Clouderaのドキュメントに書かれてい
Our thanks to Prashant Sharma and Matei Zaharia of Databricks for their permission to re-publish the post below about future Java 8 support in Apache Spark. Spark is now generally available inside CDH 5. One of Apache Spark‘s main goals is to make big data applications easier to write. Spark has always had concise APIs in Scala and Python, but its Java API was verbose due to the lack of function e
以前、sbt を使って Scala で Hadoop MapReduce 実装 や Groovy で Storm を使う で実施したお金の数え上げ処理を Spark 0.8 を使って Java で実装してみました。 Spark は以前、Spark を使って単純なレコメンドを実施 で 0.4 を試しましたが、0.8 でも API に大きな変化はないようです。(パッケージ名は org.apache.spark へ変わってますが) Apache Spark 0.8.0 サンプルソースは http://github.com/fits/try_samples/tree/master/blog/20131116/ はじめに 実装する処理内容は、下記のようなファイルを読み込んで数値毎にカウントするだけの単純なものです。 input_sample.txt 100 1 5 50 500 1000 10000
■Hadoop Conference Japan 2014 講演資料 (2014/07/08) 『Spark1.0での動作検証 - Hadoopユーザ・デベロッパから見たSparkへの期待』 NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 土橋 昌 http://oss.nttdata.co.jp 本資料は2014年7月1日にサンフランシスコで開催された Spark Summit 2014 での講演資料を加筆・修正したものです。 http://spark-summit.org/2014/agenda#day2 http://spark-summit.org/2014/talk/spark-on-large-hadoop-cluster-and-evaluation-from-the-view-point-of-enterprise-hadoop-user-and-de
Hadoopソースコードリーディング 第16回に参加してきました。今回は1.0がリリースされる目前のApache Sparkがテーマでした。 NTTデータ濱野さんの冒頭の挨拶 Spark1.0リリースを記念する予定が、されていないw 今回はお酒を飲んでグダグダする時間はないw Apache Sparkのご紹介(前半) NTTデータ土橋さん まずは土橋さんからSparkの背景やSpark Summit 2013の振り返り、Sparkの基本についての説明がありました。詳細はスライドを見てもらった方がいいですが、さくっと雰囲気を掴みたい方は以下のメモをご参照下さい。 土橋さん 6年前からHadoopに関わっている。 基本はインフラエンジニア Ansible使っている。 アジェンダ Sparkの背景 Spark Summit 2013振り返り Sparkのキホン RDD スケジューラ 前提 机上調
今熱い視線を向けつつもそれだけで終わってしまっている Apache Spark の勉強会があるということで Hadoopソースコードリーディング 第16回 Tickets, Thu, May 29, 2014 at 7:00 PM | Eventbrite に参加してきました。Hadoop じゃなかった気もするけど奇しくも初の Hadoop ソースコードリーディング参加で非常に濃密な時間を過ごすことができました。 スライドもかなり濃密で前の方に早く来て座ってて良かったーと思ってたんですが素晴らしいことに全部 Slideshare で公開されました。何度も反芻しないと理解しきれない感じしていたので大変ありがたいです。 ということでやや勘違いしているところもありそうですがメモを残しておきます。 Apache Spark のご紹介 前半 (土橋昌さん / NTT データ) Apache Spar
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く