[B! spark] nyasbaのブックマーク

Java8 Stream APIとApache SparkとAsakusa Frameworkの類似点・相違点

JJUG CCC 2015 Fall http://www.java-users.jp/?page_id=2056

nyasba 2015/11/28

spark
java

リンク

Apache Sparkことはじめ - CLOVER🍀

だいぶ今更ながらですが、Apache Sparkを試してみることにしました。前々から、興味がちょっとありまして。 Apache Spark http://spark.apache.org/ Apache Spark の紹介（前半：Sparkのキホン） http://www.slideshare.net/hadoopxnttdata/apache-spark-spark Apache Sparkのご紹介（後半：技術トピック） http://www.slideshare.net/hadoopxnttdata/apache-spark が、あんまりSpark自体まだよくわかっていないので、ちょっとずつ触りながら感覚をつかめたらいいなーと思っています。とりあえず、くじけなければ継続テーマにするつもりです（笑）。では、Hello World的に始めてみたいと思います。 Apache Spark

nyasba 2015/07/25

spark
scala

リンク

[Apache Spark]RDDについて簡単にまとめてみた | DevelopersIO

はじめに t.hondaです。前回の最後に書いたように、今回はRDDについて書いてみたいと思います。 RDD(Resilient Distributed Dataset) RDDとは、以前にも書きましたが「不変(イミュータブル)で並列実行可能な(分割された)コレクション」です。Apache Sparkのプログラミングでは、このRDDにデータを保持して操作することがメインとなります。RDDの操作には用意されているメソッドを使うことで、Sparkは自動的に分散処理を行い、開発者は分散処理を意識することなくプログラミングできます。 RDDのメソッドの種類 RDDに保持したデータを操作するメソッドは大きく分けて2つに分類されます。「Transf ormations」と「Actions」です。「Transf ormations」はRDDを操作し、結果を新しいRDDとして返します。「Actions」はRD

nyasba 2015/03/25

spark

リンク

Spark FrameworkをGroovyで動かす - Qiita

$ mkdir SparkGroovyExample $ cd SparkGroovyExample $ gradle init --type groovy-library build.gradleを編集。 dependenciesにsparkを追加。 "gradlew run"が使いたかったので、applicationプラグインを追加し、mainClassNameを指定している。 apply plugin: 'groovy' apply plugin: 'application' mainClassName = 'ExampleService' // パッケージ名も必要に応じて指定 foo.bar.ExampleService等 repositories { jcenter() } dependencies { compile 'org.codehaus.groovy:groovy-al

nyasba 2015/03/11

Groovy
spark

リンク

実戦での Scala 〜6つの事例から知る Scala の勘所〜で発表してきました - たけぞう瀕死ブログ

2月21日（土）にスマートニュースさんの新オフィスで開催された「実戦での Scala 〜6つの事例から知る Scala の勘所〜」で発表してきました。togetterでのまとめはこちら。ビズリーチの新サービスをScalaで作ってみた〜マイクロサービスの裏側 #jissenscala from takezoe スマートニュースの村石さんが「Scalaで快適に開発するためにはいいマシンを使う」と仰られてましたが、3年前のScala Conferenceで全く同じことを言った記憶があります。Javaのコンパイルも昔は死ぬほど遅かったですが、当時とはCPUの進化の方向が違うのでScalaに関しては今後も当分はコンパイル遅い問題は続いていくでしょう。普及という観点では、昨年くらいからWeb界隈を中心にいろんな会社でScalaが使われるようになってきました。最初にScalaを実戦投入しは

nyasba 2015/02/26

リンク

Spark on Dockerで分散型機械学習を始める - Part1: インストール - Qiita

日経BPのITインフラテクノロジーAWARD 2015が発表されました。2015年にブレークすると予想されるクラウドやビッグデータの製品やサービスを選出しています。グランプリにDocker、準グランプリにApache Sparkが選ばれました。Sparkは2014年に入り盛り上がってきています。インメモリで高速に分散処理ができるため、機械学習のような繰り返し処理に向いています。MLibの機械学習ライブラリもあるので分散型機械学習フレームワークとして注目を集めています。そんなDockerとSparkを使い手軽に分散型機械学習の環境をつくり勉強していこうと思います。このシリーズ Spark on Dockerで分散型機械学習を始める - Part 1: インストール Spark on Dockerで分散型機械学習を始める - Part 2: UbuntuでIPython Notebookを使

nyasba 2015/02/08

spark
docker

リンク

GroovyでApache Sparkアプリケーションを作る #gadvent - nobusueの日記

このエントリは G*Advent Calendar(Groovy,Grails,Gradle,Spock...) Advent Calendar 2014 - Qiita の12/20担当分です。 Apache Sparkとは? Hadoopエコシステムにおける次世代の分散処理基盤として注目されています。インメモリ処理とDAGによるタスクスケジューリングを特徴とし、分散処理に必要な耐障害性を備えています。また、RDDという共通のプログラミングモデルの上で機械学習やストリーミング処理が統一的に扱えるため、複雑なビッグデータ処理を実装するのに有利です。概要をつかむにはこのへんの資料がよいかと思います。 Spark MLlibではじめるスケーラブルな機械学習 from NTT DATA OSS Professional Services Groovyから使ってみようと思った動機公式サイト A

nyasba 2014/12/21

spark

リンク

Spark MLlibではじめるスケーラブルな機械学習

JJUG ナイト・セミナー「機械学習・自然言語処理特集！」（2014/12/17）講演資料『Spark MLlibではじめるスケーラブルな機械学習』 NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス猿田浩輔

nyasba 2014/12/19

spark

リンク

Spark SQL で CSV ファイルを処理 - GeoLite Legacy - なんとなくな Developer のメモ

以前、H2 を使って CSV ファイルを SQL で処理しましたが、今回は Spark SQL を使ってみました。 Spark SQL 「IPアドレスから地域を特定する2 - GeoLite Legacy Country CSV」で使った GeoLite Legacy Country CSV を使って同様の処理を Spark SQL で実装します。 GeoLite Legacy 今回のソースは http://github.com/fits/try_samples/tree/master/blog/20141103-2/ Spark SQL を使って IP アドレスから国判定 Spark SQL で扱うテーブルのスキーマを定義する方法はいくつか用意されているようですが、今回はケースクラスをスキーマとして登録する方法で実装しました。処理の手順は下記のようになります。 (1) スキーマ用のク

nyasba 2014/12/03

spark

リンク

Set up a spark application devleopment environment in Fedora

You want to learn scala. And you want to learn spark. And you've heard of SBT. Where do you start? There are alot of different idioms ...

nyasba 2014/10/05

spark

リンク

Failing gracefully

Spark Meetup (2014/09/12) の Aaron さんの資料をあずかったのでこちらにアップします。

nyasba 2014/09/13

spark

リンク

Spark configプロパティをまとめてみる (1) – OpenGroove

Sparkの設定やチューニングにおいてはいくつかの方法があり、かつSpark standaloneなのかYARNなのかによってもやり方が変わってわかりにくいのでまとめてみた。（追記：情報は2014年8月時点のものです） Sparkのプロパティをセットするにはいくつか方法があるが、コード中にハードコーディングする方法がある。 val conf = new SparkConf() .setMaster("local") .setAppName("CountingSheep") .set("spark.executor.memory", "1g") val sc = new SparkContext(conf) （Sparkドキュメントより引用）特定のプロパティをSparkConf内でハードコードしたくない場合、初期化状態でSparkConfを定義した後、オプションで任意のプロパティをセット

nyasba 2014/08/13

spark

リンク

Spark & YARNを試してみる（前半） – OpenGroove

Spark 1.0が、5/30にようやくリリースされた…！ Announcing Spark 1.0 The Apache Software Foundation Announces Apache™ Spark™ v1.0 さておきYARNモードにてSparkサンプルプログラムを動かしてみたのだが、そもそもの前提とか、書くと長くなるので前半／後半に分ける。前半は、YARNに関わらない部分もあるが、周辺用語の覚え書き。 Sparkの動作モード周辺の概念や用語が分かりにくいので、まとめてみた。まず、Sparkの起動モードには以下3種類がある。(Mesos使う場合は、調べてないので不明） Spark Stand Aloneモード Spark yarn-clientモード Spark yarn-clusterモード最後のyarn-clusterモードは、Clouderaのドキュメントに書かれてい

nyasba 2014/08/06

spark

リンク

Making Apache Spark Easier to Use in Java with Java 8 - Cloudera Blog

Our thanks to Prashant Sharma and Matei Zaharia of Databricks for their permission to re-publish the post below about future Java 8 support in Apache Spark. Spark is now generally available inside CDH 5. One of Apache Spark‘s main goals is to make big data applications easier to write. Spark has always had concise APIs in Scala and Python, but its Java API was verbose due to the lack of function e

nyasba 2014/07/31

spark

リンク

Java で Apache Spark を使用 - なんとなくな Developer のメモ

以前、sbt を使って Scala で Hadoop MapReduce 実装や Groovy で Storm を使うで実施したお金の数え上げ処理を Spark 0.8 を使って Java で実装してみました。 Spark は以前、Spark を使って単純なレコメンドを実施で 0.4 を試しましたが、0.8 でも API に大きな変化はないようです。（パッケージ名は org.apache.spark へ変わってますが） Apache Spark 0.8.0 サンプルソースは http://github.com/fits/try_samples/tree/master/blog/20131116/ はじめに実装する処理内容は、下記のようなファイルを読み込んで数値毎にカウントするだけの単純なものです。 input_sample.txt 100 1 5 50 500 1000 10000

nyasba 2014/07/31

spark

リンク

Spark1.0での動作検証 - Hadoopユーザ・デベロッパから見たSparkへの期待（Hadoop Conference Japan 2014）

■Hadoop Conference Japan 2014 講演資料（2014/07/08）『Spark1.0での動作検証 - Hadoopユーザ・デベロッパから見たSparkへの期待』 NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス土橋昌 http://oss.nttdata.co.jp 本資料は2014年7月1日にサンフランシスコで開催された Spark Summit 2014 での講演資料を加筆・修正したものです。 http://spark-summit.org/2014/agenda#day2 http://spark-summit.org/2014/talk/spark-on-large-hadoop-cluster-and-evaluation-from-the-view-point-of-enterprise-hadoop-user-and-de

nyasba 2014/07/18

spark

リンク

Hadoopソースコードリーディング第16回に参加してきました | DevelopersIO

Hadoopソースコードリーディング第16回に参加してきました。今回は1.0がリリースされる目前のApache Sparkがテーマでした。 NTTデータ濱野さんの冒頭の挨拶 Spark1.0リリースを記念する予定が、されていないｗ今回はお酒を飲んでグダグダする時間はないｗ Apache Sparkのご紹介（前半） NTTデータ土橋さんまずは土橋さんからSparkの背景やSpark Summit 2013の振り返り、Sparkの基本についての説明がありました。詳細はスライドを見てもらった方がいいですが、さくっと雰囲気を掴みたい方は以下のメモをご参照下さい。土橋さん 6年前からHadoopに関わっている。基本はインフラエンジニア Ansible使っている。アジェンダ Sparkの背景 Spark Summit 2013振り返り Sparkのキホン RDD スケジューラ前提机上調

nyasba 2014/07/18

spark

リンク

『Hadoopソースコードリーディング第16回』で Apache Spark の勉強をしてきました #hadoopreading - べにやまぶろぐ

今熱い視線を向けつつもそれだけで終わってしまっている Apache Spark の勉強会があるということで Hadoopソースコードリーディング第16回 Tickets, Thu, May 29, 2014 at 7:00 PM | Eventbrite に参加してきました。Hadoop じゃなかった気もするけど奇しくも初の Hadoop ソースコードリーディング参加で非常に濃密な時間を過ごすことができました。スライドもかなり濃密で前の方に早く来て座ってて良かったーと思ってたんですが素晴らしいことに全部 Slideshare で公開されました。何度も反芻しないと理解しきれない感じしていたので大変ありがたいです。ということでやや勘違いしているところもありそうですがメモを残しておきます。 Apache Spark のご紹介前半 (土橋昌さん / NTT データ) Apache Spar

nyasba 2014/07/18

spark

リンク

Apache Sparkのご紹介（後半：技術トピック）

第16回 Hadoopソースコードリーディング(2014/05/29) 発表資料『Apache Sparkのご紹介』（後半：技術トピック） NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス猿田浩輔 (Kousuke Saruta) http://oss.nttdata.co.jp/ 前半はこちら → http://www.slideshare.net/hadoopxnttdata/apache-spark-spark

nyasba 2014/07/18

spark

リンク

Apache Spark の紹介（前半：Sparkのキホン）

第16回 Hadoopソースコードリーディング(2014/05/29) 発表資料『Apache Sparkのご紹介』（前半：Sparkのキホン） NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス土橋昌 (Masaru Dobashi) http://oss.nttdata.co.jp/ 後半はこちら → http://www.slideshare.net/hadoopxnttdata/apache-spark