[B! apache][Spark] J138のブックマーク

J138 id:J138

apacheとSparkに関するJ138のブックマーク (3)

[Apache Spark]RDDについて簡単にまとめてみた | DevelopersIO
はじめに t.hondaです。前回の最後に書いたように、今回はRDDについて書いてみたいと思います。 RDD(Resilient Distributed Dataset) RDDとは、以前にも書きましたが「不変(イミュータブル)で並列実行可能な(分割された)コレクション」です。Apache Sparkのプログラミングでは、このRDDにデータを保持して操作することがメインとなります。RDDの操作には用意されているメソッドを使うことで、Sparkは自動的に分散処理を行い、開発者は分散処理を意識することなくプログラミングできます。 RDDのメソッドの種類 RDDに保持したデータを操作するメソッドは大きく分けて2つに分類されます。「Transf ormations」と「Actions」です。「Transf ormations」はRDDを操作し、結果を新しいRDDとして返します。「Actions」はRD
J138 2015/03/30
Apache

Spark

Scala
リンク
Apache Spark による推薦システム案件例
2015-03-21 #TokyoWebmining 44th の発表資料です。
J138 2015/03/23
Apache

Spark
リンク
楽しい可視化： elasticsearchとSpark Streamingの出会い | NTTデータ先端技術株式会社
0. ログやデータを取得した後は？ログやデータの分析には、様々なアプローチが考えられるが、Apache Solrやelasticsearchといった全文検索エンジン製品にデータを蓄積し、その機能を用いて検索・集計・分析を行う方法がある。その際、データをそのまま蓄積するのではなく、各ツイート・各行に属性を付与（エンリッチメント）することにより、分析の幅は大きく広がる。全文検索エンジンへのデータの投入では、Flume-ngやfluentdといったデータ収集製品を利用する実例が多い。しかし、リアルタイムにデータに対してエンリッチメントの前処理を行おうとした場合、処理が複雑になるにつれ、単体サーバーで動作するFlume-ngやfluentdでは処理能力が頭打ちになってくる。そこで、登場するのが、リアルタイムに大量のデータを処理することができるストリーミング処理系のビッグデータ関連技術である。
J138 2015/03/06
Spark

Apache
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx