タグ

Sparkに関するJ138のブックマーク (37)

  • MySQLではできないことができるデータベース(広義)達

    自分は一応暫くMySQLの開発者だったので、MySQLでできることできないことはすぐわかる訳です。現実的な問題と対峙すること1年間、MySQLは使えることにしか使わないわけで、そうすると構築してしまうと、アラートメールが全く来ないので、水や空気のように存在を忘れてしまいます。でも、使えないことには全く使う気がしないわけで…。というわけでMySQLは結局逆にあまり触れていません。限られた範囲では完成を見ているというわけでしょうか。 データを処理して何か貯めて利用できるものをデータベースとするならば、MySQLを適用する気も起きないような領域があって、近年はそのような領域に挑む別の道具が出てきています。 今回は趣向を変えて、いろいろ現状MySQLでは扱えない問題の解決法を模索したことについて少し触れます。MySQLを離れた話題ですが、いつか遠い未来にMySQLの世界に持って帰る事柄かも知れませ

  • Java で Apache Spark を使用 - なんとなくな Developer のメモ

    以前、sbt を使って Scala で Hadoop MapReduce 実装 や Groovy で Storm を使う で実施したお金の数え上げ処理を Spark 0.8 を使って Java で実装してみました。 Spark は以前、Spark を使って単純なレコメンドを実施 で 0.4 を試しましたが、0.8 でも API に大きな変化はないようです。(パッケージ名は org.apache.spark へ変わってますが) Apache Spark 0.8.0 サンプルソースは http://github.com/fits/try_samples/tree/master/blog/20131116/ はじめに 実装する処理内容は、下記のようなファイルを読み込んで数値毎にカウントするだけの単純なものです。 input_sample.txt 100 1 5 50 500 1000 10000

    Java で Apache Spark を使用 - なんとなくな Developer のメモ
    J138
    J138 2015/11/06
  • Spark Streaming最初の一歩 - pochi's weblog

    はじめに Spark, SQL on Hadoop etc. Advent Calendar 2014 15日目です。 3日目の記事でもSpark Streamingは紹介されていましたが、私のほうではより初心者向けの基的な内容を記述しておきたいと思います。 Spark Streamingとは リアルタイムログ検索エンジンを考えてみる 実装してみる Spark Streamingとは Apache Sparkはインメモリで動作する柔軟なバッチエンジンです。 Spark Streamingはストリームで流れてくるデータに対してApache Sparkで書いたバッチが動作するものです。 誤解を恐れずにいうとSpark Streamingは主に以下の3つの機能を提供しています。 各種ストリームデータを取得するためのコネクタ(Receiver)を提供する ストリームデータをSparkのRDDのよ

    Spark Streaming最初の一歩 - pochi's weblog
    J138
    J138 2015/11/05
  • Running Apache Spark Cluster by using Kubernetes

  • AWS News Blog

    AWS Week in Review – AWS Documentation Updates, Amazon EventBridge is Faster, and More – May 22, 2023 Here are your AWS updates from the previous 7 days. Last week I was in Turin, Italy for CloudConf, a conference I’ve had the pleasure to participate in for the last 10 years. AWS Hero Anahit Pogosova was also there sharing a few serverless tips in front of a full house. Here’s a picture I […] Amaz

    J138
    J138 2015/06/18
  • TechCrunch | Startup and Technology News

    The start of a new season is always a good time to revisit past predictions and look for new topics to track. Today, dry powder and university spinouts.

    TechCrunch | Startup and Technology News
    J138
    J138 2015/06/17
  • Scala SparkでTwitterのストリーミング処理テスト on Vagrant Ubuntu 14.04 - Qiita

    やること Vagrant up Twitterアプリケーション作成準備 Install Scala (and sbt) Sparkの外部ライブラリのダウンロードなど 実装 Apache Sparkで始めるお手軽リアルタイムウインドウ集計 そのメモ 概要 基的に(1)のサイトに沿って実装していきますが,ハマった部分の解説を足していこうと思います. 元々やりたかったことは # -*- mode: ruby -*- # vi: set ft=ruby : # Vagrantfile API/syntax version. Don't touch unless you know what you're doing! VAGRANTFILE_API_VERSION = "2" Vagrant.configure(VAGRANTFILE_API_VERSION) do |config| config

    Scala SparkでTwitterのストリーミング処理テスト on Vagrant Ubuntu 14.04 - Qiita
  • Spark Summit Sched & Perf1 「Spark Performance」 - 夢とガラクタの集積場

    こんにちは。 間が空いてしまっていますが、 Spark Summitの資料をとりあえず読んでみよう、の第2弾です。 今回は「Spark Performance」を見てみました。 概要の次にいきなり性能の資料に入ってしまうあたり趣味を反映している気もしますが^^; では、見てみます。 あと、この情報はSpark0.8.1準拠だそうです。現状の最新版ですね。 Spark deep dive まず、下記のRDDの記述によって性能が変わることを理解いただきたい。 ■RDD (patrick, $24), (matei, $30), (patrick, $1), (aaron, $23), (aaron, $2), (reynold, $10), (aaron, $10)….. ■パターン1(groupByKey) このパターンの場合、groupByKeyオペレーションを実行したタイミングで全データ

    Spark Summit Sched & Perf1 「Spark Performance」 - 夢とガラクタの集積場
    J138
    J138 2015/04/02
  • しつこいがSpark & YARNの補足 – OpenGroove

    しばらく前から気になっていたタイトルの問題、以下ブログに詳細が書かれており、やっと点が線につながってきた… Apache Spark Resource Management and YARN App Models 寝かせておくといつになるか分からない、かつ、読む気と書く気が失せるので、個人的に気になった点だけ今ここで要約しておく。意訳/誤訳/勝手に追記したりしてるので参考はほどほどに。 以下… MapReduceモデルでは最も上位の計算ユニットはJobだが、Sparkはその上にapplicationというレベルが存在する。applicatinsはJobをシーケンシャルに、もしくはパラレルに実行することができる。 Applicationはexecutorsと呼ばれるプロセスを持つ。executorはジョブが走っていない時でも起動している(データをメモリに保持し、タスクに対して素早く対応するこ

  • 分散処理に入門してみた(Hadoop + Spark) | Casley Deep Innovations株式会社 技術ブログ

    こんにちは。SI部の腰塚です。 RDBやデータウェアハウスの仕事に携わることが多かった筆者は、数年前からたびたび聞こえたビッグデータ分析機械学習のための分散処理フレームワークに興味を覚えたものの、ついぞアクセスしないままここまで来てしまいました。 今回ブログを書くにあたって、せっかくなのでイチから手さぐり入門し、いまさら他人に聞けない分散処理の初歩からhadoop・sparkを触ってみるまでをまとめたいと思います。 1.分散処理の基礎知識 1-1.分散処理の処理方式:MapReduce まず分散処理とは、ひとつの計算処理をネットワークで接続した複数のコンピュータで同時並列で処理することです。 ビッグデータ活用の市場が日々大きくなるに従って、数百テラ~ペタのデータ処理も珍しいものではなくなっており、日常的にこの規模のデータを扱うシステムでは、現実的な時間的・費用的コストで処理する工夫が必要

    分散処理に入門してみた(Hadoop + Spark) | Casley Deep Innovations株式会社 技術ブログ
  • [Apache Spark]RDDについて簡単にまとめてみた | DevelopersIO

    はじめに t.hondaです。前回の最後に書いたように、今回はRDDについて書いてみたいと思います。 RDD(Resilient Distributed Dataset) RDDとは、以前にも書きましたが「不変(イミュータブル)で並列実行可能な(分割された)コレクション」です。Apache Sparkのプログラミングでは、このRDDにデータを保持して操作することがメインとなります。RDDの操作には用意されているメソッドを使うことで、Sparkは自動的に分散処理を行い、開発者は分散処理を意識することなくプログラミングできます。 RDDのメソッドの種類 RDDに保持したデータを操作するメソッドは大きく分けて2つに分類されます。「Transformations」と「Actions」です。「Transformations」はRDDを操作し、結果を新しいRDDとして返します。「Actions」はRD

    [Apache Spark]RDDについて簡単にまとめてみた | DevelopersIO
  • [Apache Spark]ストリーミング処理でツイートを取得してJOINする | DevelopersIO

    はじめに 最近はApache Sparkをちょこちょこと触っている、t.hondaです。前回に引き続きストリーミング処理についてです。今回は複数のキーワードでツイートを取得し、それぞれのツイートをユーザIDでJOINしてみたいと思います。 ソースコード ということで、いきなりソースコードです。尚、ScalaとSparkのバージョンは以下の通りです。 Scala 2.10.4 Apache Spark 1.2.0 import org.apache.spark.streaming.{Seconds, StreamingContext} import org.apache.spark.SparkContext._ import org.apache.spark.streaming.twitter._ import org.apache.spark.SparkConf import org.ap

    [Apache Spark]ストリーミング処理でツイートを取得してJOINする | DevelopersIO
  • [Apache Spark]ストリーミング処理で直近の人気ハッシュタグを取得する | DevelopersIO

    はじめに Apache Sparkの用途の一つとして、ストリーミング処理があります。今回はその例として、Twitterから直近の人気のハッシュタグを取得する処理を取り上げてみたいと思います。 処理の流れと用語について ソースをお見せする前に、大まかな処理の流れと、用語について説明したいと思います。先ず処理の流れですが、以下のようになります。 Streamの作成 ハッシュタグを持つRDDの取得 DStreamの取得 DStream内のRDDよりハッシュタグを取得 見慣れない用語ばかりかと思いますが、以下で処理の流れに沿って解説したと思います。 1.Streamの作成 データを連続して取得するためのStreamを作成する処理です。今回はTwitterよりデータを取得するストリームを作りますが、他にも Kinesis、Kafka、Flume、ZeroMQ、TCPなどから取得することが出来るようで

    [Apache Spark]ストリーミング処理で直近の人気ハッシュタグを取得する | DevelopersIO
  • Apache Spark による推薦システム案件例

    2015-03-21 #TokyoWebmining 44th の発表資料です。

    Apache Spark による推薦システム案件例
  • Apache SparkアプリをEclipseで動かすまでの手順 - Qiita

    初めに 必要なソフトウェアのインストール giter8でプロジェクト作成 sbtでビルド&テスト sbtのEclipseプラグインでEcplise設定ファイルを出力 Eclipseにインポート という流れでやっていきます IntelliJ IDEAでもほぼ同じ手順で問題ないと思いますがIntelliJ IDEAを持っていないので試せていません 必要なソフトウェアのインストール Apache Spark 1.2.1対応のscala 2.1.0をインストールします sbtはビルドツールです giter8はプロジェクトのテンプレートを作成してくれるツール(テンプレートはgithubで管理されてます) brew cask install java brew install scala210 brew link --force scala210 brew install sbt brew insta

    Apache SparkアプリをEclipseで動かすまでの手順 - Qiita
  • Apache Sparkで始めるお手軽リアルタイムウインドウ集計 | NTTデータ先端技術株式会社

    バッチを高速にした後はリアルタイムの世界へ! 現在、さまざまな業種の企業でビッグデータ分析の取り組みが行われている。ビッグデータへの最初の取っ掛かりは、既存のバッチ処理の高速化や、大量の業務データを用いた分析レポートの作成という企業が多いことだろう。そして、バッチ処理の高速化が一段落した次のステップとして、「リアルタイム処理」をテーマに掲げる企業も多いかと思われる。具体的には、 直近10秒間のトラフィックを集計したい。 直近10分間で自社商品がTwitterで話題になった回数を知りたい。 直近10時間での全店舗での来客数を集計したい。 といったリアルタイムなモニタリングを実現したくなるのではないだろうか?こういったモニタリング用の集計は、技術的には「ウインドウ集計(Time-Window Operation)」と呼ばれる。そこでコラムでは、近頃、「ポストHadoop」として話題のApac

    Apache Sparkで始めるお手軽リアルタイムウインドウ集計 | NTTデータ先端技術株式会社
  • Private Presentation

    Private content!This content has been marked as private by the uploader.

  • Spark & YARNを試してみる(後半) – OpenGroove

    前回からの続き。 以下に沿って、Spark & YARNモードでサンプルプログラムSparkPi を実行してみた。環境はAWSのm1.mideumマシン + CentOS6.5、CDH5のHadoop疑似分散環境にSparkも同居。Sparkのバージョンはまだ0.9.0。 Running Spark Applications (CDH5) jarファイルをHDFSにコピー。 $ hadoop fs -mkdir -p /user/spark/share/lib $ hadoop fs -put /usr/lib/spark/assembly/lib/spark-assembly_2.10-0.9.0-cdh5.0.0-hadoop2.3.0-cdh5.0.0.jar \ /user/spark/share/lib/spark-assembly.jar spark-env.shは、以下プロパ

  • Spark & YARNを試してみる(前半) – OpenGroove

    Spark 1.0が、5/30にようやくリリースされた…! Announcing Spark 1.0 The Apache Software Foundation Announces Apache™ Spark™ v1.0 さておきYARNモードにてSparkサンプルプログラムを動かしてみたのだが、そもそもの前提とか、書くと長くなるので前半/後半に分ける。前半は、YARNに関わらない部分もあるが、周辺用語の覚え書き。 Sparkの動作モード周辺の概念や用語が分かりにくいので、まとめてみた。まず、Sparkの起動モードには以下3種類がある。(Mesos使う場合は、調べてないので不明) Spark Stand Aloneモード Spark yarn-clientモード Spark yarn-clusterモード 最後のyarn-clusterモードは、Clouderaのドキュメントに書かれてい

  • Sparkとかいうのがありまして - Qiita

    この記事はScala Advent Calendarの9日目です。 遅刻しました。すんません(´・ω・`) Apache Sparkとかいうのがあるぽよです。 よくわかんないけど面白そうなので足突っ込んでみました。 そもそもSpark is 何? 大規模ストリーム処理フレームワークだそうな。 RDD(Reslient Distributed Datasets)と呼ばれるキャッシュ機能によってデータセットを 繰り返し扱うような処理(機械学習、データマイニング)が他と比べて数倍から数十倍早く行える。 主な用途として、機械学習やデータマイニング、ログ解析など。 Streaming配信を行うサービスで使われたりも。 そして何より…..Scalaで実装されてる! 今回の目標 とりあえず「チュートリアル」やってみます。 まずは導入から ローカル環境で遊んでみる分には、Spark体のみで大丈夫です。

    Sparkとかいうのがありまして - Qiita