タグ

Sparkに関するwamanのブックマーク (19)

  • Facebookによるグラフデータ処理のためのApache GiraphとSpark GraphXの比較

    Lily Maraと信頼性の高いKafkaデータ処理パイプラインを構築する 今日の回では、Thomas Betts氏がカリフォルニア州サンマテオにあるOneSignalのエンジニアリングマネージャー、Lily Mara氏に話を聞いた。 彼女は、OneSignalの他のエンジニアリングチームが使用する社内サービスを担当するインフラサービスチームを管理している。信頼性の高いKafkaデータ処理パイプラインの構築方法について議論する。OneSignalは、RustのKafka...

    Facebookによるグラフデータ処理のためのApache GiraphとSpark GraphXの比較
  • Hadoopが変えるデータとヒトへのアプローチ ―「Hadoop Summit 2016 Tokyo」レポート | gihyo.jp

    Hadoopが変えるデータとヒトへのアプローチ ―「Hadoop Summit 2016 Tokyo」レポート 10月26、27日の2日間、東京・新宿ヒルトンにおいてホートンワークスジャパン主催のカンファレンス「Hadoop Summit 2016 Tokyo」が行われました。Hadoopカンファレンスとしてはグローバルでもっとも規模の大きい「Hadoop Summit(主催: Hortonworks⁠)⁠」の初の東京開催であり、国内ではめずらしい有料のITイベントということもあって、業界関係者からはその成否が注目されていたカンファレンスでもあります。稿ではこのイベントの全体像を振り返りながら、IT、そしてビジネスの世界におけるHadoopの位置づけをあらためて考えてみたいと思います。 Hadoop Summit Tokyoとは gihyo.jpの読者であればご存知の方も多いでしょうが、

    Hadoopが変えるデータとヒトへのアプローチ ―「Hadoop Summit 2016 Tokyo」レポート | gihyo.jp
    waman
    waman 2016/11/02
    『2006年に誕生したHadoopにとって,最大のイノベーションは2011年のYARN登場だった』
  • Apache Spark 2.0正式版がリリース。ANSI SQL標準サポート、10倍以上の高速化など

    Apache Spark 2.0正式版がリリース。ANSI SQL標準サポート、10倍以上の高速化など 分散処理フレームワークの「Apache Spark 2.0」正式版のリリースが、開発元のDatabricksから発表されました。これまでApache Sparkはバージョン1.x(直前の最新版は1.6)でしたので、メジャーバージョンアップとなります。 Spark 2.0で最大の新機能は、新しいSQLパーサーを採用したことによるANSI SQLSQL 2003)への対応です。ビッグデータのベンチマークの1つであるTPC-DSの99種類のクエリがそのまま実行可能と説明されており、プログラマが慣れ親しんだ一般的なSQL文はすべて実行可能になります。 また、DataFrameとDatasetは統合されたAPIとなりました。 こうしたAPIの変更や改善が行われた一方で、Spark 2.0ではパフ

    Apache Spark 2.0正式版がリリース。ANSI SQL標準サポート、10倍以上の高速化など
    waman
    waman 2016/07/28
    『Spark 2.0では前バージョンと比べて10倍の速度向上を目論んでおり』
  • Big Data Processing with Apache Spark - Part 4: Spark Machine Learning

    InfoQ Software Architects' Newsletter A monthly overview of things you need to know as an architect or aspiring architects. View an example

    Big Data Processing with Apache Spark - Part 4: Spark Machine Learning
  • 2016-04-24 - sfchaos blog

    技術評論社から近々刊行される「詳解Apache Spark」をご恵贈いただきました.ありがとうございます! 詳解 Apache Spark 作者: 下田倫大,師岡一成,今井雄太,石川有,田中裕一,小宮篤史,加嵜長門出版社/メーカー: 技術評論社発売日: 2016/04/29メディア: 大型この商品を含むブログ (5件) を見る Amazonの発送は4月29日からのようですが,都内のジュンク堂や紀伊國屋,書泉ブックタワーなどの大型書店では既に先行販売されているようです.是非手に取ってみてください. 総評 書は,大規模並列分散基盤のApache Sparkについて,豊富な実践例を交えながら基的なコンセプトや使用方法が解説された書籍です.この分野の第一線で実際に業務で使用している方々が,わかりやすく執筆されています.Sparkを使う必要があったりどんなものか知ってみたいと思ったりしているエ

    2016-04-24 - sfchaos blog
  • JAXenter - Java Development & Software Architecture

    waman
    waman 2016/03/15
    『Battle for dominance? Not necessarily!』
  • Beyond Hadoop ─Databricks共同創業者に訊くApache Sparkのポテンシャル | gihyo.jp

    いまいちばん勢いのあるオープンソースプロダクトとして注目度の高いApache Spark。2月8日、東京・大井町きゅりあんで行われた「Hadoop / Spark Conference Japan 2016」は、国内で開催される初めてのSparkカンファレンスということもあり、1300人を超える登録者を集め、盛況のうちに幕を閉じました。今回、このカンファレンスの基調講演、そしてSparkセッションに登壇した、Databricks創業者のひとりにしてSparkの3代目リリースマスターでもあるレイノルド・シン(Reynold Xin)氏にインタビューする機会を得たので、その内容をご紹介します。 HadoopはSparkの“原点であり越えるべき目標” ─⁠─まずはレイノルドさんご自身の自己紹介をお願いできるでしょうか。Databricksという会社についてもご説明いただければ。 シン氏:僕はDa

    Beyond Hadoop ─Databricks共同創業者に訊くApache Sparkのポテンシャル | gihyo.jp
    waman
    waman 2016/03/03
    『HadoopがSparkの競合になるということはありえません。SparkはHadoopのエコシステムとしてスタートしましたから。ただし最近は「Beyond Hadoop」という位置にあることは認識しています。』
  • IBM Developer

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    IBM Developer
  • Spark 2.0はフロントエンドAPIの創設と10倍の性能向上を目指す。早くも今年の5月頃登場予定。Hadoop Spark Conference Japan 2016

    Spark 2.0はフロントエンドAPIの創設と10倍の性能向上を目指す。早くも今年の5月頃登場予定。Hadoop Spark Conference Japan 2016 2月8日に都内で開催された、HadoopとSparkをテーマにした国内最大のカンファレンス「Hadoop Spark Conference Japan 2016」の基調講演には、Sparkの開発を進めているDatabricksのReynold Xin氏が登壇。 Xin氏は、現在開発が進んでいるSpark 2.0の概要を紹介しました。セッションの内容をダイジェストで紹介します。 Spark 2.0: What's Next DatabricksのReynold Xin氏(写真左)。

    Spark 2.0はフロントエンドAPIの創設と10倍の性能向上を目指す。早くも今年の5月頃登場予定。Hadoop Spark Conference Japan 2016
  • 大規模分散データ処理フレームワーク「Apache Spark 1.6」正式リリース。メモリコンフィグレーションの自動化、静的型付けのDataset API、速度の向上も実現

    Spark 1.6では、よく使われるデータフォーマットの1つであるParquetの読み込みに、新しいParquet Readerを導入。いくつかの処理のバイパスやコードの最適化を行った結果、ベンチマークでこれまで1秒あたり290万行の読み込み速度だったものを1秒あたり450万行まで、約50%改善したと説明されています。 また、1.6ではこれまで設定により固定されていた実行用のメモリ領域とキャッシュ用のメモリ領域の大きさを、新しいメモリマネージャの導入によって自動的に最適化できるように改善。手動での最適化を不要にし、実行速度の向上に貢献しました。 昨年導入された「DataFrame」とJavaVMのオーバーヘッドを改善する実行エンジンの「Project Tungsten」は、Sparkの実行速度の改善に寄与しました。Spark 1.6ではDataFrameを拡張したDataset APIが追

    大規模分散データ処理フレームワーク「Apache Spark 1.6」正式リリース。メモリコンフィグレーションの自動化、静的型付けのDataset API、速度の向上も実現
    waman
    waman 2016/01/06
  • Apache Spark 1.5正式版がリリース。JavaVMのオーバーヘッドを改善する「Project Tungsten」で、さらに高速に

    Apache Spark 1.5正式版がリリース。JavaVMのオーバーヘッドを改善する「Project Tungsten」で、さらに高速に Apache Sparkは、高いスループットを実現するバッチ処理と小さなレイテンシが求められるリアルタイム性の高い処理のいずれにも対応することを目指して開発された、大規模分散処理基盤です。 インメモリ処理や中間データなどをできるだけ生成させない効率的なスケジューラなどを備え、ScalaJava、R、Pythonなどに対応するなどが特長。 Project Tungstenによる高速化 Apache Spark 1.5の最大の特徴は「Project Tungsten」による実行エンジンの高速化です。 Apache SparkはJavaVMを用いて処理を行っていますが、JavaVMが備えるガベージコレクションやメモリ管理などの仕組みは、Apache Sp

    Apache Spark 1.5正式版がリリース。JavaVMのオーバーヘッドを改善する「Project Tungsten」で、さらに高速に
  • The 7 most common Hadoop and Spark projects

    The 7 most common Hadoop and Spark projects Think you're breaking new ground with your Hadoop project? Odds are it fits neatly into one of these seven common types of projects There's an old axiom that goes something like this: If you offer someone your full support and financial backing to do something different and innovative, they’ll end up doing what everyone else is doing. So it goes with Had

    The 7 most common Hadoop and Spark projects
  • IBMが50プロジェクトのオープンソース化ヘ

    モノリス対マイクロサービスという誤った二分法 AWSがマイクロサービスを捨ててモノリスに戻ったという最近のブログ投稿で、モノリス対マイクロサービスの古い戦争が再燃している。 あなたの立場は? マイクロサービス派かモノリス派か? マイクロサービス対モノリスは、より大きなストーリーの一部に過ぎず、その区別は幻想のようなもので、人々は虚構の上で争っているのだと言ったらどうだろう。

    IBMが50プロジェクトのオープンソース化ヘ
  • はじめてのSpark Streaming - CLOVER🍀

    今までは、SparkのStandalone ModeとYARN上で動かすといった動作環境的なものを少し試してきたので、もうちょっとSpark自体で遊んでみようと思いまして。 まずは、Spark Streamingの初歩的なところからやってみたいと思います。 Spark Streaming Programming Guide http://spark.apache.org/docs/latest/streaming-programming-guide.html とか言いながら、ちょっと寄り道してみたらめっちゃハマりました…。 Spark Streamingとは? こちらを見る限り… Overview http://spark.apache.org/docs/latest/streaming-programming-guide.html#overview Kafka、Flume、Twitter

    はじめてのSpark Streaming - CLOVER🍀
    waman
    waman 2015/08/10
  • Apache SparkをYARN上で動かしてみる - CLOVER🍀

    先ほど、こんなエントリを書きました。 Apache Sparkで、HDFS上のファイルを読み書きする http://d.hatena.ne.jp/Kazuhira/20150802/1438499631 ここで使ったプログラムを、YARN上で動かしてみたいと思います。 SparkをYARN上で動かす時は、yarn-clientとyarn-clusterという2種類の起動方法があるみたいです。 Running Spark on YARN http://spark.apache.org/docs/latest/running-on-yarn.html 参考) Spark on YARN http://kzky.hatenablog.com/entry/2015/01/12/Spark_on_YARN Apache Spark Resource Management and YARN App M

    Apache SparkをYARN上で動かしてみる - CLOVER🍀
    waman
    waman 2015/08/09
    【Apache Hadoop】MapReduce has undergone a complete overhaul in hadoop-0.23 and we now have, what we call, MapReduce 2.0 (MRv2) or YARN.
  • Apache Sparkがスループットとレイテンシを両立させた仕組みと最新動向を、SparkコミッタとなったNTTデータ猿田氏に聞いた(前編)

    Apache Sparkがスループットとレイテンシを両立させた仕組みと最新動向を、SparkコミッタとなったNTTデータ猿田氏に聞いた(前編) 最近ビッグデータ処理基盤として急速に注目を集めているのが「Apache Spark」です。 Sparkは、Hadoopと比較されることも多く、Hadoopよりも高速かつ高機能な分散処理基盤だと言われています。Sparkとはいったい、どのようなソフトウェアなのでしょうか? 今年6月にSparkのコミッタに就任したNTTデータの猿田浩輔氏に聞きました。 以下は猿田氏から伺ったSparkの紹介をまとめたものです。また、後編では猿田氏がコミッタになった経緯などもインタビューしました。 Hadoopでは複雑な処理に時間がかかる Sparkとはなにかの前に、まずはHadoopの話から始めさせてください。 Hadoopとは、ざっくり言うと分散処理フレームワーク「

    Apache Sparkがスループットとレイテンシを両立させた仕組みと最新動向を、SparkコミッタとなったNTTデータ猿田氏に聞いた(前編)
    waman
    waman 2015/08/05
    『Sparkでの処理にはMapReduceでのMapやReduceといった区分けはなく、処理の途中で中間データの生成のような無駄なI/Oがなるべく発生しないようにスケジューラが処理を組み立ててくれます。』
  • Apache SparkをScalaTestで動かしたい - CLOVER🍀

    このところ、SparkをStandalone ModeやYARNで動かしていましたが、もうちょっと機能的な感覚をつかみたいと思いまして。 で、毎度Spark Submitしてもいいのですが、テストコードで動かせないかなぁ、と…。 調べた感じ、やれないこともなさそうな雰囲気…。 Testing Spark Streaming Applications http://eng.tapjoy.com/blog-list/testing-spark-streaming-applications https://spark-summit.org/2014/wp-content/uploads/2014/06/Testing-Spark-Best-Practices-Anupama-Shetty-Neil-Marshall.pdf ちょっと、やってみましょう! 追記) ドキュメントをよーく見ると、ここに

    Apache SparkをScalaTestで動かしたい - CLOVER🍀
  • Apache SparkのSpark Standalone Modeを動かしてみる - CLOVER🍀

    前回SparkでHello World的なことをやりましたが、今回はSpark Standalone Modeを試してみることにします。 Spark Standalone Mode https://spark.apache.org/docs/latest/spark-standalone.html が、そもそもこれってSparkでとりうるDeployment Modeの一種らしく、クラスタについての用語を見ておく必要がありそうです。 Cluster Modeの用語を読む Cluster Mode Overview https://spark.apache.org/docs/latest/cluster-overview.html ここでのGlossaryという項目に着目すると、それぞれこんな感じ…? 用語 意味 Application ユーザーがビルドした、Spark上に載せられるもの。ク

    Apache SparkのSpark Standalone Modeを動かしてみる - CLOVER🍀
    waman
    waman 2015/07/27
  • Apache Sparkことはじめ - CLOVER🍀

    だいぶ今更ながらですが、Apache Sparkを試してみることにしました。前々から、興味がちょっとありまして。 Apache Spark http://spark.apache.org/ Apache Spark の紹介(前半:Sparkのキホン) http://www.slideshare.net/hadoopxnttdata/apache-spark-spark Apache Sparkのご紹介 (後半:技術トピック) http://www.slideshare.net/hadoopxnttdata/apache-spark が、あんまりSpark自体まだよくわかっていないので、ちょっとずつ触りながら感覚をつかめたらいいなーと思っています。 とりあえず、くじけなければ継続テーマにするつもりです(笑)。 では、Hello World的に始めてみたいと思います。 Apache Spark

    Apache Sparkことはじめ - CLOVER🍀
    waman
    waman 2015/07/25
    SparkってHadoop使うんや。
  • 1