タグ

Sparkに関するraimon49のブックマーク (3)

  • 「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

    Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが

    「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
    raimon49
    raimon49 2017/07/10
    MapReduceとHDFS、それぞれのポジショニング。処理エンジン部分のMapReduceはSQLライクな処理エンジンやSparkの登場で役目を終えつつある。
  • Apache Spark 2.0正式版がリリース。ANSI SQL標準サポート、10倍以上の高速化など

    Apache Spark 2.0正式版がリリース。ANSI SQL標準サポート、10倍以上の高速化など 分散処理フレームワークの「Apache Spark 2.0」正式版のリリースが、開発元のDatabricksから発表されました。これまでApache Sparkはバージョン1.x(直前の最新版は1.6)でしたので、メジャーバージョンアップとなります。 Spark 2.0で最大の新機能は、新しいSQLパーサーを採用したことによるANSI SQLSQL 2003)への対応です。ビッグデータのベンチマークの1つであるTPC-DSの99種類のクエリがそのまま実行可能と説明されており、プログラマが慣れ親しんだ一般的なSQL文はすべて実行可能になります。 また、DataFrameとDatasetは統合されたAPIとなりました。 こうしたAPIの変更や改善が行われた一方で、Spark 2.0ではパフ

    Apache Spark 2.0正式版がリリース。ANSI SQL標準サポート、10倍以上の高速化など
    raimon49
    raimon49 2016/07/30
    メジャーバージョンアップ。
  • Rebuild: 127: Post-mature Optimization (omo)

    Hajime Morita さんをゲストに迎えて、f.lux, Michael Stonebraker, GitHub, JIRA, 高速化などについて話しました。 Show Notes Facebook admits that its app is draining your iPhone's battery 意見を持つ iOS 9.3 f.lux Sherlock Twilight Night Light mode in Google Play Books Readings in Database Systems, 5th Edition Michael Stonebraker dear-github: An open letter to GitHub from the maintainers of open source projects JIRA vs GitHub issues

    Rebuild: 127: Post-mature Optimization (omo)
    raimon49
    raimon49 2016/01/19
    優先度順にMapReduceジョブを殺して再開させるGoogleのスケジューラー話とクラスタ別になってるHadoopとの違いや、GitHub issuesの話が面白い。
  • 1