タグ

hadoopに関するbopperjpのブックマーク (4)

  • Data Stream Processing: A Scalable Bridge from Kafka to Hadoop

    You may use stream-oriented systems to parallel process real-time, time-sensitive data. You might also use data stream processing for bulk operations with time-insensitive operations, like data analysis and persistence operations. At Conductor, we use Kangaroo for bulk data stream processing, and we’re open sourcing it for you to use. Why Data Stream Processing with Kafka Wasn’t WorkingLast year,

    Data Stream Processing: A Scalable Bridge from Kafka to Hadoop
  • Hadoop/Storm の統合を実現する Twitter の SummingBird - Okapies' Archive

    Twitter が SummingBird を正式リリースして早二ヶ月。「日語の紹介記事がほとんど出てないな」と気付いたので、調査がてらまとめてみました。 SummingBird とは? MapReduce なプログラムを書くための Scala/Java ライブラリ。最大の特徴は、ひとたび SummingBird で書いたジョブは Hadoop でも Storm でも同じように実行できること。 SummingBird では、Hadoop を使う「バッチモード」と、Storm を使う「リアルタイムモード」に加えて、二つを同時に実行する「ハイブリッドモード」がある。ハイブリッドモードでは、ジョブの作者が特に配慮しなくても、バッチとリアルタイムの処理結果を自動的にマージできる。 ハイブリッドモードでは、同じジョブを Hadoop と Storm で同時に実行できるので、Hadoop の耐障害性

    Hadoop/Storm の統合を実現する Twitter の SummingBird - Okapies' Archive
  • 日々進化するHadoopの 「いま」

    第2回 NHNテクノロジーカンファレンス 講演資料(2012年8月18日) 日々進化するHadoopの 「いま」 株式会社NTTデータ 基盤システム事業部 OSSプロフェッショナルサービス シニアエキスパート 濱野 賢一朗 (日Hadoopユーザー会) NTT DATA CORPORATION System Platforms Secter Senior Expert Kenichiro Hamano

    日々進化するHadoopの 「いま」
  • Hadoopがスケール・アウトする仕組み

    前回の記事では、Hadoopが膨大なデータをバッチ処理するための「インフラ」としての性質を備えていること、情報爆発時代の新たなインフラとして普及しつつあることを説明しました。その中で、情報爆発時代に必要とされるインフラは、「スケール・アウトが可能であること」という条件を備えていなければならないことを示しました。サーバーの台数を増やすことで容易にシステムの処理性能が増やせることは、Hadoopの重要な特徴です。今回は、Hadoopがどのようにしてスケール・アウトを可能にしているかを、「分散ファイル・システム」と「MapReduceフレームワーク」の2つの観点から解説します。 スケール・アウトとは? コンピュータ・システムを新たに構築するときは、必ず「運用」のことを考えておく必要があります。システム・トラブルが発生した場合の対応策を決めたり、将来の仕様変更に備えてプログラムに拡張性を持たせたり

  • 1