タグ

Druidに関するkimutanskのブックマーク (4)

  • Comparison of the Open Source OLAP Systems for Big Data: ClickHouse, Druid, and Pinot

    In this post I want to compare ClickHouse, Druid, and Pinot, the three open source data stores that run analytical queries over big volumes of data with interactive latencies. Warning: this post is pretty big, you may want to read just the “Summary” section in the end. Sources of InformationI learned the implementation details of ClickHouse from Alexey Zatelepin, one of the core developers. The be

    Comparison of the Open Source OLAP Systems for Big Data: ClickHouse, Druid, and Pinot
    kimutansk
    kimutansk 2018/02/13
    DruidやPinotの方がHadoopエコシステムに結合していてデータ階層化、テーブルの随時拡張等高機能ではあるものの、ClickHouseはシンプルに始められはすると。
  • Apache Kafka + Druidを使ってインタラクティブに時系列データを集計処理してみた - DiaryException

    以下の内容をより実用的・網羅的にまとめ、Kindle電子書籍としてリリースした。 Druidによる時系列データ解析入門 作者: 佐伯嘉康発売日: 2015/07/25メディア: Kindle版この商品を含むブログを見る 概要、参考資料 Druidは、リアルタイムに(ストリーミングな)時系列データを収集するコンポーネントと、収集したデータセットに対し集計クエリを受け付け処理結果を返すコンポーネントからなるデータベースシステムである。 Google技術でいうところのDremel (VLDB2010) とPowerDrill (VLDB2012) との中間に位置するらしく、つまりCloudera Impalaとも似ている。Druidが基準にしている性能指標は、6TBのデータを1桁秒で処理することであると挙げられているが、それを実現するためのシステム要件はそれほど高くない(メモリは特にあればあるだ

    Apache Kafka + Druidを使ってインタラクティブに時系列データを集計処理してみた - DiaryException
    kimutansk
    kimutansk 2015/02/23
    KafkaをFirehoseとした場合の時系列解析と。クエリで時系列解析ができるのはやはりいいですね。
  • Apache Druid | Apache® Druid

    Apache® DruidDruid is a high performance, real-time analytics database that delivers sub-second queries on streaming and batch data at scale and under load. Download Join Slack GitHub Sub-second queries at any scaleExecute OLAP queries in milliseconds on high-cardinality and high-dimensional data sets with billions to trillions of rows without pre-defining or caching queries in advance. High concu

    Apache Druid | Apache® Druid
    kimutansk
    kimutansk 2015/02/23
    ストリームデータに対するインタラクティブなリアルタイムクエリを発行できるDruid。サイトも整備され、開発も活発に続いていますか。詳細見ておくべき頃合いですか。
  • Druidで時系列ストリーム処理っぽいことなど | OpenGroove

    現状、エンジニアでも「Druid? 何それ」な人が大半だと想定するが、そういう自分もよくわかっていない。あえて言うなら「時系列リアルタイムデータストア」か?…そんな、カテゴライズが今一不明なDruidを試しにいじってみた記録(FAQを見ると、NoSQL DBではない、とも言っている)。 Druidは来であればメタデータの格納にMySQL, ノード間コーディネーターにZookeeperを利用する。今回はチュートリアルに沿ってZookeeperだけ入れた。そうは言っても実行環境はスタンドアロンである。JDK1.7がインストール済みのAmazon EC2 m1.smallマシン、CentOS 6.5を利用。System Requirementsが不明だったが、何となくこれくらいで動くだろう…とやってみる。 とりあえず、のGetting Startedは以下参照。英文だが非常に分かりやすい。Dr

    kimutansk
    kimutansk 2014/11/18
    ストリーム的にデータを取りこんで、後からクエリで検索可能にする感じですか。クエリがかなり柔軟に投げられそうなのがいいですね。
  • 1