タグ

web-apiとhadoopに関するnabinnoのブックマーク (2)

  • unoh.github.com by unoh

    こんにちわ、7月に入社したばかりの@emorinsです。 題名の通りですが分散データベース『Apache Cassandra』を紹介したいと思います。 少し前はHadoop(とHBase)と比較されることの多かったCassandraですが、最近はHadoopの人気に押されつつあるようにも感じます。 しかし、CassandraとHadoopは特徴が異なり、よく言われるのがCassandraはリアルタイム処理に向き、一貫性のかわりに可用性を重視し、またHadoopとは違って単一障害点もありません。 今日はそんなHadoopとは違った魅力のある分散データベース『Apache Cassandra』をはじめてみましょう。 目次 Cassandraとは アーキテクチャ Cassandraの特徴 コンシステンシレベル データモデル MemtableとSSTable セットアップ storage-conf

  • Twitter: データ分析基盤改善取り組み - ワザノバ | wazanova.jp

    https://www.facebook.com/photo.php?v=10151697364230687&set=vb.9445547199&type=2&theater TwitterのAnalyticsインフラチームが、データ分析基盤の改善に取り組んできた事例を紹介しています。 1) 背景 4億tweet/日を発信 & 消費しているユーザのアクティビティを、Twitter社内の多くのチームがそれぞれの観点 & 様々な利用形態で分析データを必要とするため、量およびデータの依存関係が、相当大きく複雑なものになっている。Analyticsインフラは、1000ノードあるHadoopのクラスタをいくつかもつ規模。 ストレージフットプリント & I/Oを減らすだけでなく、他の方法でプロセススピードをあげることに取り組んでいる。 2) Parquet (「Hadoop用のカラムナストレージフォー

  • 1