Reproでチーフアーキテクトとして働いているid:joker1007です。 今回、Kafka Brokerのcompaction動作について調査しチューニングすることでパフォーマンス改善の成果が得られたため、そのノウハウをブログにまとめておきました。 かなりマニアックな内容なので、需要は多くないと思いますが、私が調査した限りでは日本語で同じ様な内容のブログ記事はほとんど存在しなかったため、Kafkaを自前で運用している人にとっては役に立つ内容かもしれません。 compactionとは (参考: https://kafka.apache.org/documentation/#compaction) Kafkaの基本的なデータ削除ポリシーは一定時間が経過したら過去のデータをそのまま削除するdeleteというポリシーを使う。 これは、log.retention.hoursという設定でコントロー
At the heart of Apache Kafka® sits the log—a simple data structure that uses sequential operations that work symbiotically with the underlying hardware. Efficient disk buffering and CPU cache usage, prefetch, zero-copy data transfers, and many other benefits arise from the log-centric design, leading to the high efficiency and throughput that it is known for. For those new to Kafka, the topic—and
Get Apache Kafka and Flink news delivered to your inbox biweekly or read the latest editions on Confluent Developer! Self-managing a highly scalable distributed system with Apache Kafka® at its core is not an easy feat. That’s why operators prefer tooling such as Confluent Control Center for administering and monitoring their deployments. However, sometimes, you might also like to import monitorin
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
In a previous post, I showed how Kafka can be used as the persistent storage for an embedded key-value store, called KCache. Once you have a key-value store, it can be used as the basis for other models such as documents, graphs, and even SQL. For example, CockroachDB is a SQL layer built on top of the RocksDB key-value store and YugaByteDB is both a document and SQL layer built on top of RocksDB.
CMAK (previously known as Kafka Manager) is a tool for managing Apache Kafka clusters. See below for details about the name change. CMAK supports the following: Manage multiple clusters Easy inspection of cluster state (topics, consumers, offsets, brokers, replica distribution, partition distribution) Run preferred replica election Generate partition assignments with option to select brokers to us
終わりなく増えていくストリームデータ特化の分散ストレージ「Pravega」、EMCがオープンソースで公開。これまでのストレージとどう違う?[PR] ファイルへの保存やデータベースへの格納といった、これまで親しまれてきた方法では扱いにくい、新しい形式のデータが存在感を高めつつあります。 それは継続的に大量のデータが流れ込んでくる「ストリームデータ」です。 例えば、システム内のさまざまなアプリケーションやサーバが生成するログ、ソーシャルメディアから流れてくる利用者の声や自社製品の評判、あるいはIoTを活用したシステムでは、工場内やオフィス、工作機械や自動車などの機器に組み込まれた多数のセンサーから大量に送られてくるリアルタイムデータなどがそれにあたります。 Pravega:終わりがなく増えていくストリームデータのためのストレージ ストリームデータの特徴として、その内容が温度や位置情報、画像、動
本チュートリアルではHortonworks DataFlow(HDF)で利用可能なOSSプロダクトを少しずつ触りながら、HDFを利用するとどんなシステムが構築できるのかを学習していきます。 0-1: Hortonworks DataFlow (HDF)とは Hortonworks DataFlow (HDF)とは、高速なストリーミング分析を容易に実現し、データ収集、キュレーション、分析、デリバリをリアルタイムで、オンプレミスでもクラウドでも実行可能な、Apache NiFi、Kafka、Stormが統合されたソリューションです。 0-2: Ambariをさわってみよう 0-2-1: Ambariにログイン 早速手を動かしながらチュートリアルを進めていきましょう。まずはAmbariにログインします。 本ハンズオンではシングルノードのHDFクラスタを使用します。1台のサーバ上でAmbari S
OSSソリューションセンタ所属。これまでにストレージシステムとその管理ソフトウェアの開発を手掛けてきた。 現在はHadoopやSpark、Kafkaを中心としたビッグデータ関連OSSの導入支援やソリューション開発、およびビッグデータを活用したデータ分析業務を担当している。
ビッグデータのリアルタイム処理技術勉強会 http://futureofdata.connpass.com/event/40077/ 発表資料
D&S Data Night vol.03 http://yahoo-ds-event.connpass.com/event/37040/ 発表資料
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く