[B! kafka] atsuizoのブックマーク

メルペイDataPlatformのCDC DataPipeline | メルカリエンジニアリング

こんにちは、メルペイ DataPlatformチーム(@rerorero, @darklore, @laughingman7743)です。この記事は、Merpay Tech Openness Month 2022 の14日目の記事です。今日はメルペイ DataPlatformで取り組んでいるCDCパイプラインについて紹介します。 CDCパイプラインとは何か CDCとは Change Data Capture の略称で、データベース内のデータの変更（新規作成、削除、変更など）を追跡するシステムです。データソースで発生した変更は、ニアリアルタイムでデータシンクに反映させることができます。 CDCの実現方法にはいくつかあるのですが、メルペイ DataPlatformでは以下の2つの方法を使ったパイプラインを構築しています。 Striim社のブログがよくまとまっていたので、こちらから引用させ

atsuizo 2022/04/22

リンク

Cloud Native Kafka - ZookeeperのいらないKafka - Qiita

** 本エントリはDistributed computing Advent Calendar 2021の12/22エントリです。はじめに Apache Kafka v.2.8はKIP-500という特別な機能改善が含まれたリリースでした。この変更はKafkaの全体構成への大規模な変更であり、Cloud Nativeな環境で動くKafkaにとって大きな前進となる変更です。KIP-500は現時点 (2021年クリスマス時期) でもまだ本番稼働で利用できるステータスとはなっていませんが、最も新しいKafka 3.0では主要な機能は既に含まれた状態となっています。本エントリではKIP-500の概要ならびにこの変更がもたらすCloud Nativeな世界におけるKafkaについてご紹介します。本エントリは先日 (2021/12/17) 実施されたApache Kafka Meetup Japan

atsuizo 2022/01/31

kafka

リンク

Apache KafkaのProducer/Broker/Consumerのしくみと設定一覧 - Qiita

Producerの主なパラメータ Producerの主要なパラメータを以下に示します。全パラメータの詳細は公式ドキュメントを参照してください。 bootstrap.servers デフォルト値：なし説明：Brokerの接続先リスト。いずれかのBrokerにアクセスして初期接続を確立する。 send.buffer.bytes デフォルト値：128 KB 説明：TCP送信ソケットバッファのサイズ。-1に設定するとOSのデフォルト値が使用される。 receive.buffer.bytes デフォルト値：32 KB 説明：TCP受信ソケットバッファのサイズ。-1に設定するとOSのデフォルト値が使用される。 batch.size デフォルト値：16 KB 説明：1 Record Batchの最大サイズ。Record Batchがこのサイズに達するとリクエストが送信される。 max.request.

atsuizo 2022/01/31

kafka

リンク

これからはじめるKafkaリンク集 | 外道父の匠

お久！2017年前半頃から少しずつ触り始めたKafkaですが、運用に至るまでに必要な基本情報をまとめてみました。年明けのブログ欲衰退を吹き飛ばすにはリンク集に限ります。メモをブログ用に置換するだけなのだ！ Kafkaで何をやるかによっては全然足りないでしょうが、まぁ静かなブームっぽいので、触ろうとする人たちはたいてい自分でなんとかするマニアばっかりでしょう。自分も、やるべきことは大体やったけど、シリーズ化するかは未定ですたい。 Official Apache Kafka Documentation Apache Kafka 日本語訳 Index – Apache Kafka – Apache Software Foundation FAQ – Apache Kafka – Apache Software Foundation Book Kafka: The Definitive Guide

atsuizo 2018/02/26

まさに始めたところなので俺得リンク集だ。お世話になってるサイトも入ってる。

kafka

リンク

Kafka Connect: Connecting JDBC Source Using Mysql | | Infoobjects

atsuizo 2018/02/20

kafka

リンク

ログ収集ツールの比較 - Qiita

ログ収集ツールとしてはFluentd、Logstash、Flume等が挙げられる。ファイルやメール、syslog、DB、センサからログデータを読込み、必要なログをフィルタして、jsonやxmlに整形してアウトプットする機能を持つ。メリットプラグインが300+公開されており、様々な形式のデータをインプット、アウトプットできる単体でログのフィルタ、バッファ、ルーティングができる 2000+を超える企業に利用されている日本語の情報が多いデメリット単体で動作するためfluentdが落ちたらバッファしているログが消える想定外のログが入力されると大量のスタックトレースが吐かれる引用：http://changineer.info/server/logging/fluentd-td-agent.html#fluentd-2 Logstash メリットフィルタを簡単にカスタマイズできる F

atsuizo 2018/01/30

リンク

Apache Kafkaを使ったアプリ設計で反省している件を正直ベースで話す

Apache Kafka: Producer, Broker and Consumer2017年は生まれて始めてApache Kafkaを本格的に業務利用（PoCではなく本番運用）した年でした。Apache Kafka的なメッセージングミドルウェアそのもののは、社内的な事情でよく使っていたのでその使い勝手に対して困惑はほとんど無かったですし、ミドルウェアとして非常に安定しているため、Kafkaクラスタそのものでの不具合らしい不具合が発生したことは一度もありませんでした。しかし、Kafkaのトピック設計などに関してのベストプラクティスは事例ベースでもあまり見かけたことがなく、チームメンバーと悩むことも多かったです。このストーリーでは、主にKafkaを利用したアプリ設計で考えたことや失敗したことを振り返りつつ共有します。なお、パーティション数や各種バッファサイズなどのチューニング要素は今回取