[B! Apache Flink] yassan0627のブックマーク

Learning Apache Flink S01E06: The Flink JDBC Driver

yassan0627 2023/11/17

リンク

Integrating Apache NiFi and Apache Flink

Hortonworks DataFlow delivers data to streaming analytics platforms, inclusive of Storm, Spark and Flink These are slides from an Apache Flink Meetup: Integration of Apache Flink and Apache Nifi, Feb 4 2016

yassan0627 2016/12/11

NiFiのSite-to-Siteの話。pull型とpush型がある。

リンク

Apache Flinkのstate管理について - Tech Notes

はじめにストリーム処理の中で、処理をstatefulにしたい、という要求はよくある。例えば、1時間のtime windowで件数を集計している場合、ストリームが流れるにつれて内部で保持しているカウンタは増加していく. そして、障害等で再起動をした時とかには、そのカウンタの値も一緒に復旧したい. Flinkにおけるstateの保存これに対して、Apache Flinkは定期的に処理状態のスナップショットを取得する、という方法で対応している. そして、分散環境でまともに全てのスナップショットを取るのは辛いので、分散してスナップショットを取るようにしている. 具体的にはここに詳しいが、ストリームのソースから定期的にBarrierと呼ばれる印を流して、各オペレータはこれを受け取るとスナップショットを保存するようになっている. こうすることで、処理全体を止めずに一貫性のあるスナップショットを取

yassan0627 2016/12/09

Apache Flink

リンク

Apache Flinkを試してみての感想 - Tech Notes

しばらくApache Flinkを試してみたので、感想を書いておこうと思う. 試したこと standalone modeでのクラスタ構築ストリーミングジョブを書いてみる TumblingTimeWindowやSlidingTimeWindowでの集計 Kafka SourceとElasticsearch Sinkの利用必要だったので、カスタムトリガは書いた幾つかのジョブで性能測定社内の本番fluentdからKafka経由でFlinkにストリームを投入し、ジョブを十数日くらい連続稼働してみる state backendをHDFSやRocksDBにしてみる JobManager HA TaskManagerやJobManagerを落としてみる Flink on YARN (ジョブを起動してみただけ) 試してないこと DataSet APIの利用 savepoint, savepoint

yassan0627 2016/12/09

Apache Flink

リンク

現在稼働しているFlinkクラスタについて - Tech Notes

先日の発表で、Apache Flinkを導入するに至った経緯を話したのだけど、具体的な構成とかには触れられなかったので書いておく。クラスタの構成について今運用してるFlinkクラスタは２つ。サービスで使うためのデータを生成しているものと、社内のレポーティングやモニタリングで使っているもの。前者の方は安定性重視、後者は割とカジュアルにジョブを追加したり、構成を弄ったりできるもの、という感じになっている. Flinkとしては、クラスタのデプロイメント方式として、独立したdaemonとして動かす方法と、YARNの上で動かす方法があるのだけど、前者の方法にしている. その方が運用上もわかりやすいし、レイヤが少ない分トラブルも少ないだろう、というのが理由. どちらも物理サーバで、TaskManagerサーバは前者が3台、後者が10台になっている. Flinkのバージョンはそれぞれ1.0.3と1.

yassan0627 2016/12/09