タグ

データとバッチに関するyassan0627のブックマーク (3)

  • データパイプラインバッチ設計で私が考えること

    © 2024 DATUM STUDIO Co. Ltd. データパイプラインの処理⽅法 データ処理にはバッチ処理とストリーミング処理の⼆つがある 源泉システム ストリーミング DWH Data Lake バッチ ü s3などにファイルを置いてもらう/ingestツールを使う ü 源泉システムの断⾯を保持するため扱いやすい ü Kafkaなどのメッセージングキューから連携 ü データの到着順が⼊れ替わることがあるので、ログ系のデータ向き ü バッチでのLoadが間に合わない場合にも採⽤される バッチ バッチ ストリーミング ü ⼀括ですべてのデータを処理 ü マシンパワーの強い近年のDWH製品と相性が良い ü viewやlambda viewによる実装 ü 分析に即時性が求められる場合に採⽤ される ü 複雑な処理設計が必要になる (個⼈的にはなるべく避けたい) (同左) ① ② ※ほんとは

    データパイプラインバッチ設計で私が考えること
  • Cookpad TechKitchen #8: Breaking BatchJobs Beautifully

    第8回Cookpad TechKitchenで発表した「美しいバッチの壊しかた」の資料です。(15分)

    Cookpad TechKitchen #8: Breaking BatchJobs Beautifully
    yassan0627
    yassan0627 2017/10/08
    「美しいバッチの壊しかた」すごく参考になる。バッチ処理作る際の良い方針だと思う。
  • 美しいバッチの壊し方 #cookpad_tech_kitchen - by shigemk2

    青木峰郎 情報系(DWH)のSQLバッチ 大量のデータをひたすら集計(一個一個はそんなに重くない) ジョブ数が多くてフローが複雑 1000ジョブ DWH 13000くらいが多いけど、1000は少ない kuroko2 + bricolage http://techlife.cookpad.com/entry/2015/06/27/154407 SQLバッチ専用フレームワーク(OSS) 1ジョブ/1SQL文の強固な思想 よいバッチを作るために必要だから 良いバッチ=運用しやすい 落ちたときに如何に簡単に対処できるか 運用がしにくくなるようであるなら運用を優先したい 美しく壊れる 障害を直しやすい 美しい壊れ方とは どこで壊れたかすぐわかる 続きから実行できる リトライで直せる cf どこで壊れたか分からないプログラムは困る バッチはだいたい長時間実行しているし、処理が複数別れている 9割がた終

    美しいバッチの壊し方 #cookpad_tech_kitchen - by shigemk2
  • 1