タグ

workflowと*historyに関するsh19910711のブックマーク (3)

  • ETLフレームワークとジョブ管理 - wyukawa's diary

    Treasure Dataが面白い記事を書いていたのでこれに関連してETLフレームワークとジョブ管理について僕の経験、意見を書いてみようと思います。 Managing the Data Pipeline with Git + Luigi - Treasure Data Blog リンク先の記事を僕なりに要約すると、 データやそれを加工するスクリプトがちらばって管理が辛くなり、エラーが起きた時のリカバリが難しい。 ↓ それを解決するETLツールというのもあって、例えばGUIでフローチャートみたいなのを書いてデータの加工処理を行うことができる。 ↓ それだとバージョン管理できないし、ビッグデータにフィットしないケースもある。 ↓ そこでGitとLuigiを使ったData Pipelineが良いよ! 紹介されているコードの例がこちら。 Hiveで集計してTDのテーブルにinsertするのがTas

    ETLフレームワークとジョブ管理 - wyukawa's diary
    sh19910711
    sh19910711 2022/12/01
    2015 / "Luigi: Azkaban, Rundeck, JP1のようなジョブ管理ツールだと最初思ったのですが、ドキュメントを軽く読んだ限りではETLフレームワークでむしろembulkに近いのかなと思いました"
  • データ解析が再現するということ、あるいは Common Workflow Language が僕らにもたらしてくれるもの - こんな時間ですがパスタを茹でます

    sh19910711
    sh19910711 2022/09/23
    2017 / "これらのソフトウェアは作業者の負担を減らしてくれる代わりに、異なるワークフローエンジンで同一の解析を実行するための移植コストが増大し、結果 reproducibility が下がってしまうことが問題となった"
  • makeのくびき - saneyuki_s log

    gulpって何だよ、makeでいいじゃん(要約」論争について、私もちょっと一講釈をぶってみることにする。あれやこれやといった実利的な話をするつもりはない。そういうものは既に書いた人がいるのでそちらを参照のこと。 Gruntの思い出 Gruntは、私の印象で言えば車輪の再発明の失敗作のようなもので、タスク間の依存関係が破滅への一途をたどり管理不能に至るなど、宣言型の負の側面が強く出てしまった。しかし、設定は当にサンプルコードのコピペだけで組み立てられるので、JSが不得手なデザイナーなどには非常に受けが良かったという点は忘れてはならない。ちょうど、html5ブームが格化して, Apache Antとかに慣れ親しんだJava(主にSIer)系の人が入ってきたタイミングにあった道具かつ、Yeomanファミリーにも組み込まれており、それでいて簡単な事をやらせるには悪くはない具合のシンプルさ、

    makeのくびき - saneyuki_s log
    sh19910711
    sh19910711 2021/08/10
    Grunt / "ちょうど html5 ブームが本格化して Apache Ant とかに慣れ親しんだJava系の人が入ってきたタイミング / 簡単な事をやらせるには悪くはない具合のシンプルさ / 「悪くない」塩梅だったために流行ったというのが私の感想
  • 1