ブックマーク / blog.torut.tokyo (2)

  • Treasure Workflow for ビギナー ~digファイル書き方編~ - Secret Ninja Blog

    前回は、Treasure Workflowを扱う前のPC環境のセットアップをしました。 secret-ninja.hatenablog.com Treasure Workflowでは処理のワークフローを設定するために、.digという拡張子をつけたファイルを作成します。 今回はこのdigファイルの書き方を説明します。 タスクとオペレータについて digファイルには大きく分けて、タスクとオペレータの2種類とパラメータを使って記述をします。 下記の例でいうと、 +XXXX:と記載をしているのがタスクです。タスクは、1つの処理単位を表します。このタスクを直列に並べたり、階段的に配置することでタスクに依存関係を持たせることができます。 XXXX>:と書いてあるのがオペレータです。オペレータは処理内容を表します。オペレータの一覧はこちらにて参照可能です。また一つのタスクには1つのオペレータが基的には

    Treasure Workflow for ビギナー ~digファイル書き方編~ - Secret Ninja Blog
    Aoino
    Aoino 2018/01/09
  • Treasure Workflow for ビギナー 環境構築編 - Secret Ninja Blog

    Treasure Workflowでなにができるか? TreasureDataには、Treasure Workflowという機能があります。 これで何が実現できるか、というと データのインポートを実施したあとに、SQL Aを実行させて、その後にSQL Bを実行させる。という一連の流れをスケジュール化させることや、 SQL A が完了したら SQL BとSQL Cは並列に実行させて、その後SQL Dを実行し、その結果をAWS S3の実行日の日付をパス名にして出力する などができます。 つまり従来、TreasureDataではできなかった、処理の一連の依存関係を記述し、なおかつそれをスケジューリングすることができるようになります。 これは便利ですね。 補足: Treasure Workflowはサービス名となっており、内部的に使われているソフトウェアとしてOSSで公開されているdigdagがあ

    Treasure Workflow for ビギナー 環境構築編 - Secret Ninja Blog
    Aoino
    Aoino 2018/01/09
  • 1