airflowに関するkanda_kのブックマーク (3)

  • BigQueryのテーブルの値でAirflowの実行タスクを分岐する|Dentsu Digital Tech Blog

    電通デジタルでBIエンジニアをしている三瓶です。 普段は社内向け広告運用改善ダッシュボードのデータエンジニアリング周りを担当しています。 記事では、AirflowのOperatorを使ってBigQueryのテーブルの値によって実行するタスクを分岐する方法についてご紹介します。 Airflowの実行タスクを分岐するに至った理由 弊社では主にワークフローエンジンのAirflow[1]を用いて取得したデータのETL関連タスクをワークフロー(DAG)に乗せて実行しています。 しかし、上の管理画面の画像のように多種多様なDAGを常時複数運用をしていると、出力結果の品質チェックを毎回行うのはかなりのコストがかかり日々コストの効率化に勤しんでいます。 そこで考案したのがBigQuery上の出力結果を取得し、品質的に異常があった場合はその内容をSlackへ通知し、そうでない場合は通常通りDAGを完了する

    BigQueryのテーブルの値でAirflowの実行タスクを分岐する|Dentsu Digital Tech Blog
  • Apache Airflow 2.0 is here!

    We're proud to announce that Apache Airflow 2.0.0 has been released. I am proud to announce that Apache Airflow 2.0.0 has been released. The full changelog is about 3,000 lines long (already excluding everything backported to 1.10), so for now I’ll simply share some of the major features in 2.0.0 compared to 1.10.14: A new way of writing dags: the TaskFlow API (AIP-31) (Known in 2.0.0alphas as Fun

    kanda_k
    kanda_k 2020/12/18
    公式ブログにも2.0のリリースアナウンスが出てました
  • Airflow 2.0 でDAG定義をよりシンプルに! TaskFlow APIの紹介|Dentsu Digital Tech Blog

    電通デジタルでバックエンド開発をしている松田です。 前回の記事は「広告出稿プランニング業務におけるセグメントのマッピングと表示改善」でした。 Dentsu Digital Tech Advent Calendar 2020 9 日目の記事になります。この記事ではAirflow 2.0で追加された機能の一つであるTaskFlow APIについて、PythonOperatorを例としたDAG定義を中心に1.10.xとの比較を交え紹介します。 弊社のAdvent Calendarでは、Airflow 2.0に関するものはこれまでにHAスケジューラの記事がありました。Airflow 2.0で提供される新しい機能について詳しく知りたい場合はAirflow Planningを参照ください。 TaskFlow APIとは?TaskFlow APIとはざっくり言うと、タスク間の暗黙的なデータ連携を明示的に

    Airflow 2.0 でDAG定義をよりシンプルに! TaskFlow APIの紹介|Dentsu Digital Tech Blog
    kanda_k
    kanda_k 2020/12/09
    Airflow2.0のTaskFlow APIの解説
  • 1