並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 66件

新着順 人気順

Airflowの検索結果1 - 40 件 / 66件

  • Airflowはすごいぞ!100行未満で本格的なデータパイプライン - Qiita

    はじめに ワークフローを作成、実行、監視するためのプラットフォーム「Airflow」が、近年人気を集めていて、多くの企業に利用されています。Airflow Summit 2022 のようなグローバルイベントも開催されるようになり、世界中から2000人以上のコントリビュータ(私もその1人)が貢献しているアツいプロジェクトです。 この記事で Airflow を使う意味と主要コンセプトを説明します。最後に、100行未満で実装できる本格的なデータパイプラインの実例をお見せしたいと思います。 Airflowとは 概要 Airflowは ワークフロー を作成、実行、監視するためのプラットフォームです。ここで言う「ワークフロー」は、依存関係にある複数の タスク を、下図のように繋いだ形で、パイプラインとして実行していくものと思ってください。 Airflowを使うと、より早く、よりロバストなワークフローが

      Airflowはすごいぞ!100行未満で本格的なデータパイプライン - Qiita
    • Introducing Amazon Managed Workflows for Apache Airflow (MWAA) | Amazon Web Services

      AWS News Blog Introducing Amazon Managed Workflows for Apache Airflow (MWAA) As the volume and complexity of your data processing pipelines increase, you can simplify the overall process by decomposing it into a series of smaller tasks and coordinate the execution of these tasks as part of a workflow. To do so, many developers and data engineers use Apache Airflow, a platform created by the commun

        Introducing Amazon Managed Workflows for Apache Airflow (MWAA) | Amazon Web Services
      • PythonのPipelineパッケージ比較:Airflow, Luigi, Gokart, Metaflow, Kedro, PipelineX - Qiita

        PythonのPipelineパッケージ比較:Airflow, Luigi, Gokart, Metaflow, Kedro, PipelineXPythonワークフローデータサイエンスPipelineETL この記事では、Open-sourceのPipeline/Workflow開発用PythonパッケージのAirflow, Luigi, Gokart, Metaflow, Kedro, PipelineXを比較します。 この記事では、"Pipeline"、"Workflow"、"DAG"の単語はほぼ同じ意味で使用しています。 要約 👍: 良い 👍👍: より良い 2015年にAirbnb社からリリースされました。 Airflowは、Pythonコード(独立したPythonモジュール)でDAGを定義します。 (オプションとして、非公式の dag-factory 等を使用して、YAML

          PythonのPipelineパッケージ比較:Airflow, Luigi, Gokart, Metaflow, Kedro, PipelineX - Qiita
        • Airflow入門

          DeNA / MoT共同のAI技術共有会で発表した、Airflow入門資料です。

            Airflow入門
          • SPOFとはもう呼ばせない!Airflow 2.0で生まれ変わったHAスケジューラー|Dentsu Digital Tech Blog

            電通デジタルでSREをしている神田です。 この記事は電通デジタルアドベントカレンダーの4日目の記事です。前回の記事は「Reactアプリケーション内でGoogle Analytics計測をする際、react-gaを使わず、gtag.jsを利用した方法とその選択理由」でした。 電通デジタルのいくつかの開発プロジェクトでは、データ処理のためのワークフローエンジンとしてAirflowが採用されています。 この記事では、Airflow 2.0で改善された機能の1つである、スケジューラーのHA(High Availability)対応について解説します。 Airflow 2.0で提供される機能について詳しく知りたい方はAirflow 2.0 Planningを参照してください。 そもそも、スケジューラーって何をしているの?スケジューラーは、DAGやタスクを監視し依存関係をもとに実行可能なTaskIns

              SPOFとはもう呼ばせない!Airflow 2.0で生まれ変わったHAスケジューラー|Dentsu Digital Tech Blog
            • Apache Airflowでエンドユーザーのための機械学習パイプラインを構築する Part5 (End)

              We organized Japanese financial reports to encourage applying NLP techniques to financial analytics. You can download… Part4からずいぶん間が空きましたが、その間にはデータ公開にまつわるもろもろの調整などがあったという。 Airflowを採用しなかった理由最終的にAirflowを採用しなかった理由は2つあります。 運用コスト開発コスト運用コスト Part3でも触れましたが、Airflowのホスティングは結構高くつきます。ホスティングサービスを提供しているのはGCPのCloud ComposerとAstronomerの2つが主です。Astronomerの場合は月額$100まで抑えることが可能ですが、固定で毎月かかるとなるとそこそこの金額です。 スケジューラーは、スケジュー

                Apache Airflowでエンドユーザーのための機械学習パイプラインを構築する Part5 (End)
              • Airflow 2.0 でDAG定義をよりシンプルに! TaskFlow APIの紹介|Dentsu Digital Tech Blog

                電通デジタルでバックエンド開発をしている松田です。 前回の記事は「広告出稿プランニング業務におけるセグメントのマッピングと表示改善」でした。 Dentsu Digital Tech Advent Calendar 2020 9 日目の記事になります。この記事ではAirflow 2.0で追加された機能の一つであるTaskFlow APIについて、PythonOperatorを例としたDAG定義を中心に1.10.xとの比較を交え紹介します。 弊社のAdvent Calendarでは、Airflow 2.0に関するものはこれまでにHAスケジューラの記事がありました。Airflow 2.0で提供される新しい機能について詳しく知りたい場合はAirflow Planningを参照ください。 TaskFlow APIとは?TaskFlow APIとはざっくり言うと、タスク間の暗黙的なデータ連携を明示的に

                  Airflow 2.0 でDAG定義をよりシンプルに! TaskFlow APIの紹介|Dentsu Digital Tech Blog
                • たった3人で運用するドコモを支える機械学習基盤の作り方 ー Kubernates × Airflow × DataRobot を使ったMLOpsパイプライン ー - ENGINEERING BLOG ドコモ開発者ブログ

                  TL;DR 自己紹介・モチベーション 処理の再現性の担保・デプロイの迅速化 実現したかったこと 1. コードの再現性を担保する 2. 簡単に機械学習タスクの実行パイプラインをかけるようにする 3. ノートブックファイルを、そのままの形でパイプラインに組み込めるようにする スケーラビリティの確保 DataRobotについて スコアリングコード機能 実装上のポイント 工夫点 はまったポイント 所感 あとがき TL;DR 機械学習基盤をKubernates上で構成することで、機械学習にかかわる一連の処理の再現性を担保できるようになった。 AutoML製品(DataRobot)の機能をKubernates(以下k8s)上で実行させることで、バッチ予測を並行実行し、大幅に高速化することができた。 データサイエンティストが自分自身で容易に機械学習パイプラインの定義・デプロイができるようになった。 自己

                    たった3人で運用するドコモを支える機械学習基盤の作り方 ー Kubernates × Airflow × DataRobot を使ったMLOpsパイプライン ー - ENGINEERING BLOG ドコモ開発者ブログ
                  • Airflowの処理の一部をdbtに移行しようとして断念した話 - Classi開発者ブログ

                    こんにちは、データプラットフォームチームでデータエンジニアをやっている滑川(@tomoyanamekawa)です。 以前紹介したデータ分析基盤であるソクラテスの改善のためにCloud Composer(Airflow)で行っている処理のdbtへの置き換えを検討しましたが、導入を見送りました。 調べてみてdbtに対するわかりみも深まったので、その供養のために検討内容を公開します。 同じように検討している方の参考になれば幸いです。 dbtとは DWH(Data Ware House)でのquery管理やデータの品質、データリネージの問題を解決してくれるツールです。 すでに先人たちがいろいろな記事を公開してくれているので、詳細は説明しませんがこちらの文がdbtをよく表しています。 ELTの「T」を担当するツール データの前処理における作業をELT(Extract、Load、Transform)と

                      Airflowの処理の一部をdbtに移行しようとして断念した話 - Classi開発者ブログ
                    • AirflowとKubernetesで機械学習バッチジョブの運用負荷を低減した話

                      ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。サイエンス統括本部でYahoo!ショッピングやPayPayモールのおすすめ機能(レコメンドシステム)の開発を担当している正沢です。 この記事では、別々に作られた複数の機械学習のバッチジョブ管理システムをApache Airflow(以降、Airflowと記載します)に集約して、運用負荷を低減した事例を簡単なシステム構成とともに紹介したいと思います。 ※ レコメンドシステムの開発ではプライバシーポリシーの範囲内で取得したデータを用いて行っています Yahoo!ショッピングのレコメンドとは? Yahoo!ショッピングやPayPayモールには、ユーザーがなにか商品を見ている時に、他にも興味を持ってもらえそうな商品を推薦するレ

                        AirflowとKubernetesで機械学習バッチジョブの運用負荷を低減した話
                      • Cloud Composer 2上でApache Airflow 2のワークフローを実装する - ZOZO TECH BLOG

                        はじめに こんにちはZOZOデータサイエンス部MLOpsブロック松岡です。 本記事では先日リリースされたGCP(Google Cloud Platform)Cloud Composerの最新バージョンCloud Composer 2について紹介します。 ZOZOTOWNでは、多種多様な商品が毎日新たに出品されています。現在MLOpsブロックでは、機械学習で商品情報の登録を補佐するシステムを開発しています。 このシステムでは商品情報を保存するデータベースへ大量の書き込み処理が発生します。このアクセスによる負荷が日常業務に影響を及ぼすリスクを最小限に抑えるため、推論処理は夜間に行います。夜間に処理を完了させるには強力なマシンリソースを使用する必要があります。コストの観点から処理が行われていない時間はマシンリソースを使用停止する必要もあります。また、人手を介さずに安定して稼働出来る仕組みも求めら

                          Cloud Composer 2上でApache Airflow 2のワークフローを実装する - ZOZO TECH BLOG
                        • コードリーディングでAirflowの仕組みを理解する

                          こんにちは。Nowcastでエンジニアをしている片山(@fozzhey)です。 NowcastではワークフローマネジメントツールとしてAirflowを採用しています。 Airflowは日本でもよく採用されており、実際に活用されている方も多いと思います。 しかし、Airflowを使うことはできるけど、実際にどういう仕組みで動いているのかは分からない方が多いのではないでしょうか? せっかくPythonで書かれているのに、Airflowのコードを読まないのはもったいない! ということで、この記事ではAirflowのコードリーディングを行いたいと思います。 なるべくコードやGithubのリンクを貼っていますが、手元のエディターでAirflowのリポジトリを開きながら読んでいただくとより理解が深まると思います。 コードリーディングの題材題材とするDAGとタスクこの記事ではAirflowが提供するサン

                            コードリーディングでAirflowの仕組みを理解する
                          • Apache Airflowで実装するDAG間の実行タイミング同期処理 - エニグモ開発者ブログ

                            こんにちは。 今年4月にエニグモに入社したデータエンジニアの谷元です。 この記事は Enigmo Advent Calendar 2020 の20日目の記事です。 目次 はじめに そもそも同期処理とは? Airflowによる同期処理 検証時のコード サンプルをAirflow画面で見ると? 同期遅延なし時のAirflowログ 同期遅延あり時のAirflowログ 同期タイムアウト時のAirflowログ 所感 最後に はじめに コロナ禍の中、皆さんどのようにお過ごしでしょうか。 私はリモートワークを続けてますが、自宅のリモートデスクワーク環境をすぐに整えなかったため、薄いクッションで座りながらローテーブルで3ヶ月経過した頃に身体の節々で悲鳴をあげました。猫背も加速... さて、エニグモでの仕事も半年以上経過し、データ分析基盤の開発運用保守やBI上でのデータ整備などを対応をさせていただいてますが、

                              Apache Airflowで実装するDAG間の実行タイミング同期処理 - エニグモ開発者ブログ
                            • AirflowのTips 11選 | フューチャー技術ブログ

                              概要Airflow 利用にあたって知っておいたほうが良いんじゃないかなと思う情報をまとめました。いわゆるハマりどころです。 Airflow 自体の基本的な説明(用語,DAG 定義方法,etc..) は省略しています。 基礎参照先 公式 Tutorial Dockerfile バージョン Airflow 1.10.4 Postgres 10.7 Tips 11 選 1. 日時 2. リトライ 3. start_date の変更ができない 4. 開始日時を過去日時にすると過去ジョブが自動実行される 5. context の活用 6. Macros 7. Task 間で値を受け渡す方法 8. dags ディレクトリ以下のディレクトリの切り方 9. UI の表示が UTC 固定 10. Web UI 上からジョブのパラメータを渡せない 11. DAG/Task の同時実行数制御 1. 日時Airf

                                AirflowのTips 11選 | フューチャー技術ブログ
                              • Airflow のアーキテクチャをざっくり理解して、どうやって使うのか学んでみた | DevelopersIO

                                こんにちは、みかみです。 Python で実装されている Job 管理ツール Apache Airflow。 WebUI のJob 管理画面で直感的に分かりやすい操作が可能で、エラー発生時などの通知機能もあり、スケールアウトにも対応していて複数サーバで分散実行もできます。 Python でバッチ Job 開発経験のある方には多分おなじみの Airflow、私も存在は知っていましたが、実際使ったことはありませんでした。 やりたいこと Airflow の構成(アーキテクチャ)を知りたい Airflow の使い方(Job 作成&実行方法)を知りたい Airflow のアーキテクチャ Airflowは、 管理画面表示部の Webserver と、Job実行のスケジュール管理部の Scheduler 、Job実行部の Worker(Executer) から成り立っているようです。 各モジュールは管理

                                  Airflow のアーキテクチャをざっくり理解して、どうやって使うのか学んでみた | DevelopersIO
                                • Airflow's Problem

                                  I wrote an entire blog post trying to pin down why I dislike Airflow. But despite my rationalizations, it came out like a break-up letter — just way too personal: Dear Airflow, I tried to make it work, I really did. But you are too old, your abstractions are clunky, and I think you’re ugly. It’s over between us. Sincerely, Stephen Which would have been fine, except I knew exactly how Airflow would

                                    Airflow's Problem
                                  • AWSのマネージドAirflow、Amazon Managed Workflow for Apache Airflow(MWAA)が登場! | DevelopersIO

                                    こんにちは。サービスグループの武田です。 本日朝イチで飛び込んできたニュースをお届けします。ETL処理などのワークフローを実行するツールとして人気のあるApache AirflowがAWSのマネージドサービスとして登場しました!GCPにはCloud Composerというマネージドサービスがあったのですが、AWSには存在しませんでした。re:Invent 2019で発表されないかな、と昨年も期待していたのですが、なんと今年のre:Invent 2020を目前にしてリリースされました。歓喜! Amazon MWAAの特徴 ドキュメントなどを読んでいくつかピックアップしてみました。詳細はぜひドキュメントを確認してください。 IAMと統合されたWebサーバーのユーザー管理 CloudWatchと統合されたモニタリング DAGファイルやプラグインはS3にアップロードするだけ Workerのオートス

                                      AWSのマネージドAirflow、Amazon Managed Workflow for Apache Airflow(MWAA)が登場! | DevelopersIO
                                    • BigQueryとAirflowを活用したDataPlatform運用の10のケース・スタディ

                                      この記事は Eureka Advent Calendar 2019 11日目の記事です。 10日目は スーパーCompSREエンジニア恩田による「AWSのマルチアカウント管理におけるIAMマネジメントで試行錯誤した話」でした。 こんにちは。BIチームのデータアナリストの栗村(@t-kurimura)です。主にPairsの機能に関する分析を行っていますが、最近は分析を行うまでのデータを整えるデータアーキテクト的お仕事の比率も増えてきています。 さて、この記事では弊社のDataPlatform運用において、試行錯誤してきた中での運用の学びをケース・スタディ的にご紹介します。 エウレカのDataPlatformの現状前提として、弊社では3つの層にわけて、アプリケーションログやマーケティングに関連するデータをより分析しやすいデータへと加工しています。 Dataをほぼそのまま保存しているDataLa

                                        BigQueryとAirflowを活用したDataPlatform運用の10のケース・スタディ
                                      • Amazon Managed Workflows for Apache Airflow (MWAA) でのAiflow v2系への移行記録 - KAYAC engineers' blog

                                        こんにちは。技術部の池田です。 この記事では、Amazon Managed Workflows for Apache Airflow (MWAA) のAirflow v2系への移行を行いましたので、その時の話をしたいとお思います。 内容としては、主に以下となります。 MWAA では v1.10.12の環境を直接 v2.0.2に移行できないぞ! ローカルでDAGのテストをしていると互換性チェックは楽だぞ! 新しいv2.0.2の環境を作るときには、最初はrequirements.txtやDAGを空っぽにしておくと良いぞ! ConnectionsとVariablesの新環境への移植は頑張るんだぞ!!! 背景 MWAAでもAirflow v2系のサポートが始まりました。 先日、Airflowの勉強会に参加して初めて知ったのですが、Airflow v1系は2021/06月末でEOLです。 早く移行を

                                          Amazon Managed Workflows for Apache Airflow (MWAA) でのAiflow v2系への移行記録 - KAYAC engineers' blog
                                        • 世の人もすなる Airflow というものを、してみんとてするなり | 株式会社オープンストリーム

                                          みなさんこんにちは。技術創発推進室の高岡です。 気の早い桜は咲き始めたようですが、そろそろ年度末、みなさまいかがお過ごしでしょうか。 このところの私は、これまでの AI 関連の開発を振り返って、実験管理、結構面倒くさかったな、という反省をしているところです。機械学習系の案件に関わっている皆さんには、ご同意いただけるんじゃないでしょうか。 ■実験管理は必須。でも面倒! 機械学習モデル開発のワークフローでは、次のような作業がよく発生します。 あるデータと設定で、機械学習モデルを訓練して、パラメータを得る訓練済みの機械学習モデルの性能を調べて、記録するモデル同士の性能を比較する こうした「条件設定と訓練、性能測定、比較」のサイクルを「実験」と呼び、実験を繰り返しながら、より良いモデルを模索するわけです。経験者の皆さんにはおなじみですね。 このとき「このモデルはどういう条件の下で得られたか」「それ

                                            世の人もすなる Airflow というものを、してみんとてするなり | 株式会社オープンストリーム
                                          • [レポート] dbtとAirflowとGreat Expectationsで堅牢なデータパイプラインを構築する #dbtcoalesce | DevelopersIO

                                            大阪オフィスの玉井です。 12月7日〜11日の間、Fishtown Analytics社がcoalesceというオンラインイベントを開催していました(SQLを触っている方はピンとくるイベント名ではないでしょうか)。 「Fishtown Analytics社って何やってる会社?」という感じですが、dbtというツールを開発しているベンダーです。dbtについては、下記をご覧ください。 今回は、その中からBuilding a robust data pipeline with dbt, Airflow, and Great Expectationsというセッションを受講したので、レポートを記します。 イベント概要 公式 Coalesce 2020 online - December 7-11, 2020 Building a robust data pipeline with dbt, Airfl

                                              [レポート] dbtとAirflowとGreat Expectationsで堅牢なデータパイプラインを構築する #dbtcoalesce | DevelopersIO
                                            • Airflow の流れを制す - kencharosの日記

                                              最近バックグラウンドのジョブスケジューラとして使用しているのが、 Apache Airflow だ。 https://airflow.apache.org/ Pythonで複数ジョブ(Operator)の依存関係をDAGとしてDSL的に書けるのは魅力的だが、 一方でスケジューラーとしては、UI付きのcronだと思っていたら相当なハマりどころを感じたので、 同じくハマりそうな人や将来の自分に向けてAirfronのスケジューリングの知見を残しておきたいというのが趣旨。 TL;DR 以下の通り、ちゃんと公式でも書いてあるが、正直なところ自分でやってみないとわかりづらく、 ちゃんと補足してある資料があったので紹介しておく。 自分で試しつつ、以下の資料と照らし合わせて自分の認識が一致したことを再確認した。 airflow.apache.org towardsdatascience.com Airfl

                                                Airflow の流れを制す - kencharosの日記
                                              • Airflowをソースコードから起動する

                                                風音屋では、データエンジニア、データアナリスト、データコンサルタントを募集しています。 書籍執筆者やOSSコントリビューターなど、業界を代表する20名以上のアドバイザーと一緒にベストプラクティスを追求できる環境です。 ぜひカジュアルトークをお申し込みください。 風音屋アドバイザーの渡部徹太郎(@fetarodc) です。 このブログではAirflowをソースコードから起動する方法を説明します。 ソースコードから起動できると、デバッガを刺してデバッグしたり、一部書き換えて動作を検証したりと、色々便利です。 環境 macOS BigSur(11.6.4) Python 3.9.7 virtualenv 20.7.2 Airflow 2.1.3 Docker 20.10.12 Airflowのインストール 作業ディレクトリの準備 作業するディレクトリを作成し、環境変数 WORK_DIR に登録し

                                                  Airflowをソースコードから起動する
                                                • Airflowに関する個人的FAQ | DevelopersIO

                                                  Airflowを触っていて個人的にハマったことなどをFAQ形式でまとめてみました。全然Frequentlyじゃない気がするのはきっと気のせいです。 Airflowを触っていて個人的にハマったことなどをFAQ形式でまとめてみました。全然Frequentlyじゃない気がするのはきっと気のせいです。 以下、バージョンは本記事公開時の最新 1.10.2 です。 インストール インストールが失敗するのですが? 普通に pip install apache-airflow とすると以下のエラーで失敗します。 RuntimeError: By default one of Airflow's dependencies installs a GPL dependency (unidecode). To avoid this dependency set SLUGIFY_USES_TEXT_UNIDECOD

                                                    Airflowに関する個人的FAQ | DevelopersIO
                                                  • GitHub - windmill-labs/windmill: Open-source developer platform to turn scripts into workflows and UIs. Fastest workflow engine (5x vs Airflow). Open-source alternative to Airplane and Retool.

                                                    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                      GitHub - windmill-labs/windmill: Open-source developer platform to turn scripts into workflows and UIs. Fastest workflow engine (5x vs Airflow). Open-source alternative to Airplane and Retool.
                                                    • Apache Airflow : 10 rules to make it work ( scale )

                                                      if you are not careful your shortcuts will cost you a lot afterwardsAirflow permissive approach will let you schedule any custom code (jobs) but you will create a spaghetti stack if you do not follow very strict SEPARATION OF CONCERN design between the airflow dags and your jobs. Airflow allow you to run your jobs without isolation with the framework itselfAt the origin Airflow was sort of a “supe

                                                        Apache Airflow : 10 rules to make it work ( scale )
                                                      • 時系列ビッグデータの機械学習オフライン評価を自動化した話(Apache Airflowの応用例)

                                                        ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。Yahoo!広告のデータサイエンティストをしております、田辺 広樹(ざるご)です。 時系列ビッグデータに対しては、オフライン評価の実施にあたって、学習時とは異なる操作を行う必要があります。弊チームでは従来、これらに対して、書き捨ての集計クエリ、Python スクリプトを作成することで対応を行っていました。 本記事では、これらの操作を自動化し、オフライン評価のための工数を削減した取り組みをご紹介します。 前提: Yahoo!広告における機械学習パイプライン Yahoo!広告では、時系列ビッグデータを用いて、ヤフーの AI プラットフォーム上で広告配信コンバージョン率(CVR)予測モデルを学習し、広告配信に活用しています。

                                                          時系列ビッグデータの機械学習オフライン評価を自動化した話(Apache Airflowの応用例)
                                                        • Airflowの使い勝手と他のワークフローエンジンの紹介(2020年) - Qiita

                                                          この記事でやること ワークフローエンジンであるAirflowの使い方のポイントを書きます 私はGCPのCloud Composerで使っています ※ワークフローエンジンについては以前こちらに書きました https://qiita.com/elyunim26/items/15db924e4c9833e5050a MWAA来ましたね ちょうど、AWSのフルマネージドAirflow(MWAA)も来ましたね 使い始めるかたもいらっしゃるのではないでしょうか https://dev.classmethod.jp/articles/amazon-managed-workflows-for-apache-airflow-mwaa-ga/ AWS MWAAの利用料としてはGCPのCloud Composerと似たようなレンジで400-600$/月くらいはかかってしまいそうです https://aws.am

                                                            Airflowの使い勝手と他のワークフローエンジンの紹介(2020年) - Qiita
                                                          • Airflowでタスク失敗時にSlackへメッセージを送る - iMind Developers Blog

                                                            概要 Airflowのタスクが失敗した際にSlackにメッセージを送るようにする。 トークン等はVariablesに保存して扱う。 バージョン情報 Python 3.6.7 apache-airflow==1.10.1 slackclient==1.3.0 導入 slackclientが必要になるので入れておく。 $ pip install slackclient Variablesの設定 下記あたりを参考にSlackのトークンを取得しておく。 https://api.slack.com/incoming-webhooks AirflowのWebサーバーを立ち上げる $ airflow webserver -p8080 Admin → Variablesを選択。 CreateタブからVariableを生成する。 公式ドキュメントによるとVariableのキー名がパスワードっぽいものについて

                                                              Airflowでタスク失敗時にSlackへメッセージを送る - iMind Developers Blog
                                                            • Step Functions を利用して感じた Airflow との比較 | フューチャー技術ブログ

                                                              サービス比較各サービス別に、Good/Challenge に分けて記載しています。 GoodMWAA Pythonで実現できることは基本すべて実装可能で、実装の制約が少ない UI が充実しており、実行履歴、ログ、実行時間等の様々な情報を参照することが可能 UI 上でワークフローの任意の位置からリトライ可能 各種クラウドSDK/OSS API を呼び出しを簡易化するための provider がサードパーティ提供されている Providers packages reference — apache-airflow-providers Documentation provider を pip でインストール後、各 provider に実装されている operator 関数を呼び出すことで実現可能 Step Functions AWS サービスの呼び出しをローコード(パラメータ指定程度)で実現可能

                                                                Step Functions を利用して感じた Airflow との比較 | フューチャー技術ブログ
                                                              • Apache Airflow、Genie、および Amazon EMR でビッグデータワークフローのオーケストレーションを行う: Part 1 | Amazon Web Services

                                                                Amazon Web Services ブログ Apache Airflow、Genie、および Amazon EMR でビッグデータワークフローのオーケストレーションを行う: Part 1 AWS 上でビッグデータの ETL ワークフローを実行している大企業は、多数の内部エンドユーザーにサービスを提供できるようなスケールで運用しており、何千もの同時パイプラインを実行しています。このことは、新しいフレームワークと、ビッグデータ処理フレームワークの最新のリリースに遅れずについていくため、ビッグデータプラットフォームを更新し、拡張する点での継続的なニーズと相まって、ビッグデータプラットフォームの管理を簡素化することと、ビッグデータアプリケーションへの容易なアクセスを促すことの両方を可能にする、効率的なアーキテクチャと組織構造を要求しています。 この投稿では、一元管理型のプラットフォームチームが

                                                                  Apache Airflow、Genie、および Amazon EMR でビッグデータワークフローのオーケストレーションを行う: Part 1 | Amazon Web Services
                                                                • Airflowさわってみた

                                                                  概要 仕事でAirflowを触る機会があったので、そこで調べたことなどをまとめてみたいと思います。 Airflowとは Airflowは、処理(タスク)を順に実行したり、監視やスケジューリングができるフレームワークとなっています。 例えば、ETL処理(データの抽出、変換、ロード)を行うことに適しています。 Airflowの用語 Dag Airflowは一連のジョブ(処理のかたまり)をDagで定義します。 Dagとは、有向非巡回グラフ(Directed Acyclic Graph)のことで、1方向で処理を順に実行していくものになります。ETLでは、ロードは抽出、変換を先に実行しなくてはならないため、抽出→変換→ロードの順で処理を組み、Dagを作成することになります。 Operator 処理(タスク)を定義するテンプレートのようなもの。 様々なOperatorが用意されていて、Bashで処理を

                                                                    Airflowさわってみた
                                                                  • Airflow と SageMaker で構築する推論パイプライン | BLOG - DeNA Engineering

                                                                    はじめまして。AI システム部の @moajo です。 普段はインフラからフロントエンドまで幅広く MLOps しています。 弊社 AI システム部のとあるプロジェクトで、老朽化した機械学習推論パイプラインを Airflow と SageMaker を組み合わせて再構築しました。 この記事では、新しい推論パイプラインの開発を通して得られた知見と、その具体的な実装についてご紹介します。 具体的なコード例を多めに載せているので、参考になれば幸いです。 この記事には以下のようなことが書いてあります。 システム全体像と得られた知見 SageMaker batch transform の使い方 Airflow の使い方 この記事ではなんとなく以下を知っていることを前提とします。 Airflow とは何か SageMaker とは何か 背景 このプロジェクトでは、以前から以下のような推論プロセスが運用

                                                                      Airflow と SageMaker で構築する推論パイプライン | BLOG - DeNA Engineering
                                                                    • Apache Airflow 2.0 is here!

                                                                      We're proud to announce that Apache Airflow 2.0.0 has been released. I am proud to announce that Apache Airflow 2.0.0 has been released. The full changelog is about 3,000 lines long (already excluding everything backported to 1.10), so for now I’ll simply share some of the major features in 2.0.0 compared to 1.10.14: A new way of writing dags: the TaskFlow API (AIP-31) (Known in 2.0.0alphas as Fun

                                                                      • AWSのマネージドAirflow "MWAA" 所感

                                                                        Google Cloud Composerのリリース(2018年7月19日GA)から遅れること2年数ヶ月、AWSは2020年11月24日に Managed Workflows for Apache Airflow (MWAA) をリリースした。 Introducing Amazon Managed Workflows for Apache Airflow (MWAA) それから1年、遅ればせながら自分でも軽く試してみた。AWSコンソールからAirflow UIに飛ぶのに違和感を覚えつつも1、種々のAWSサービスとの連携を考えると「むしろなんで今まで無かったんだろう」という気さえする。 概要 公式のデモ動画が分かりやすいので、まずはそれを見てみよう。 ポイントは次の通り。 DAGファイル(Pythonコード)は専用のS3バケットに置く OSSのAirflowに完全準拠 (事前に設定した上限値

                                                                          AWSのマネージドAirflow "MWAA" 所感
                                                                        • 【増席】Airflow, Argo, Digdag...モダンなパイプラインツールをハックしよう! (2021/02/17 19:30〜)

                                                                          お知らせ connpassではさらなる価値のあるデータを提供するため、2024年5月23日(木)を以ちましてイベントサーチAPIの無料での提供の廃止を決定いたしました。 2024年5月23日(木)以降より開始予定の「connpass 有料API」の料金プランにつきましてはこちらをご覧ください。 なお有料の対象となるのはAPIのみであり、connpassのサービスにつきましては今後も無料でご利用いただけます。 2月 17 【増席】Airflow, Argo, Digdag...モダンなパイプラインツールをハックしよう! ~データエンジニア向け 実務で使えるノウハウやTipsを共有!~

                                                                            【増席】Airflow, Argo, Digdag...モダンなパイプラインツールをハックしよう! (2021/02/17 19:30〜)
                                                                          • Apache Airflow Tips and Best Practices

                                                                            Photo by JJ Ying on UnsplashWhen I first started building ETL pipelines with Airflow, I had so many memorable “aha” moments after figuring out why my pipelines didn’t run. As the tech documentation never covers everything, I tend to learn much more about a new tool from making mistakes and reading source…

                                                                              Apache Airflow Tips and Best Practices
                                                                            • Apache Airflowでエンドユーザーのための機械学習パイプラインを構築する Part3

                                                                              Part2では、Airflowの基本的な使い方を学びました。Part3では、実際にパイプラインの実装に入っていきたいと思います。とはいえ一度に全部は作れないため、パートに分けて作成をしていきます。今回は、データ収集を担当するパートの一部を実装しようと思います。 Part3にて実装の範囲: データの取得処理具体的には、以下の処理のうち1~2を実装してみます。 EDINETから、決算関連文書のリストを取得するリストに掲載された文書をダウンロードして、ストレージに格納するダウンロードされた文書からテキストを抽出し、DBに格納する抽出したテキストから特徴量を計算し、ストレージに格納するEDINETは、企業の決算文書などを公開している金融庁のシステムです。最近APIで文書にアクセスできるようになったため、こちらを題材に使ってみたいと思います。 基本的には、ファイルダウンロード・テキスト抽出・特徴量抽

                                                                                Apache Airflowでエンドユーザーのための機械学習パイプラインを構築する Part3
                                                                              • Airflowを利用してBigQueryを平日日中のみ定額化する - Qiita

                                                                                BigQueryを利用し始めて時間が経ち、データも少しずつ増えてきました。 それと同時に利用者や、BigQueryにアクセスするツールが増えデータスキャン量も当然増えてきます。 そこで費用を抑えるために定額料金にすることにしました。 ただ、24時間ずっとBigQueryでクエリが実行しているわけではないので、月次・年間契約だとコストが見合わなく、Flex SlotsとAirflowを組み合わせて営業時間のみ定額化することにしました。 設定する場合はBigQuery Reservationsの詳細について一度確認することをお勧めします。 今回はAirflowのデプロイ方法については割愛します。 定額化の設定に必要な権限 処理を行うアカウントに以下の権限が必要なので、こちらの権限を設定したサービスアカウントを利用します。 フォルダに対して定額化を有効にする場合、フォルダもしくは組織に対する権限

                                                                                  Airflowを利用してBigQueryを平日日中のみ定額化する - Qiita
                                                                                • Airflow vs Luigi vs Argo vs Kubeflow vs MLFlow

                                                                                  Just tell me which one to useYou should probably use: Apache Airflow if you want the most full-featured, mature tool and you can dedicate time to learning how it works, setting it up, and maintaining it.Luigi if you need something with an easier learning curve than Airflow. It has fewer features, but it’s easier to get off the ground.Prefect if you want something that’s very familiar to Python pro

                                                                                    Airflow vs Luigi vs Argo vs Kubeflow vs MLFlow