タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

Airflowに関するHHRのブックマーク (5)

  • Airflow を用いたデータフロー分散処理 - LIVESENSE Data Analytics Blog

    こんにちは。テクノロジカルマーケティング部 データプラットフォームチームの村上です。 弊社各サービスのデータ分析基盤であるLivesense Analytics(以降LA)の開発、運用を行っています。 日は弊社データプラットフォームでも活用しているフロー管理ツールAirflowについて、分散処理の概要や最近の更新についてご紹介します。 Airflowについて Airflowとは github.com Airflowはデータ処理フローを管理するツールです。元々はAirbnb社が開発して公開したソフトウェアです。その後Apacheソフトウェア財団のサポートを受けて現在はApache Airflowという正式名称になっています(ブログでは以下Airflowと記述します)。ライセンスはApache License2.0です。体コードはpythonで作られています。 2018年2月現在、正式リ

    Airflow を用いたデータフロー分散処理 - LIVESENSE Data Analytics Blog
    HHR
    HHR 2024/01/22
    内部動作。celery
  • Apache Airflowの並列性と並行性について理解する | DevelopersIO

    こんにちは。サービスグループの武田です。Airflowは同時実行性能についてチューニングできるようになっているのですが、パラメーターの意味がよくわからなかったので調べてまとめてみました。 こんにちは。サービスグループの武田です。 Apache AirflowはDAG(有向非巡回グラフ)でワークフローを表現し、ジョブのスケジューリングや監視などを行ってくれるツールです。Airflowはスタンドアローンでの構成もできますし、クラスターもサポートしています。設定で同時実行性能についてチューニングできるようになっているのですが、パラメーターの意味がよくわからなかったので調べてまとめてみました。 Airflowのバージョン Airflowはバージョンによって設定可能なパラメーターが変わっていることがあります。今回は1.10.12を対象とします。 Executorの理解 Airflowの同時実行性を理

    Apache Airflowの並列性と並行性について理解する | DevelopersIO
    HHR
    HHR 2023/08/07
    max_active_runs=DAGの最大同時実行数 concurrency=Taskの最大同時実行数 pool_slots max_active_tis_per_dag (task_concurrency)
  • 時系列ビッグデータの機械学習オフライン評価を自動化した話(Apache Airflowの応用例)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。Yahoo!広告のデータサイエンティストをしております、田辺 広樹(ざるご)です。 時系列ビッグデータに対しては、オフライン評価の実施にあたって、学習時とは異なる操作を行う必要があります。弊チームでは従来、これらに対して、書き捨ての集計クエリ、Python スクリプトを作成することで対応を行っていました。 記事では、これらの操作を自動化し、オフライン評価のための工数を削減した取り組みをご紹介します。 前提: Yahoo!広告における機械学習パイプライン Yahoo!広告では、時系列ビッグデータを用いて、ヤフーの AI プラットフォーム上で広告配信コンバージョン率(CVR)予測モデルを学習し、広告配信に活用しています。

    時系列ビッグデータの機械学習オフライン評価を自動化した話(Apache Airflowの応用例)
    HHR
    HHR 2023/08/01
    sensor
  • モデリング施策を高速・安全に回せる、MLOpsの仕組みづくり

    こんにちは。サイエンス統括部で機械学習エンジニアをしている芹沢です。ヤフー全社で使われているレコメンドプラットフォームを担当するプロジェクトに所属し、ログ収集・学習ジョブの開発/運用やMLOpsに関連する業務を行っています。 記事ではそのMLOps業務の中からモデリング業務の効率化の取り組み事例を紹介します。新しいモデルを番採用するまでにはA/Bテストの準備などをする必要がありますが、それにかかる工数が多いことが課題となっていました。そこで、検証段階からA/Bテスト実施までの実装の負担を軽減し、より早く安全にモデル改善の試行錯誤を行える仕組みを提供しました。 ※ レコメンドシステムの開発はプライバシーポリシーの範囲内で取得したデータを用いて、個人を特定できない形で行っています。 全社共通レコメンドプラットフォームの紹介 レコメンドとは、サービスを利用するユーザーにおすすめのアイテムを

    モデリング施策を高速・安全に回せる、MLOpsの仕組みづくり
    HHR
    HHR 2023/06/12
    “「なぜAirflowとArgo Workflowsという2つのワークフローツールを使うんだ?」と疑問に思うかもしれません。”
  • Airflowはすごいぞ!100行未満で本格的なデータパイプライン - Qiita

    はじめに ワークフローを作成、実行、監視するためのプラットフォーム「Airflow」が、近年人気を集めていて、多くの企業に利用されています。Airflow Summit 2022 のようなグローバルイベントも開催されるようになり、世界中から2000人以上のコントリビュータ(私もその1人)が貢献しているアツいプロジェクトです。 この記事で Airflow を使う意味と主要コンセプトを説明します。最後に、100行未満で実装できる格的なデータパイプラインの実例をお見せしたいと思います。 Airflowとは 概要 Airflowは ワークフロー を作成、実行、監視するためのプラットフォームです。ここで言う「ワークフロー」は、依存関係にある複数の タスク を、下図のように繋いだ形で、パイプラインとして実行していくものと思ってください。 Airflowを使うと、より早く、よりロバストなワークフローが

    Airflowはすごいぞ!100行未満で本格的なデータパイプライン - Qiita
    HHR
    HHR 2023/05/29
  • 1