タグ

AirFlowに関するshunmatsuのブックマーク (11)

  • Airflow Study #1「Airflowの内部構造と動かし方を理解する」で発表しました | フューチャー技術ブログ

    概要株式会社ナウキャスト さん主催の Airflow Only の勉強会「Airflow Study #1」 にご招待いただき「Airflow Breeze を使ったローカル環境構築」について発表してきました。 当ブログでの Airflow 関連の記事を見ていただき、お声がけいただいたということで、大変嬉しく思うとともに、色々ブログ記事書いてきて良かったなと思っています。 https://finatext.connpass.com/event/214704/?fbclid=IwAR2yQ_AcVB9lMctnT5M-J-AQvESqX86GMtBbn5k59unYFEMf1N0xs7pNz7g 資料 内容としては、先日ブログにまとめた Airflow Breeze を利用してローカルで Airflow を起動する | フューチャー技術ブログ の内容を少し変更して作成しました。 ブログでは、

    Airflow Study #1「Airflowの内部構造と動かし方を理解する」で発表しました | フューチャー技術ブログ
  • Kubernetes の CronJob/Job の仕組みをひもとく - Qiita

    これは リクルートライフスタイル Advent Calendar 2018 の5日目の記事です。 前日 に引き続き CET チーム から、日は @tmshn がお送りします。 はじめに データベースのバックアップを定期的に取る npm audit を定期的に実行する 放置されている issue/pull request を定期的に Slack に通知する などなど、日常の中で何かを定期実行したくなることはよくあります。 そんなとき、素朴なソリューションとして真っ先に思いつくのは、ジョブ用のサーバーを用意してその中で cron を実行するというやり方でしょうか。 でも、Kubernetes(以下 k8s)をお使いなら、CronJob というリソースを使うことができます。 1 K8s CronJob ではコントローラーがスケジュールを管理し、実行ごとに Pod を作成して、終了したらそれを破

    Kubernetes の CronJob/Job の仕組みをひもとく - Qiita
  • ビッグデータ活用時のワークフローの大切さ ZOZO研究所のエンジニアが感じた次元が違う300万画像の処理

    ZOZO Technologies Meetup は、「ZOZOテクノロジーズの大規模データ活用に興味のある方」を対象としたイベントです。ZOZO研究所の渡辺氏からは大規模データを対象とした画像検索システムのワークフローについての事例を紹介しました。後半は画像検索のワークフローの流れについて。 画像検索のワークフローの流れ 渡辺慎二郎氏:というところの話になってきて、これがワークフロー、それを毎日のように準備するという仕組みになります。先ほど見せた図で言うと、この部分ですね。 このワークフロー、今回ではComposerというGKEのマネージドサービスを使っています。これの中身、具体的な仕組みは置いておいて、流れをご紹介します。 まずBigQueryから、日今時点で有効になっている、使える、発売になっている商品情報をダーッと取ってきます。だいたいこれが300万画像ぐらい。その日によって違っ

    ビッグデータ活用時のワークフローの大切さ ZOZO研究所のエンジニアが感じた次元が違う300万画像の処理
  • データ基盤を支える技術 - ETLフレームワークの実践的な選び方・組み合わせ方 - JX通信社エンジニアブログ

    JX通信社シニア・エンジニア兼データ基盤担当大臣の@shinyorke(しんよーく)です. 最近やった「ちょっとした贅沢」は「休日, 自宅で🍺片手に野球を見ながらUberEatsで注文したランチを楽しむ」です. ⚾と飲を提供してくださる皆さまに心から感謝しております🙏 JX通信社では, 機械学習を用いたプロダクト開発・施策 プロダクト・サービスの改善に関する分析 日々のイベントをメトリクス化して可視化(いわゆるBI的なもの) を円滑かつ効率よく行うため, 昨年からデータ基盤を整備・運用しており, 現在では社員のみならず(スーパー優秀な)インターンの皆さまと一緒に活用し, 成果を出し始めています. ainow.ai なぜデータ基盤が必要か?どういった事をしているのか?...は上記のインタビューに譲るとして, このエントリーでは「データ基盤を支える技術 - ETL編」と称しまして, Py

    データ基盤を支える技術 - ETLフレームワークの実践的な選び方・組み合わせ方 - JX通信社エンジニアブログ
  • Airflow のアーキテクチャをざっくり理解して、どうやって使うのか学んでみた | DevelopersIO

    こんにちは、みかみです。 Python で実装されている Job 管理ツール Apache Airflow。 WebUI のJob 管理画面で直感的に分かりやすい操作が可能で、エラー発生時などの通知機能もあり、スケールアウトにも対応していて複数サーバで分散実行もできます。 Python でバッチ Job 開発経験のある方には多分おなじみの Airflow、私も存在は知っていましたが、実際使ったことはありませんでした。 やりたいこと Airflow の構成(アーキテクチャ)を知りたい Airflow の使い方(Job 作成&実行方法)を知りたい Airflow のアーキテクチャ Airflowは、 管理画面表示部の Webserver と、Job実行のスケジュール管理部の Scheduler 、Job実行部の Worker(Executer) から成り立っているようです。 各モジュールは管理

    Airflow のアーキテクチャをざっくり理解して、どうやって使うのか学んでみた | DevelopersIO
  • メルペイにおける大規模バッチ処理 | メルカリエンジニアリング

    この記事は MERPAY TECH OPENNESS MONTH の 13日目の記事です。 こんにちは、メルペイ ソフトウェアエンジニアの laughngman7743 です。 メルペイではマイクロサービスにおけるデータストアのデータや、アプリケーションのログを有効活用できるような基盤づくりをデータプラットフォームチームとして行っています。 データプラットフォームではラムダアーキテクチャに基づき、スピードレイヤとして Cloud PubSub と Cloud Dataflow を利用した仕組みに加え、バッチレイヤとして Cloud Composer と Cloud Dataflow を利用した仕組みを構築しています。 この記事ではバッチレイヤのアーキテクチャについてご紹介します。 スピードレイヤのアーキテクチャについては 「GCPでStreamなデータパイプライン始めました」 を参照くださ

    メルペイにおける大規模バッチ処理 | メルカリエンジニアリング
  • Data EngineeringとKubernetes Executorの話 | メルカリエンジニアリング

    Cityカラムが英語表記へ統一 Temperatureカラムは摂氏(℃)へ統一 Dateのカラムは、タイムゾーンをUTCに固定し、YYYY-MM-DDフォーマットへ こうしてDataが整理されてInformationになることで、「最高気温を比較すると、UTC 11月15日の時点ではPalo Altoの方が高かったが、12月5日の時点では東京の方が高かった」といった事実を見ることができるようになります。このInformationから導き出される傾向や規則性を導出されたものが、DIKWピラミッドにおけるKnowledgeになります。そして頂点であるWisdomは、導き出されたKnowledgeに基づいて人により下される判断のことそのものを示します。 Data Engineeringの仕事は、このDataを過不足無く蓄えること、DataからInformationへの変換・蓄積する作業がメインと

    Data EngineeringとKubernetes Executorの話 | メルカリエンジニアリング
  • Apache Airflow、Genie、および Amazon EMR でビッグデータワークフローのオーケストレーションを行う: Part 1 | Amazon Web Services

    Amazon Web Services ブログ Apache Airflow、Genie、および Amazon EMR でビッグデータワークフローのオーケストレーションを行う: Part 1 AWS 上でビッグデータの ETL ワークフローを実行している大企業は、多数の内部エンドユーザーにサービスを提供できるようなスケールで運用しており、何千もの同時パイプラインを実行しています。このことは、新しいフレームワークと、ビッグデータ処理フレームワークの最新のリリースに遅れずについていくため、ビッグデータプラットフォームを更新し、拡張する点での継続的なニーズと相まって、ビッグデータプラットフォームの管理を簡素化することと、ビッグデータアプリケーションへの容易なアクセスを促すことの両方を可能にする、効率的なアーキテクチャと組織構造を要求しています。 この投稿では、一元管理型のプラットフォームチームが

    Apache Airflow、Genie、および Amazon EMR でビッグデータワークフローのオーケストレーションを行う: Part 1 | Amazon Web Services
  • 【Airflow】最近よく聞くAirflowに入門!EC2で動かしてみた【CI/CD】 - Qiita

    はじめに せっかくの連休なので新しいこと勉強してみたいと思い、reInvent2018にて色々なところで名前が出てきた「Airflow」について触れていきます! なかなかイケてるという噂なので、「Airflowとは何か」から「EC2での導入」「簡単な操作方法 」までこの記事ではまとめてみようと思います。 最近CI/CD周りに興味があるので勉強して業務に活かせるか検討したいと思います。 -----12/19 追記------ Airflow関連の記事も増えてきたのでリンクしておきます。 Airflowでモデルの学習からデプロイまでをやってみた Airflowをここ3ヶ月触ってみた Airflow - データパイプラインのスケジュールと監視をプログラムしてみた What's Airflow ? Airflow is a platform to programmatically author,

    【Airflow】最近よく聞くAirflowに入門!EC2で動かしてみた【CI/CD】 - Qiita
  • Airflowのコンセプトと仕組みを理解する | DevelopersIO

    春田です。 Airflowを活用したプロジェクトに携わる事になったのですが今回初めて触れる形となるため、まずはAirflowに関する概要を勉強しながらまとめてみました。 Airflowとは The Airflow Platform is a tool for describing, executing, and monitoring workflows. Airflowは、ワークフロー(例えば、A B Cという3つのタスクがあった時、これらをいつどの順番で実行するか)を記述、実行、監視するためのツールです。 このAirflowは DAG (Directed Acyclic Graph: 有向非巡回グラフ) というグラフ理論がベースになっています。私自身、グラフ理論にあまり精通していないのため、自分でも理解できるように噛み砕いた言葉で説明していきます。 DAG (Directed Acycl

    Airflowのコンセプトと仕組みを理解する | DevelopersIO
  • 初めて触るAirflow | DevelopersIO

    最近、業務でAirflowを初めて触りました。調査したこと、試しに動かしてみたことなどまとめてみます。 Airflowとは Apache Airflowはいわゆるワークフローエンジンと言われるツールの一種で、 複数のタスクの実行順序を定義するワークフローの作成、実行のスケジューリング、監視などを行うことができます。AirbnbのMaxime Beauchemin氏によって2014年10月に開発され、2016年にはApache Incubatorプロジェクトになっています(参考)。 Airflowでは、DAG(有向非巡回グラフ)でワークフローを表現します。 その基的なコンセプトについては下記の記事で解説されていますので、ご参照ください。 Airflowのコンセプトと仕組みを理解する とりあえず試してみる まずは手元のPC (Mac) で試してみます。 簡単に動かせるDockerイメージとD

    初めて触るAirflow | DevelopersIO
  • 1