並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 157件

新着順 人気順

digdagの検索結果1 - 40 件 / 157件

  • Digdag + embulk + BigQuery + Re:dash でデータ分析基盤構築の夢を見る - 雑なメモ

    Digdag が Apache License 2.0 の元でオープンソース化されましたよ! さぁ試すんだ…! 今すぐにでも! https://t.co/Uzc4a5GLCe ドキュメント:https://t.co/PF8wy5KHln— Sadayuki Furuhashi (@frsyuki) 2016年6月15日 Digdagが先日リリースされたのをきっかけにデータ分析基盤構築の夢を見た。 今回は、Google Cloud Platform(以下、GCP)のコストを可視化かつ分析可能にしてみて、まずはDigdagの使用感を試してみることにする。 事前知識 Digdagとは Workload Automation Systemである。以下の記事が詳しい。 EmbulkとDigdagとデータ分析基盤と 分散ワークフローエンジン『DigDag』の実装 at Tokyo RubyKaigi

      Digdag + embulk + BigQuery + Re:dash でデータ分析基盤構築の夢を見る - 雑なメモ
    • Fluentd / Embulk / Elasticsearch / Digdag を学ぶのに最高な「データ分析基盤構築入門」を読んだ - kakakakakku blog

      出版されてから少し時間がたってしまったけど,「データ分析基盤入門」を読み終えた.ページ数が多く,持ち運ぶようなサイズではないので,家でちょこちょこ読み進める感じになってしまって,想定以上に時間がかかってしまった. データ分析基盤構築入門[Fluentd、Elasticsearch、Kibanaによるログ収集と可視化] 作者: 鈴木健太,吉田健太郎,大谷純,道井俊介出版社/メーカー: 技術評論社発売日: 2017/09/21メディア: 単行本(ソフトカバー)この商品を含むブログを見る はじめに 目次にも書いてある通り,「データ分析基盤」というテーマで Fluentd / Elasticsearch / Kibana の解説が詳細にまとまっている.さらに付録には Embulk と Digdag の解説もあり,このあたりの技術スタックに興味がある人にとって最高な一冊なのではないかなと思う.また,

        Fluentd / Embulk / Elasticsearch / Digdag を学ぶのに最高な「データ分析基盤構築入門」を読んだ - kakakakakku blog
      • Jenkinsの無秩序なジョブをDigdagで再定義する - log.fstn

        jenkins で回してる ci のジョブを digdag で書き直してみたけど、フローがひと目で分かるし、git で管理できるし、並列化も簡単だし最高だ。— Kosuke Adachi (@foostan) October 8, 2016 ということで Jenkins のジョブを Digdag に置き換えて Git で管理すると最高なので、今困っている人はやりましょう。1日あれば多分終わります。 今回試したのは CI のジョブですが、どんなジョブでも応用できると思います。 詳しく こないだ Rebuild 152 聴いていたらその会話の中に「Jenkinsおじさん」ってワードが出てきたんですよ。 rebuild.fm Jenkinsをそれなりの規模で使っている人ならお馴染みだと思うんですが、Jenkinsって自由度が高くてジョブの編集も簡単にできるから気をつけないとジョブがカオスな状態に

          Jenkinsの無秩序なジョブをDigdagで再定義する - log.fstn
        • Treasure Data社のOSSワークフローエンジン『Digdag』を試してみた #digdag | DevelopersIO

          Digdag が Apache License 2.0 の元でオープンソース化されましたよ! さぁ試すんだ…! 今すぐにでも! https://t.co/Uzc4a5GLCe ドキュメント:https://t.co/PF8wy5KHln — Sadayuki Furuhashi (@frsyuki) 2016年6月15日 という訳で試してみました。注目度の高かったワークフローエンジン『Digdag』がついにOSS化されました!Githubリポジトリ及びドキュメントは以下となります。 treasure-data/digdag: Workload Automation System Getting started — Digdag 0.8 documentation 目次 インストール 環境の準備 Digdagのインストール実施 その他ドキュメントの内容について Digdagサンプルワークフロ

            Treasure Data社のOSSワークフローエンジン『Digdag』を試してみた #digdag | DevelopersIO
          • Digdag - Open Source Workflow Engine for the Multi-Cloud Era

            Digdag is a simple tool that helps you to build, run, schedule, and monitor complex pipelines of tasks. It handles dependency resolution so that tasks run in series or in parallel. Digdag replaces cron, facilitates IT operations automation, orchestrates data engineering tasks, coordinates machine learning pipelines, and more.

            • EmbulkとDigdagとデータ分析基盤と

              モノタロウの1900万商品を検索する Elasticsearch構築運用事例(2022-10-26 第50回Elasticsearch 勉強会発表資料)

                EmbulkとDigdagとデータ分析基盤と
              • ワークフローエンジンDigdagのまとめ - Qiita

                2016/06/15に、トレジャーデータがオープンソースとして公開したワークフローエンジンDigdagのリンク集です。内容は随時更新します。またトレジャーデータではDigdagを自社でTreasure Workflowとして提供しています。こちらの情報も収集しています。 変更内容が気になる方は変更履歴をご覧ください。 1. 開催されるイベント 2. オフィシャルページ オフィシャルページ ソースリポジトリ 3. チュートリアル Getting started (英語) Treasure Data社のOSSワークフローエンジン『Digdag』を試してみた #digdag (日本語) Digdag 入門 Digdagのアーキテクチャとコンセプトを理解する Treasure Workflow for ビギナー 環境構築編 digファイル書き方編 Digdag公式ドキュメントからDigdagを学ぶ

                  ワークフローエンジンDigdagのまとめ - Qiita
                • Digdagを使ったジョブ管理 - MicroAd Developers Blog

                  はじめまして。アプリケーションエンジニアの中野です。 以前、MicroAdのデータ基盤の記事で紹介されていましたが、マイクロアドではデータ基盤刷新のタイミングでワークフロー管理ツールのDigdagを採用しました。 今回の記事では、Digdag採用の経緯やワークフローを作成する際に注意した点を紹介します。 Digdag採用の経緯 マイクロアドのDSP*1であるBLADEではBidRequestやImpression*2、Click、Conversion*3、その他BLADEから出力される様々なログやマイクロアドの他のプロダクトのログ、他社から提供されるデータなど、様々なデータを広告配信最適化の分析に活かしています。 これらのログを分析するバッチ処理は各々のジョブが複雑な依存関係を持っています。 これまではcronやJenkinsを用いてこれらの処理を行っていましたが コード管理が出来ていない

                    Digdagを使ったジョブ管理 - MicroAd Developers Blog
                  • 分散ワークフローエンジン『Digdag』の実装 at Tokyo RubyKaigi #11

                    AWS Black Belt Online Seminar 2018 Amazon DynamoDB Advanced Design PatternAmazon Web Services Japan

                      分散ワークフローエンジン『Digdag』の実装 at Tokyo RubyKaigi #11
                    • Embulk+Digdagを利用して、個人情報を考慮したマスク処理を開発用DBに行う — みんなのウェディングエンジニアリングブログ

                      みんなのウェディングのインフラエンジニア横山です。 今回は開発用DBのマスク処理にEmbulk+Digdagを利用し始めた話について書きます。 開発用DBのマスク処理とは 弊社では、週次で本番DBのスナップショットから開発環境用DBを作り直しています。 これにより、常に本番環境と同じテーブル定義、データ量で開発を行うことができ、以下のようなメリットがあります。 本番にデプロイする前に、開発、ステージング環境で不具合を早期発見できる 実際に近いデータで、本番を想定した確認ができる ここで問題になってくるのが、ユーザの氏名やメールアドレスといった個人情報の扱いについてです。 開発用DBは本番DBのスナップショットから作成されているため、開発用DBにも本番DBの個人情報が入ってしまっています。 この状態で利用すると、以下にあげる問題が考えられます。 開発中の機能による、ユーザへのメール誤配信など

                        Embulk+Digdagを利用して、個人情報を考慮したマスク処理を開発用DBに行う — みんなのウェディングエンジニアリングブログ
                      • 機械学習における技術的負債をDigdagで返済する - LIFULL Creators Blog

                        お久しぶりです。技術開発部の相原です。 昨年度は技術基盤部としてmrubyを導入したりしていましたが今は少しレイヤーが開発寄りになりました。 とはいえ依然として技術基盤も見ていて、最近はご多分に漏れず機械学習を用いた技術基盤の改善に興味があります。 そんな中でここ数ヶ月メインの業務の合間の時間を使って試験的に機械学習を導入していたので、今回は技術的負債の高利子クレジットカードと呼ばれる機械学習を導入する中でどのような工夫をしたかということについて書きたいと思います。 機械学習については門外漢なので、ここではモデルの訓練などのプラクティスに関しては触れません。 (一部暗黙的に深層学習を前提としている箇所がありますのでご了承ください) 技術的負債の高利子クレジットカード Data Dependencies Cost More than Code Dependencies System-leve

                          機械学習における技術的負債をDigdagで返済する - LIFULL Creators Blog
                        • Digdagへ日次バッチを移行して幸せになるお話

                          DMM.comラボではビッグデータ基盤の日次バッチ(ETL処理)のワークフローエンジンとしてDigdagを採用しました。 ワークフローの運用は、障害時のリカバリ、進捗状況に応じた他システム連携、JOB実行時間の局所化など様々な課題があります。 Digdag選定理由や設計の勘所(サーバ構成・ワークフローの設計方針)、Digdag Plugin実装、他チーム連携のためのClient実装など、課題解決のために取り組んだ内容について紹介させていただきました!

                            Digdagへ日次バッチを移行して幸せになるお話
                          • Digdag 入門 - GMOインターネットグループ グループ研究開発本部

                            D. M. です。レガシーの crontab が肥大化して困っています。今日はそのリプレイス候補である Digdag を使ってみた話です。 やりたいこと crontab は Linux のスケジューラの仕組みで定期バッチの実行用途でよく利用されますが低機能です。順序の依存関係やアラートは毎回独自に作りこまなければいけません。そのため近年は代替スケジューラを利用するケースが多いです。その候補のひとつである Digdag について検証したいと思いました。 Digdag を使うべき人 一般的にバッチスケジューラに求められる要件的には以下のようなものがあります。 ・スケジュール実行 ・複数バッチの順番の制御(ワークフロー) ・GUIでの管理 ・失敗時のアラート ・SLA 機能(長時間実行していたらアラートを飛ばす) ・分散実行 などなど 代替として広く知られているものですと Jenkins でのワ

                              Digdag 入門 - GMOインターネットグループ グループ研究開発本部
                            • DigdagをHA構成にしてみた - ZOZO TECH BLOG

                              こんにちは、最近のマイブームはマヌルネコ動画な新事業創造部バックエンドエンジニアの塩崎です。 今回のテックブログでは、以前にDigdagを紹介した記事の続編として、DigdagをHA構成にするためのTipsなどを紹介します。 Digdagとは Digdagはワークフローエンジンと呼ばれるソフトウェアです。 複数個のタスク間の依存関係からなるワークフローを定義し、そのワークフローの実行及び管理を行います。 この説明だけですと、何が便利なのかいまいちピンとこない方が多いかと思います。 ですが、かゆいところに手が届く便利ソフトウェアです。 具体的なかゆいところの紹介は以前にDigdagを紹介した記事の前半部分に書かれています。 Digdagを使用したことのない方はこちらを読んでから本記事を読み進めると理解しやすいかと思います。 tech.starttoday-tech.com さて、前回の記事で

                                DigdagをHA構成にしてみた - ZOZO TECH BLOG
                              • digdagをDockerizeしてECS上で運用することにしました - 雑なメモ

                                データ分析や可視化に伴う複雑なジョブフローの改善にはdigdagが便利です。 少しずつ採用事例も増えているようです。 qiita.com 今回は、そんな便利なdigdagをECS上に構築しました。 *1 事前知識 digdagに関する基本的な知識は、以前のエントリを参考にしてください。 yukiyan.hatenablog.jp コード サンプル用にコードを公開しました。 github.com digdagをDockerizeし、設定ファイル(digファイル)も一緒に固めてECRにpushしています。 つまり、digdagの最新の設定ファイルは常にECRにある状態です。 digdagの設定ファイルを変更したブランチがmasterにマージされると、shippableがdocker build・digdag check・docker push・ECSに関する処理をおこない、古いdigdagコン

                                  digdagをDockerizeしてECS上で運用することにしました - 雑なメモ
                                • Digdag x Dockerでモダンなバッチ処理環境を構築

                                  http://morizyun.github.io/digdag/ に入門記事を書きましたのでよければこちらも読んでみてください!

                                    Digdag x Dockerでモダンなバッチ処理環境を構築
                                  • Digdag + Embulkをクラウド転生させてデータ基盤運用を圧倒的に楽にした話 - エムスリーテックブログ

                                    こんにちは、エムスリー エンジニアリンググループ / 製薬企業向けプラットフォームチームの鳥山 (@to_lz1)です。 これは エムスリー Advent Calendar 2020 の19日目の記事です。 エムスリーでは現在、各システムのオンプレ環境からクラウドへの移行を急ピッチで進めているところです(勉強会の配信アーカイブをYouTubeでもご覧いただけます。公式テックチャンネルのご登録、ぜひお願いします!) www.youtube.com これに関連して私のチームでも最近「データ基盤(Digdag + Embulk)のクラウド移行」を行ったため、そのときに考えたことや移行して良かったことを共有したいと思います。 エムスリーのデータ基盤について それまでの構成 クラウド環境でのアーキテクチャ DigdagとEmbulkの分離 Digdag on AWSからBigQueryを操作する 併

                                      Digdag + Embulkをクラウド転生させてデータ基盤運用を圧倒的に楽にした話 - エムスリーテックブログ
                                    • EC2上のPythonバッチをECSのDigdagに置き換えた話 - Gunosy Tech Blog

                                      広告技術部のUT@mocyutoです。 ついに桜が開花し、やっと春の訪れを感じはじめましたね。 外で気持ちよく飲みたい季節になってきました。 はじめに システム概要 なぜ移行するのか Celeryをやめたい LevelDBをやめたい 移行計画 アーキテクチャ ECS Athena CI/CDフロー Pluginか自前実装か 移行後 よかったこと まとめ はじめに 今回はEC2上のPythonのバッチをECSのDigdagに置き換えた話をします。 システム概要 今回の移行対象は広告配信に関するバッチ処理を行うシステムでした。 役割としては以下のようなものがあります。 広告の配信候補を作成 広告の枠情報を作成 クリックなどのイベントの集計 なぜ移行するのか 大きく分けて以下の2つの理由がありました。 Celeryをやめたい LevelDBをやめたい Celeryをやめたい 今まではバッチにはP

                                        EC2上のPythonバッチをECSのDigdagに置き換えた話 - Gunosy Tech Blog
                                      • TalendをDigdagとEmbulkに移行した - ZOZO TECH BLOG

                                        はじめまして! ZOZOテクノロジーズ開発部の平田(@TrsNium)と申します。 業務ではデータ基盤の開発・運用を行っています。 よろしくお願いいたします。 今回複数のツールが混在していたデータ基盤を「Digdag・Embulk」に統一したので、その取り組みを紹介します。 概要 弊社のデータ基盤は注文情報や顧客情報などをSQL Serverから取得しBigQueryに転送しています。 以前のデータ基盤では「Talend」と「Embulk・Digdag」でデータの収集と転送をしていました。 Talendは、タスクのスケジューリングとデータ転送を行うツールです。 Digdagはタスクのスケジューリングをするツールで、Embulkはデータを転送を実行するツールです。 「Talend」と「Digdag・Embulk」は別々のチームが管理・運用をしており、運用負荷が高いという問題がありました。 そ

                                          TalendをDigdagとEmbulkに移行した - ZOZO TECH BLOG
                                        • GitHub - treasure-data/digdag: Workload Automation System

                                          You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                            GitHub - treasure-data/digdag: Workload Automation System
                                          • Go言語製 Digdag Client (mog) をリリースしました #digdag | iroilog.net

                                            Go言語製 Digdag Client (mog) をリリースしました #digdagJune 25, 2017 こんばんは!久しぶりの更新となりましたが… またしてもDigdagネタです。 以前 Workflow Engines Night という名の勉強会で登壇させてただく機会があり、 社内におけるDigdagの導入事例を紹介させていただきました! その時の資料がこちら↓ こちらのセッションの中でスライドの48枚目~出ています mog というGo言語製のツールを事例紹介させていただいたのですが、 意外と好評だったこともありまして、本日Githubにてリリースをいたしました! mogのリポジトリはこちらです。 特徴Go言語製でJavaがなくても動かすことができるクライアントですただし、Digdagはサーバ / クライアント構成を前提としていますビルド済みのバイナリを配布しているので、Go

                                            • Hivemall, Digdag, 自然言語処理, 機械学習などについて話しました #tdtech

                                              2月19日に開催された PLAZMA: TD Tech Talk 2018 Internal Day で、Treasure Dataがユーザに提供している機械学習・自然言語処理の機能の実体をお話しました。 録画もあがっているようです: PLAZMA TD Internal Day: TD Tech Talk 2018 - YouTube 「業務またはプライベートで機械学習に触れている方」という問いに対して聴衆の半数以上が手を挙げたのには正直驚きました。エンジニアリングとサイエンスの垣根が低くなっているというのは、大変喜ばしいことだと思います。 そんな聴衆の皆様は、まさか2018年に、機械学習に関するトークでロジスティック回帰とTF-IDFの話だけ聞かされるとは思っていなかったことでしょう。 わかりますよ。僕だってもっとゴツい手法をドーンと実装してバーンッって感じの結果を見せてドヤりたい。

                                                Hivemall, Digdag, 自然言語処理, 機械学習などについて話しました #tdtech
                                              • Digdagを導入してみて

                                                PLAZMA OSS Day: TD Tech Talk 2018 (https://techplay.jp/event/650389) の資料となります。 −−− DMM.comラボ ビッグデータ部ではETLをはじめとしたバッチ処理をDigdagを利用して行っています。 今回は実際の現場においてDigdagをどのように活用しているかをはじめとし、導入により改善できたことや運用面での取り組み(e.g. 監視…etc.)についてご紹介しました。

                                                  Digdagを導入してみて
                                                • JenkinsからDigdagへ日次バッチを移行して幸せになるお話 // Speaker Deck

                                                  DMM.comラボではビッグデータ基盤の日次バッチ(ETL処理)のワークフローエンジンとしてDigdagを採用しました。 ワークフローの運用は、障害時のリカバリ、進捗状況に応じた他システム連携、JOB実行時間の局所化など様々な課題があります。 Digdag選定理由や設計の勘所(サーバ構成・ワークフローの設計方針)、Digdag Plugin実装、他チーム連携のためのClient実装など、課題解決のために取り組んだ内容について紹介させていただきました!

                                                    JenkinsからDigdagへ日次バッチを移行して幸せになるお話 // Speaker Deck
                                                  • Digdagによる大規模データ処理の自動化とエラー処理

                                                    2. Sadayuki Furuhashi A founder of Treasure Data, Inc. located in Silicon Valley. OSS projects I founded: An open-source hacker. Github: @frsyuki 3. What’s workload automation? • あらゆる手作業の自動化 > バッチデータ解析の自動化: • データロード - ETL - JOIN- 集計処理 - レポート生成 - 通知 > メール送信の自動化 • アドレス一覧の取得 - 対象の絞り込み - テンプレートから 本文を生成 - メール送信 - 完了通知 > システム間のデータ連携の自動化 > サーバ・DB・ネットワーク機器の管理やプロビジョニング の自動化 > テスト・デプロイの自動化(CI) 4. 求められる機能 •

                                                      Digdagによる大規模データ処理の自動化とエラー処理
                                                    • Embulk & Digdag Meetup 2020

                                                      This is a story about running digdag on Kuberentes to create a scalable workflow execution environment

                                                        Embulk & Digdag Meetup 2020
                                                      • digdag中心の生活

                                                        20240516 OpenID TechNight Vol.21 「OIDFシェアードシグナルフレームワーク(ID2)を利用してリアルタイムでセキュリティシグナルを共有するための最新情報」

                                                          digdag中心の生活
                                                        • Embulk界隈で話題になっている分散ワークフローエンジン「DigDag」について調べてみた #digdag | DevelopersIO

                                                          こんにちは、最近Embulk(エンバルク)を調べている川崎です。 タイトルの「DigDag」(ディグダグ) *1と聞いて○ァミコンや○ムコを思い浮かべた方はきっとアラサー以上ですね! 今回はEmbulkを使い始めると直面するであろう課題について書いていきたいと思います。 これまでに書いたEmbulkエントリー [Embulk] Embulkについての個人的なまとめ [Embulk] guess機能を試してみた【追記】あり [Embulk] guess機能を試してみた Redshift編 [Embulk] タイムスタンプのカラムを追加する [Embulk] タイムスタンプのカラムを追加する add_timeプラグイン編 [Embulk] guess機能を試してみた (テーブルが存在する場合) Embulkを使いはじめると... Embulkはデータファイルの中身をDBにロードするような用途で

                                                            Embulk界隈で話題になっている分散ワークフローエンジン「DigDag」について調べてみた #digdag | DevelopersIO
                                                          • DigdagとEmbulkを利用してBigQueryにRDS(Aurora、MySQL)のマスタデータを同期する - ZOZO TECH BLOG

                                                            こんにちは、バックエンドエンジニアの塩崎です。 先日、会社の広報のためのインターン生紹介記事にメンターとして掲載していただきました。 大学四年生のインターン生と一緒に写真撮影を行ったのですが、見た目だけではどちらが年上かわからなかったので、「メンターの塩崎(右)」という表記をされてしまいました(笑) インターンでも実際のサービスに触れ、課題を解決!〜VASILY DEVELOPERS BLOGが公開されました〜 さて、VASILYではData WarehouseとしてGoogle BigQuery(BigQuery)を利用しています。 BigQuery内にはプロダクトのマスタデータとユーザーの行動ログが格納されています。 そして、それらに対する横断的なクエリを発行することでプロダクトの成長のためのKPIをモニタリングしています。 そのためAmazon Relational Database

                                                              DigdagとEmbulkを利用してBigQueryにRDS(Aurora、MySQL)のマスタデータを同期する - ZOZO TECH BLOG
                                                            • EC2で運用している分析基盤(Digdag + Embulk)をECS/Fargateに移行しました | ランサーズ(Lancers)エンジニアブログ

                                                              SREチームの安達(@adachin0817)です。最近ではランサーズ本家のインフラをコンテナに移行しまくっております。今回ランサーズとMENTAで運用しているEC2/分析基盤サーバー(Digdag + Embulk)をECS/Fargateに移行完了しました。では早速概要と苦労した点、今後の展望などを振り返っていきたいと思います。 分析基盤の紹介 > ランサーズの分析基盤(capybara)と運用について紹介 > MENTAをAWSに移行しました ちなみに私が入社して3年経つのですが、運用して変わったことは3年前よりデータの量が膨大になっていることと、現在、社内の分析チームにとって欠かせないシステムとなっております。その中でDigdagによるスケジューラーとEmbulkによるマルチソースバルクデータローダーである分析基盤専用のEC2サーバーがあり、毎日夜中にデータをBigQuryにシンク

                                                                EC2で運用している分析基盤(Digdag + Embulk)をECS/Fargateに移行しました | ランサーズ(Lancers)エンジニアブログ
                                                              • Digdag の Plugin をたくさん作ったので紹介するよ - Gunosy Tech Blog

                                                                こちらは Gunosy Advent Calendar 2018、7日目の記事です。なお、昨日の記事は @yutanim さんの RxSwiftにおける孫からの祖父母孝行 でした。 qiita.com はじめに こんにちは、広告技術部の キヴィタスポ(人工知能) (@Civitaspo) / Twitter です。 Gunosy に入社してから早いもので1年が経ちました。昨年の Gunosy Advent Calendar では僕は読む専門だったのですが、『Gunosyのパーソナライズを支える技術 -ワークフロー編-』を読んで非常に感銘を受けたのを覚えています。 tech.gunosy.io ここではそのとき感銘を受けた言葉を紹介しておきます。 ワークフローは、いわばシステム上における兵站といってもいいでしょう。「戦争のプロは兵站を語り、戦争の素人は戦略を語る」という名言もあるくらいで

                                                                  Digdag の Plugin をたくさん作ったので紹介するよ - Gunosy Tech Blog
                                                                • Digdag on Dockerで何度コンテナを立て直しても状態を維持する - hatappi.blog

                                                                  digdag入門しはじめた— hatappi (@hatappi) 2017年5月11日 しました DigdagはDocker上でタスクに依存性をもたせて処理を実行するために使用し始めました Digdagを使うことが出来るDocker Imageは今回は自前で用意したものを使用します ※ Digdagのバージョンは0.9.10 https://hub.docker.com/r/hatappi/digdag/ ENTRYPOINTにはdigdagを指定しているので docker run hatappi/digdag init hoge みたいに使えます 例えば下記のようなワークフローを/tmp/workflow.dig にホストマシンに定義したとします timezone: Asia/Tokyo +setup: echo>: SETUP! +echo_date: sh>: date +clea

                                                                    Digdag on Dockerで何度コンテナを立て直しても状態を維持する - hatappi.blog
                                                                  • Digdagのアーキテクチャとコンセプトを理解する #digdag | DevelopersIO

                                                                    Treasure Data社によってOSSワークフローエンジン『Digdag』はその発表以後多くの反響を呼び、社内外を含め良く利用されるようになってきていますが個人的には下記の『試してみた』エントリ以降、あまり触って来ていませんでした。ちょっと個人的にも腰を据えて取り掛かってみようかという感じになってきましたので、仕組みや使い方を把握するという意味で一番参考になるであろう公式ドキュメントの一部を読み進めてみた記録をブログエントリとして残しておきたいと思います。 Treasure Data社のOSSワークフローエンジン『Digdag』を試してみた #digdag | Developers.IO Digdagのアーキテクチャ Digdagによるワークフローの自動化 ワークフローを使って、手動で行なっているあらゆる操作を自動化出来ます。一連のタスクを『ワークフロー』として定義し、Digdagを使

                                                                      Digdagのアーキテクチャとコンセプトを理解する #digdag | DevelopersIO
                                                                    • EKS(Kubernetes)上にDigdag・Embulk・Redashで分析環境を構築する - Koichi Ishida blog

                                                                      目次 ワーカーノードの作成 DigdagとEmbulkのDockerビルド KubernetesにDigdag/Embulkをデプロイ Redashの導入 まとめ Kubernetes上に分析環境を構築する機会があったのでどのように構築したかを紹介します。同じような構成でKubernetes上で構築するのは3回目になったので構築方法も洗練されてきました。構成は以下のようになっています。 MySQL(RDS): サービスのデータベース。ここのテーブルからBigQueryにEmbulkでデータをエクスポートします。 PostgreSQL(RDS): Digdagのデータベース。今回新たにつくりました。 Digdag: データベースのエクスポートなどを実行するタスクスケジューラ。失敗したときにリトライもできます。 Embulk: プラグインを使ってデータベースをMySQLからBigQueryにエ

                                                                        EKS(Kubernetes)上にDigdag・Embulk・Redashで分析環境を構築する - Koichi Ishida blog
                                                                      • 楽々スケール Digdag on GKE Autopilot の紹介とその運用Tips - ZOZO TECH BLOG

                                                                        こんにちは、MA基盤チームの田島です。私達のチームでは複数のワークフローエンジンを利用し、メールやLINEなどへの配信を含むバッチ処理を行っていました。今回それらのワークフローエンジンをすべてDigdagに統一しました。そして実行環境としてGKEのAutopilot環境を選択したことにより、柔軟にスケールするバッチ処理基盤を実現しましたのでそれについて紹介します。 また、その中で得られた運用Tipsについても合わせて紹介します。 目次 目次 Digdag on GKE Autopilotの構成 Digdagの4つの役割 Worker Scheduler Web API Kubernetes Command Executor Workerでのタスク実行の問題 Command Executor Kubernetes Command Executorの利用 GKE Autopilot環境でのKu

                                                                          楽々スケール Digdag on GKE Autopilot の紹介とその運用Tips - ZOZO TECH BLOG
                                                                        • マルチクラウドでワークフロー管理、米Treasure DataのOSS「Digdag」

                                                                          ビッグデータ分析のクラウドサービスを提供する米Treasure Dataが、複数のクラウドを連携して一つのデータ処理を実現する「ワークフロー管理」のサービス「Treasure Workflow」を開始した。同社が開発するOSS(オープンソースソフトウエア)「Digdag」を使用する。 「Microsoft Azure」で稼働するアプリケーションのログや「Facebook Ads」の広告閲覧データを「Amazon S3」に蓄積して、「Amazon Machine Learning」で機械学習し、分析結果を「Treasure Data」や「Google BigQuery」で集計する――。Treasure WorkflowやDigdagが実現する複数クラウド(マルチクラウド)にまたがるワークフロー管理とは、このようなものだ。 Treasure Dataは2016年11月29日に、DigdagをO

                                                                            マルチクラウドでワークフロー管理、米Treasure DataのOSS「Digdag」
                                                                          • DMMのビッグデータ基盤の裏側を大公開!CDHクラスタ移行・Presto導入・Digdag導入により得られた効果とは? - DMM inside

                                                                            DMMのビッグデータ基盤の裏側を大公開!CDHクラスタ移行・Presto導入・Digdag導入により得られた効果とは?

                                                                              DMMのビッグデータ基盤の裏側を大公開!CDHクラスタ移行・Presto導入・Digdag導入により得られた効果とは? - DMM inside
                                                                            • Digdag serverを入れた際の躓きポイント(CentOS7対応) - Qiita

                                                                              数ヶ月前、Digdag serverを導入した。 これまではタスクの依存関係だけ解決できればいいよね、というスタンスでDigdagを使っていた。 が、タスクのモニタリングやRetry、並列処理をスムーズにやりたい等が重なりDigdag serverを使うことになった。 ついでにCentosが6だったので7にアップグレードしている。 自分が躓いた点について書いてみた。 DigdagをDaemon化するためのSystemd設定 [Unit] Description=digdag [Service] Type=simple PIDFile=/run/digdag.pid ExecStart=/bin/bash -l -c 'EMBULK_ROOT=/apps/ipros-embulk/current ~/bin/digdag server --max-task-threads 2 --confi

                                                                                Digdag serverを入れた際の躓きポイント(CentOS7対応) - Qiita
                                                                              • Digdagのワークフロー定義について理解する #digdag | DevelopersIO

                                                                                先日の投稿でDigdagの『アーキテクチャ』に関する部分を読み解いて行きましたが、今回はその続き、『ワークフロー定義』に関する部分を読み進めてみたいと思います。 Digdagのアーキテクチャとコンセプトを理解する #digdag | Developers.IO ワークフローは拡張子『*.dig』のファイルとして作成する Digdagのワークフローは拡張子*.digを持つファイルとして作成します。ファイルの名前=ワークフローの名前、となります。例えば、hello_worldというワークフローを作るとします。その際のファイル名はhello_world.digとなります。中身はこんな感じの記述内容となります。 hello_world.dig timezone: UTC +step1: sh>: tasks/shell_sample.sh +step2: py>: tasks.MyWorkflow

                                                                                  Digdagのワークフロー定義について理解する #digdag | DevelopersIO
                                                                                • Embulk+DigdagでExcelのデータをPostgreSQLにロードする | DevelopersIO

                                                                                  データインテグレーション部 大矢です。 DBのテストデータをExcelで書くことはよくあると思います。 今回はExcelで書いたデータをEmbulkでDBにロードする、ということをやってみようと思います。 使用した環境は以下のとおりです。 Embulk v0.8.13 Digdag v0.8.16 PostgreSQL 9.5.3 Mac OS X El Capitan version 10.11.6 ExcelのデータをPostgreSQLにロードする 作業ディレクトリ 先に今回の作業で使用するディレクトリ構成を示しておきます。最終的にはこうなります。 excelload ├── allsheet.dig └── embulk ├── sales.yml ├── testdata.xlsx └── users.yml Excelのテストデータ ロードするデータ Excelのテストデータシ

                                                                                    Embulk+DigdagでExcelのデータをPostgreSQLにロードする | DevelopersIO