S3にあるファイルを加工したり中間結果のファイルを保存したりTreasureDataに格納するような処理を書いていったときに発生したエラーメモ。 digdag version 0.9.24 github.com サーバーモードでdownload_fileオプションが使えない プロジェクトディレクトリ内にダウンロードしたはずのファイルが次のタスクで消え去った ファイルに保存せずにスクリプトを書いてDigdag.envを使ってクエリ結果を変数に保持させて対応 別の方法も(参考 digdagのtd>のdownload_file) プロジェクト外のディレクトリを参照できない SQLファイル動的に生成してtdオペレータに渡すようなタスクを作った 生成したファイルをプロジェクトディレクトリに保存するようにしたが次のタスクでNo such file or directoryになり参照できず(ローカルモー
数ヶ月前、Digdag serverを導入した。 これまではタスクの依存関係だけ解決できればいいよね、というスタンスでDigdagを使っていた。 が、タスクのモニタリングやRetry、並列処理をスムーズにやりたい等が重なりDigdag serverを使うことになった。 ついでにCentosが6だったので7にアップグレードしている。 自分が躓いた点について書いてみた。 DigdagをDaemon化するためのSystemd設定 [Unit] Description=digdag [Service] Type=simple PIDFile=/run/digdag.pid ExecStart=/bin/bash -l -c 'EMBULK_ROOT=/apps/ipros-embulk/current ~/bin/digdag server --max-task-threads 2 --confi
Workflow Engines Meetup #1 - connpass 2017/03/09 Workflow Engines Meetup #1 #wfemeetup - Togetterまとめ ビッグデータ基盤周りの業務に携わっている者にとって『ワークフローエンジン』は非常に重要な位置を占める"関心事"です。OSSから商用のものまでこの分野のツールやプロダクトは数多く存在し、多かれ少なかれ皆さん苦労しながらもそれぞれの利用ノウハウを蓄積している状況の様です。そんな中、そのものズバリの勉強会が企画されていたので速攻で申し込み、この日参加してきました。 イントロ セッション内容 Digdag:Digdagの特徴とQuick Start Jenkins:Jenkins 2.0 Pipeline & Blue Ocean Luigi:Luigiを使っている話 Azkaban:Azkaban
MalformedInputExceptionになることがある → 0.8.19で解消済 digdag(執筆当時0.8.16くらいだったか)のtd>:にdownload_file:を指定すると、うまくいく場合と以下のエラーでうまくいかない場合がある データによるっぽい? java.nio.charset.MalformedInputException: Input length = 1 org.msgpack.core.MessageStringCodingException: java.nio.charset.MalformedInputException: Input length = 1 at org.msgpack.value.impl.AbstractImmutableRawValue.asString(AbstractImmutableRawValue.java:72) at
ビッグデータ分析のクラウドサービスを提供する米Treasure Dataが、複数のクラウドを連携して一つのデータ処理を実現する「ワークフロー管理」のサービス「Treasure Workflow」を開始した。同社が開発するOSS(オープンソースソフトウエア)「Digdag」を使用する。 「Microsoft Azure」で稼働するアプリケーションのログや「Facebook Ads」の広告閲覧データを「Amazon S3」に蓄積して、「Amazon Machine Learning」で機械学習し、分析結果を「Treasure Data」や「Google BigQuery」で集計する――。Treasure WorkflowやDigdagが実現する複数クラウド(マルチクラウド)にまたがるワークフロー管理とは、このようなものだ。 Treasure Dataは2016年11月29日に、DigdagをO
Digdag is a simple tool that helps you to build, run, schedule, and monitor complex pipelines of tasks. It handles dependency resolution so that tasks run in series or in parallel. Digdag replaces cron, facilitates IT operations automation, orchestrates data engineering tasks, coordinates machine learning pipelines, and more.
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く