タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

datapipelineに関するhdkINO33のブックマーク (3)

  • 第9回[最終回] データパイプラインのためのワークフロー管理 | gihyo.jp

    KPIや応用KPIが決まり、実際に、毎日の運用の中で定期的にデータを更新して、可視化するためには、一連の処理を自動化する必要があります。今回は、データパイプラインを扱うためのワークフロー管理ツールを紹介していきます。 データパイプラインとワークフロー管理 データパイプライン (⁠以下、パイプライン)とは、データ処理を行なう小さなタスク(1回のファイルコピーや、SQLの実行など)を順次実行することにより、最終的に求める結果を得るための一連のプロセスを指します。狭義には、単体のシステム内で完結するパイプラインを指します(SparkやGoogle Cloud Dataflow、など⁠)⁠。 また、広義には、複数のシステムを組み合わせて大きなパイプラインを構成することもあります(MySQLから取り出したデータをRedshiftで集計する、など⁠)⁠。今回、取り上げるパイプラインとは、広義のパイ

    第9回[最終回] データパイプラインのためのワークフロー管理 | gihyo.jp
  • AWS Data Pipelineで日次バッチ処理取得データをS3にポストする - sometimes I laugh

    最近コードを書いてはいるものの、なかなかブログにできるネタがないため、またブログを書くとなれば結局AWSとかインフラ側の話になっちゃうんですね。 さてさて、今回はCDPで問題になりがちなバッチ処理、ジョブスケジューリングです。単純に実現するならばインスタンスを立ててcronで実行する、という形になりますが、実行保証もないし、インスタンス落ちたら終わりだし、AWSのベストプラクティス的にはありえないです。 ではどうするのかといえば、SQSやSWFで冗長性を確保することですが、どちらも実装するにはちょっと面倒臭い。単純にある時間になったらデータを取得してきて、S3に投げるだけのバッチ処理を実装するのに、そんな苦労はしたくないし・・・ と思っていたとき、思わぬサービスを見落としていました。そう、AWS Data Pipelineです。記事ではAWS Data Pipelineを使って日次バッチ

    AWS Data Pipelineで日次バッチ処理取得データをS3にポストする - sometimes I laugh
  • AWS再入門 AWS Data Pipeline編 | DevelopersIO

    はじめに 当エントリはDevelopers.IOで弊社AWSチームによる2015年アドベントカレンダー 『AWS サービス別 再入門アドベントカレンダー 2015』の24日目のエントリです。昨日23日目のエントリはせーのの『Amazon Simple Workflow Service』でした。 このアドベントカレンダーの企画は、普段AWSサービスについて最新のネタ・深い/細かいテーマを主に書き連ねてきたメンバーの手によって、今一度初心に返って、基的な部分を見つめ直してみよう、解説してみようというコンセプトが含まれています。 日24日目のテーマは『AWS Data Pipeline』です。Data Pipelineって名前は聞いたことあるし、なんかデータ連携するサービスってことは知っているけど・・・的な方々に、具体的にどのような仕組みでどんなことができるのかをサクッとご説明したいと思いま

    AWS再入門 AWS Data Pipeline編 | DevelopersIO
    hdkINO33
    hdkINO33 2016/05/16
    "原因調査も重要だとは思いますが、経験上、そこは割り切った方が効率的だと思います(深追いはあまりお薦めしません)"
  • 1