2020/07/09 Embulk & Digdag Online Meetup 2020
トークに関する質問はSlidoで受け付けています! https://app.sli.do/event/rmpbrfsv [目次] 00:00 準備中のためスキップしてください。 46:18 オープニング 48:26 Embulkプラグインをスクリプトで書けるようにしてみた by 古橋貞之 Arm TreasureData(現Treasure Data) 1:09:31 Plan and incompatibility toward Embulk v1.0 by 三廻部大 Arm TreasureData (現Treasure Data) 1:50:22 Embulk を利用したデータ統合SaaSの構築と運用 by 鈴木健太 株式会社primeNumber 2:36:43 Digdag updates 山縣 陽 Arm TreasureData(現Treasure Data) 3:09:
embulk >= 0.9.0 から embulk gem が個別にリリースされなくなりました。 では、jruby プラグインから Embulk なライブラリを使うにはどうすれば良いかというと、embulk.jar に同梱されている embulk gem を使う形になります。 これによってどういう影響があるかというと、主には以下の2つに影響が出ているので、それについて記載します。 embulk run -b jruby プラグインのテストの書き方 embulk run -b /path/to/Gemfile embulk >= 0.9 で embulk run -b を使いたい場合は、Gemfile に を書いておく必要があります。embulk < 0.9.0 では必要ありませんでした。 bundler は Gemfile.lock に書かれているものだけをロード対象にするので、gem '
データベースを使って何かする際に、ダミーデータが超大量に欲しくなることがあるのでembulkのinput-pluginを作ってみた。 githubのリンク 何もない環境からなら $ wget https://bintray.com/artifact/download/embulk/maven/embulk-0.2.1.jar -O embulk.jar でembulk本体のが降ってくるのでそれを使って $ java -jar embulk.jar gem install embulk-plugin-input-random とすればプラグインが降ってくる。 exec: {} in: type: random rows: 100 schema: id: primary_key name: string score: integer out: type: stdout こんな感じのconfig
こんにちは、バックエンドエンジニアの塩崎です。 先日、会社の広報のためのインターン生紹介記事にメンターとして掲載していただきました。 大学四年生のインターン生と一緒に写真撮影を行ったのですが、見た目だけではどちらが年上かわからなかったので、「メンターの塩崎(右)」という表記をされてしまいました(笑) インターンでも実際のサービスに触れ、課題を解決!〜VASILY DEVELOPERS BLOGが公開されました〜 さて、VASILYではData WarehouseとしてGoogle BigQuery(BigQuery)を利用しています。 BigQuery内にはプロダクトのマスタデータとユーザーの行動ログが格納されています。 そして、それらに対する横断的なクエリを発行することでプロダクトの成長のためのKPIをモニタリングしています。 そのためAmazon Relational Database
RubyのProcの説明は巷に溢れているから今更感があるけどここ数回Procを使ったネタを書いていたらProcがかわいくなっちゃってもっとみんなにもProcのこと知ってもらいたいという欲求が生まれてきたからProcについての基本的なことを僕なりのやり方でここに書くよ。長いよ。 Rubyの関数(メソッド) Rubyにおいて関数(メソッド)はファーストクラス(オブジェクト)ではありません。つまり文字列や数字や配列などの他のオブジェクトとは異なって、Rubyではそれを直接変数に代入したり、他の関数に渡したりすることはできません。 def square(n) n * n end sq = square # squareメソッドを変数sqに代入してみる # ~> -:1:in `square': wrong number of arguments (0 for 1) (ArgumentError)
はじめまして。Zucks Affiliateでエンジニアをしている宗岡です。 今回は、リアルタイム性は求めないけど、簡単に大量のデータをどこか別の場所に転送したい。 という要望に答えてくれるEmbulkを紹介したいと思います。 実際に導入に至ったきっかけや、運用上よくある課題なども触れていきたいと思います。 同じ境遇の人が「簡単そうだしEmbulk使ってみようかな」となっていただければ幸いです。 目次 目次 背景 Embulk以外にも出てきた案 実際のEmbulkの導入と使い方 1. Embulkのインストールとセットアップ 2. 必要なプラグインのインストール 3. 設定ファイルを書く 実務でcodecommitを使った例 設定ファイルの書き方 4. まずはpreviewで問題なさそうか確認 5. 問題なさそうなのでrunして実行 Embulkの運用上、よくぶつかる課題 1. 重複に気付
コロン「:」の直後の空白は必須のようだ。[2015-10-31] 行頭にハイフン「-」があるのは、配列(の各要素)。 値のリスト(一覧)を記述するもののようだ。 一行で記載したい場合は角括弧で囲む。[2015-10-31] 角括弧で囲む方法 複数行に分けて記述する方法 EmbulkのYAMLファイルの構造 EmbulkのYAMLファイル(よくconfig.ymlというファイル名で例が挙げられている)だと、まず、キーが「in」や「out」となっているハッシュを指定する。 config.yml: in: ~ out: ~ inやoutの値はさらにハッシュなので、波括弧で囲んだブロックにしてもいいだろうが、数が多いので、複数行に分けて記述しているのだろう。 複数行にする場合は、インデントを増やし、各行のインデント(桁位置)は統一する。 config.yml: in: {type: file, p
Embulk, an open-source plugin-based parallel bulk data loader
0.はじめに こちらはre:dash Advent Calendar 2016の22日目の記事です。 Advent Calendarについて出遅れたと思っていたところ、、、 こちらはまだ空き枠がありましたので参加しました。 Mac上で以下のような感じで CSVファイルを digdag -> embulk -> (Re:dashの)PostgreSQLへ格納してRe:dashから見るところまでを記事にします。 デモや素振り用などの参考にして頂ければと思います。 以下は今回本記事では取り扱いませんが以前書きましたこちらの記事や、こちらの記事を参考に応用するとChatOps的な感じでデータ登録が可能です。 1.環境 OSX Yosemite Docker version 1.13.0-rc3, build 4d92237 docker-compose version 1.9.0, build 2
こんにちは、最近Embulk(エンバルク)を調べている川崎です。 タイトルの「DigDag」(ディグダグ) *1と聞いて○ァミコンや○ムコを思い浮かべた方はきっとアラサー以上ですね! 今回はEmbulkを使い始めると直面するであろう課題について書いていきたいと思います。 これまでに書いたEmbulkエントリー [Embulk] Embulkについての個人的なまとめ [Embulk] guess機能を試してみた【追記】あり [Embulk] guess機能を試してみた Redshift編 [Embulk] タイムスタンプのカラムを追加する [Embulk] タイムスタンプのカラムを追加する add_timeプラグイン編 [Embulk] guess機能を試してみた (テーブルが存在する場合) Embulkを使いはじめると... Embulkはデータファイルの中身をDBにロードするような用途で
モノタロウの1900万商品を検索する Elasticsearch構築運用事例(2022-10-26 第50回Elasticsearch 勉強会発表資料)
Built-in Plugins Configuration Embulk configuration file format Local file input plugin CSV parser plugin JSON parser plugin Gzip decoder plugin BZip2 decoder plugin File output plugin CSV formatter plugin Gzip encoder plugin BZip2 encoder plugin Rename filter plugin Remove columns filter plugin Local executor plugin Guess executor Preview executor Logo Images Logo Square Horizontal Icon Customiza
こんにちは。古橋です。 先日の*1 データ転送ミドルウェア勉強会で、新しいオープンソースツール Embulk をリリースしました。 Embulk, an open-source plugin-based parallel bulk data loader from Sadayuki Furuhashi Embulk は、リアルタイムなログ収集では常識となった fluentd のバッチ版のようなツールで、ファイルやデータベースからデータを吸い出し、別のストレージやデータベースにロードするためのコンパクトなツールです。 fluentd と同様にプラグイン型のアーキテクチャを採用 しているため、RubyやJavaで簡単なコードを書くことで、様々なファイルフォーマットやストレージに対応することができます。一方で fluentd とは異なり、高速性やトランザクション制御、スキーマを使ったデータのバリ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く