[B! embulk] wyukawaのブックマーク

あえてEmbulkを使ってログ監視すると幸せになれる状況、およびその導入事例 / Embulk Meetup Tokyo #2

Embulk Meetup Tokyo #2 の LT で発表しました。意味のある情報を取り出せないログが大量にある場合に、Embulkを活用したログ監視システムを導入し、サービスの現状把握および改善活動に繋げた事例の紹介です。

wyukawa 2015/12/27

embulk

リンク

embulk-input-postgresqlからprestogresにつなげるとエラーになる

gistfile1.md embulk-input-postgresqlからprestogresにつなげるとエラーになる。やりたいこと embulkからprestoにqueryしたい。思いつく実現方法 embulk-input-postgreqlからprestogresにSQLを実行する embulk-input-prestoを作る Embulkの設定 in: type: postgresql host: {{ env.DATABASE_HOST | default: "localhost" }} user: app password: {{ env.DATABASE_PASS }} database: store port: 5439 options: protocolVersion: 2 query: | select count(*) from pageviews out: ty

wyukawa 2015/11/12

そうなんだ＞EmbulkではTransactionがあるため、先にSchemaを知る必要がある。

embulk

リンク

Embulkでやりたいことリスト（2015年7月版） - Blog by Sadayuki Furuhashi

バルクロード機能 1つの設定ファイルで複数ジョブを実行する Running multiple jobs using one config file · Issue #167 · embulk/embulk · GitHub 例えば users.csv と histories.csv の2つのファイルを、それぞれPostgreSQLにある users と histories の2つのテーブルにロードしたいというようなユースケースに対応する機能。設定ファイルの構文はissueに書いてあるように、default: に書き並べた設定に対して、jobs: に書いた設定をマージしたものを実際の設定ファイルとして実行していく方法で良さそう。しかし、fliters: は配列なので、default: に書かれた filters: に jobs: に書かれた filters: をどうマージするか、あまり良

wyukawa 2015/07/21

embulk

リンク

謎の独自ERRORログをEmbulk + Elasticsearch + Kibana + PostgreSQLで監視する：運用設計からシステム構築まで - GMOインターネットグループグループ研究開発本部

2015.05.28 謎の独自ERRORログをEmbulk + Elasticsearch + Kibana + PostgreSQLで監視する：運用設計からシステム構築まで次世代システム研究室のDevOpsネタ担当（Embulkのコード読んでRuby復習中）のM. Y.です。前回の記事（ERRORログが多すぎるWebアプリに出会ったら）では、ログ形式が統一されていない、大量のERRORレベルのログを吐き出すWebアプリに運悪く出会ってしまった場合に、そこから何とかログの傾向を把握するためのアプローチについてご紹介しました。あれから、このアプローチを実践するためのログ監視システムを社内で実際に構築してみました。その結果、Embulk + Elasticsearch + Kibana + PostgreSQLという組合せで、割と手軽に、実用的なものを作れそうなことが分かりましたので、今

wyukawa 2015/06/03

リンク

『Embulk』に見るモダンJavaの実践的テクニック～並列分散処理システムの実装手法～

Embulk, an open-source plugin-based parallel bulk data loaderSadayuki Furuhashi

wyukawa 2015/04/11

embulk

リンク

Embulk 0.3 & 0.4 の新機能 - リジュームとJavaプラグイン - Blog by Sadayuki Furuhashi

つい先日*1、Embulk の新しいメジャーバージョンを2つリリースしました。これらのバージョンでは、データ転送ミドルウェア勉強会で得られたフィードバックを元に、リジューム機能、Javaプラグイン機能、そしてプラグインテンプレートジェネレータを追加しています。リジューム機能大きなデータをロードする場合、大部分のデータのロードには成功するが、一部だけ失敗してしまうことは良くあることです。ネットワーク障害、サーバの過負荷などの他に、エラー処理が不完全であるなど原因は様々考えられますが、そのためだけに全データをすべてロードし直すのは大変な手間です。そこでEmbulkでは、分割された複数のタスクのうちの一部だけが失敗した場合に、それらのタスクを後からリトライできる仕組みを導入しました。使い方は、embulk run に --resume--state PATH オプションを指定するだ

wyukawa 2015/02/25

embulk

リンク

並列データ転送ツール『Embulk』リリース！ - Blog by Sadayuki Furuhashi

こんにちは。古橋です。先日の*1 データ転送ミドルウェア勉強会で、新しいオープンソースツール Embulk をリリースしました。 Embulk, an open-source plugin-based parallel bulk data loader from Sadayuki Furuhashi Embulk は、リアルタイムなログ収集では常識となった fluentd のバッチ版のようなツールで、ファイルやデータベースからデータを吸い出し、別のストレージやデータベースにロードするためのコンパクトなツールです。 fluentd と同様にプラグイン型のアーキテクチャを採用しているため、RubyやJavaで簡単なコードを書くことで、様々なファイルフォーマットやストレージに対応することができます。一方で fluentd とは異なり、高速性やトランザクション制御、スキーマを使ったデータのバリ

wyukawa 2015/02/16

embulk

リンク

Treasure Dataの新データ転送ツールEmbulkを触ってみた #dtm_meetup | DevelopersIO

ども、大瀧です。本日開催されたデータ転送ミドルウェア勉強会で、開発者の@frsyukiさんによって語られたEmbulkを早速触ってみました。 Embulkとは EmbulkはOSSのデータ転送ソフトウェアです。もう少し細かく分類するとBulk Loaderと呼ばれる、バッチ処理のためのデータ読み込み、変換処理を行う機能を持ちます。特徴は柔軟なプラグイン構造で、データを読み込むInputPlugin、データを出力するOutputPlugin、さらに読み込み処理自体もExecutorPluginと、機能のほとんどをプラグインとして後から追加、カスタマイズできるよう高度に抽象化されたアーキテクチャになっています。データのハンドリングもプラグインでの実装を想定しているようなので、ここまで来るとミドルウェアというより、データ転送のインターフェースを定義するフレームワークの実装、という方が近い感じか

wyukawa 2015/01/28

embulk

リンク

「データ転送ミドルウェア勉強会」レポート #dtm_meetup | DevelopersIO

こんにちは、虎塚です。 1月27日(火)に「データ転送ミドルウェア勉強会」に参加してきましたのでレポートします。イベントは、SAPジャパンさんで開催されました。今回のテーマは、まず、当日リリースされたばかりのOSSツールEmbulkの解説、次に、データ転送業界のドンHULFTの紹介、そして、今年リリース予定のfluentd v1について、最後に、HTTP/1とHTTP/2両対応のHTTPサーバH2Oの紹介でした。盛りだくさんですね。懇親会ではトレジャーデータさんからピザが提供されました。SAPジャパンさん、トレジャーデータさん、ありがとうございます。データ転送ミドルウェア勉強会 - dots.[ドッツ] 「バルクデータロードツール『Embulk』リリース〜 fluentdの柔軟性と堅牢性をバルクでも」最初のセッションは、トレジャーデータの古橋貞之さんによるEmbulkの思想やアー

wyukawa 2015/01/28

詳細なレポートだ

embulk

リンク

データ転送ミドルウェア勉強会 - Blog by Sadayuki Furuhashi

Treasure Data, Inc. 古橋貞之です。来たる1月27日、新しいOSSツール Embulk をリリースします。 EmbulkはFluentdのバッチ処理版のようなツールで、CSVデータやアクセスログなどの構造化データを高い信頼性で転送することができるコンパクトなツールです。入力元、出力先、ファイルフォーマット、圧縮方式などをプラグインで拡張することができ、S3上のCSVファイル、PostgreSQL、Elasticsearch、Salesforce.com、Treasure Dataなど、異種のストレージやサービスの間でデータを転送・同期することが可能になります。 Fluentdとは異なって、1発実行、あるいは1時間や1日毎で実行するバルク処理に特化しており、トランザクション制御冪等性高速性スキーマを使ったvalidation などの拡張を備えています。１回で使

wyukawa 2015/01/19

embulk

リンク

はてなブックマーク

タグ

関連タグで絞り込む (3)

embulkに関するwyukawaのブックマーク (10)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス