並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 42件

新着順 人気順

embulkの検索結果1 - 40 件 / 42件

embulkに関するエントリは42件あります。 データBigQueryaws などが関連タグです。 人気エントリには 『エムスリーのデータ基盤を支える設計パターン - エムスリーテックブログ』などがあります。
  • エムスリーのデータ基盤を支える設計パターン - エムスリーテックブログ

    こんにちは、エムスリー エンジニアリンググループ の鳥山 (@to_lz1)です。 ソフトウェアエンジニアとして 製薬企業向けプラットフォームチーム / 電子カルテチーム を兼任しています。 ソフトウェアエンジニアという肩書きではありますが、私は製薬企業向けプラットフォームチームで長らくデータ基盤の整備・改善といったいわゆる "データエンジニア" が行う業務にも取り組んできました。 本日はその設計時に考えていること / 考えてきたことをデータ基盤の設計パターンという形でご紹介しようかと思います。多くの企業で必要性が認識されるようになって久しい "データ基盤" ですが、まだまだ確立された知見の少ない領域かと思います。少しでもデータエンジニアリングを行う方の業務の参考になれば幸いです。 データ基盤の全体像 収集部分の構成 RDBデータ ログデータ 活用部分の構成 データマートの実例 「データ基

      エムスリーのデータ基盤を支える設計パターン - エムスリーテックブログ
    • 【保存版】データサイエンティスト転職を決めるポートフォリオのガイドライン【書籍化決定】 - Qiita

      書籍化されました 本記事をベースに監修者の村上さんが1冊の本にまとめてくれました(感謝) データサイエンティストのキャリア面やポートフォリオの細かい部分をさらに追加・ブラッシュアップした内容になっています。 まえがき はじめに 皆さん、「データサイエンティスト」という職種をご存知でしょうか? この数年間で、AIやディープラーニングといったバズワードと共にデータサイエンティストというワードも、よく耳にするようになりました。最新の技術を扱えて、年収も高い非常に魅力的な職業なため、データサイエンティストへの転職を検討されている方もいらっしゃるのではないでしょうか? 実際、データサイエンティスト職への就職・転職希望者は年々増加しています。しかし、未経験の人材を育成できる会社はまだまだ少なく、未経験からの転職は転職希望者の増加に伴い高まっています。 データサイエンティストは求められるスキルの幅が広く

        【保存版】データサイエンティスト転職を決めるポートフォリオのガイドライン【書籍化決定】 - Qiita
      • データ分析を元にFAQサイトを継続的に改善する - yasuhisa's blog

        FAQサイト、サポート問い合わせをせずとも自分で疑問を解決できて便利ですよね。でも、検索した単語が一件もヒットしないと、ちょっとガッカリしてしまします。そういったガッカリを減らすために、簡単なデータ分析を使ってFAQサイトを継続的に改善する話を書いてみます。 ...というのも、自分が仕事で関わっているMackerelでは最近FAQをリニューアルしたからなのでした。 MackerelのFAQではZendesk Guideを利用していますが、Zendesk Guideは便利なAPIが用意されているので、それと既存のデータ基盤を組み合わせて改善していく形です。 FAQサイト内の検索語を列挙する まず、FAQサイト内でどういった単語が検索されているのかを列挙します。Google Tag Manager経由でFirebase Analyticsにデータを飛ばすと閲覧状況が分かりますが、そのログをBi

          データ分析を元にFAQサイトを継続的に改善する - yasuhisa's blog
        • ビジネスとオープンソースの狭間で 〜 Embulk の場合 (前編)

          2023 年はビジネスとオープンソースの関係が難しくなった年であったように思います。 6 月には、フルタイムの Ruby コミッターとして研究開発を行っていたお二人がクックパッド社の人員削減の影響を受けたことに端を発して、オープンソースに深く関わってきた一部のソフトウェア・エンジニアを中心に、ビジネスとオープンソースの関係について議論がありました。 8 月には HashiCorp 社が自社のオープンソース製品群のライセンスを Business Source License 1.1 (BSL) に変更したことも話題になりました。 また 2023 年は、一年を通して大規模言語モデル (Large Language Models; LLM) が話題になった年でもあり、ビジネスにも大きな影響がありました。 大規模言語モデルとオープンソースの関係に焦点を絞っても、「非オープンソースのライセンスで公開

            ビジネスとオープンソースの狭間で 〜 Embulk の場合 (前編)
          • EmbulkでPostgreSQLをMySQLに移行した話 - LIVESENSE ENGINEER BLOG

            こんにちは。マッハバイトを運営するアルバイト事業部エンジニアの mnmandahalf です。 先日、マッハバイトの販売管理システムで使っているデータベースをオンプレPostgreSQLからAmazon Aurora MySQLに移行しました。 本記事では移行に至った背景、吸収する必要があった差分や苦労した点についてお話しします。 環境 移行前のバージョン: PostgreSQL 9.4 ※ドキュメントはバージョン14のものを添付しています 移行後のバージョン: Aurora MySQL 3.02.0 (compatible with MySQL 8.0.23) 環境 MySQL移行の背景 データ移行方法の検討 Embulkの実行で考慮したポイント Embulkの設定 scram-sha-256認証への対応 タイムスタンプが9時間巻き戻る FK制約を無効化できない PostgreSQLとM

              EmbulkでPostgreSQLをMySQLに移行した話 - LIVESENSE ENGINEER BLOG
            • データ基盤のメタデータを継続的に管理できる仕組みを作る - Hatena Developer Blog

              こんにちは。MackerelチームでCRE(Customer Reliability Engineer)をしているid:syou6162です。 CREチームではカスタマーサクセスを進めるため、最近データ分析により力を入れています(参考1, 参考2)。データ分析を正確に行なうためには、データに関する正確な知識が必要です。今回はより正確なデータ分析を支えるためのメタデータを継続的に管理する仕組みについて書いてみます。 データに対する知識: メタデータ データ分析を正確に行なうためには、データ自身に関する知識(=メタデータ)が必要です。例えば、Mackerelのデータ分析タスクでは以下のような知識が必要とされることが多いです。 このテーブル / カラムは何のためのテーブルなのか 似たようなカラムとの違い 集計条件の違い、など データがどのような値を取り得るか SELECT column, COU

                データ基盤のメタデータを継続的に管理できる仕組みを作る - Hatena Developer Blog
              • データ基盤を支える技術 - ETLフレームワークの実践的な選び方・組み合わせ方 - JX通信社エンジニアブログ

                JX通信社シニア・エンジニア兼データ基盤担当大臣の@shinyorke(しんよーく)です. 最近やった「ちょっとした贅沢」は「休日, 自宅で🍺片手に野球を見ながらUberEatsで注文したランチを楽しむ」です. ⚾と飲食を提供してくださる皆さまに心から感謝しております🙏 JX通信社では, 機械学習を用いたプロダクト開発・施策 プロダクト・サービスの改善に関する分析 日々のイベントをメトリクス化して可視化(いわゆるBI的なもの) を円滑かつ効率よく行うため, 昨年からデータ基盤を整備・運用しており, 現在では社員のみならず(スーパー優秀な)インターンの皆さまと一緒に活用し, 成果を出し始めています. ainow.ai なぜデータ基盤が必要か?どういった事をしているのか?...は上記のインタビューに譲るとして, このエントリーでは「データ基盤を支える技術 - ETL編」と称しまして, Py

                  データ基盤を支える技術 - ETLフレームワークの実践的な選び方・組み合わせ方 - JX通信社エンジニアブログ
                • Athena+Embulk+BigQueryによるアプリケーションログの分析環境構築

                  はじめにこんにちは、Finatextで証券プラットフォーム(Brokerage as a Service、以下BaaS)の開発に携わっている石橋(@bashi0501)です。過去のFinatextテックブログではTerraform、CDKとIaCをテーマにした記事しか書いたことがなかったのですが、今回はログの分析活用をテーマとします。 概要弊社の証券事業ではECSによるワークロードを組んでいます。本テーマのアプリケーションログについては標準出力したものをawslogsログドライバーが回収してCloudWatch Logsに送信しています。 ログの検索という観点ではCloudWatch Logs Insightsというサービスでかなりリッチにフィルターや集計を行うことができるのですが、ログデータを元にしたユーザーのファネル分析や業務改善(後述します)に活かしていきたいという意図があるため、マ

                    Athena+Embulk+BigQueryによるアプリケーションログの分析環境構築
                  • Dockerのログ収集方法の調査 - Qiita

                    すべてのログは標準出力・標準エラー出力に出力 ・Dockerのlogging driver ・ログの集約がしづらい ・Fluentdに転送設定 コンテナ起動時に既にFluentdが死んでいる場合、コンテナが起動できない など。詳細は以下のサイトを参照 Dockerコンテナ上のログ集約に関するまとめ Dockerのlogging driver: それぞれの特徴と使いどころ(json-file, syslog, journald, fluentd) 対象のログ リアルタイムに出力されるログが対象 ・Fluentd / fluentd-ui ・FluentBit ・Filebeat ・Logstash 既にあるログが対象 ・Embulk Fluentdのバッチ版Embulk(エンバルク)のまとめ Docker-composeを使ってEmbulk,Elasticsearch,Kibana環境を構築

                      Dockerのログ収集方法の調査 - Qiita
                    • 全社共通データ基盤を廃止して新しいデータ基盤に引越した話 - ZOZO TECH BLOG

                      こんにちは、データ基盤の開発、運用をしていた谷口(case-k)です。最近は配信基盤の開発と運用をしています。 ZOZOではオンプレやクラウドにあるデータをBigQueryへ連携し、分析やシステムで活用しています。BigQueryに連携されたテーブルは共通データ基盤として全社的に利用されています。 共通データ基盤は随分前に作られたこともあり、様々な負債を抱えていました。負債を解消しようにも利用者が約300人以上おり、影響範囲が大きく改善したくても改善できずにいました。 本記事では旧データ基盤の課題や新データ基盤の紹介に加え、どのようにリプレイスを進めたかご紹介します。同じような課題を抱えている方や新しくデータ基盤を作ろうとしている方の参考になると嬉しいです。 データ基盤の紹介 旧データ基盤の紹介 旧データ基盤の課題 変更があっても更新されないデータ 性質の異なるテーブルを同じ命名規則で管理

                        全社共通データ基盤を廃止して新しいデータ基盤に引越した話 - ZOZO TECH BLOG
                      • Digdag + Embulkをクラウド転生させてデータ基盤運用を圧倒的に楽にした話 - エムスリーテックブログ

                        こんにちは、エムスリー エンジニアリンググループ / 製薬企業向けプラットフォームチームの鳥山 (@to_lz1)です。 これは エムスリー Advent Calendar 2020 の19日目の記事です。 エムスリーでは現在、各システムのオンプレ環境からクラウドへの移行を急ピッチで進めているところです(勉強会の配信アーカイブをYouTubeでもご覧いただけます。公式テックチャンネルのご登録、ぜひお願いします!) これに関連して私のチームでも最近「データ基盤(Digdag + Embulk)のクラウド移行」を行ったため、そのときに考えたことや移行して良かったことを共有したいと思います。 エムスリーのデータ基盤について それまでの構成 クラウド環境でのアーキテクチャ DigdagとEmbulkの分離 Digdag on AWSからBigQueryを操作する 併せて行った改善(Sentryでの

                          Digdag + Embulkをクラウド転生させてデータ基盤運用を圧倒的に楽にした話 - エムスリーテックブログ
                        • 家族ノートを支えるBigQuery+StepFunctionsで作るデータレイク - コネヒト開発者ブログ

                          こんにちは。インフラエンジニアの永井(shnagai)です。 最近、家族ノートという「ママリ」内の検索データとQ&Aデータ(現在開発中)を可視化したデータ分析サービスの立ち上げに携わっています。 info-kazokunote.mamari.jp 今回は、家族ノートで使っているデータ基盤の一部であるBigQuery+StepFunctionsで作ったデータレイクの仕組みについてご紹介します。 内容は、ざっくりとこんな話を書こうと思います。 データ基盤作りに至った経緯 AWS→BigQueryにデータ移送するアーキテクチャのpros&cons StepFunctions+Embulk(Fargate)を利用したデータレイクの仕組み データ基盤作りに至った経緯 コネヒトには大きく分けると2つのデータセットがあります。 DB(Aurora)にあるアプリケーションのデータ(業務データやマスターデー

                            家族ノートを支えるBigQuery+StepFunctionsで作るデータレイク - コネヒト開発者ブログ
                          • Gunosy のデータ活用を支える統合データ基盤 Baikal の話 - Gunosy Tech Blog

                            はじめに Baikal について Baikal を支える技術と工夫 AWS アカウント Terraform ワークフロー基盤 Athena Lake Formation アーキテクチャ Extract & Load データ生成元 AWS アカウントにある RDS からデータ抽出 データ生成元 AWS アカウントにある DynamoDB からデータ抽出 社外の API からデータ抽出 Transform workspace に配置されたデータの変換 データ生成元 AWS アカウント内の生ログ変換 ウェアハウス内での加工 Share 今後の課題 開発の一部を他チームへの委譲 データ異常検知 BI ツールの導入 はじめに DRE チームの hyamamoto です。 新卒の方々が入社されて 4 ヶ月ということで、時の流れの速さを感じています*1。なお、現在、新卒の方々でリレー方式でブログを書いて

                              Gunosy のデータ活用を支える統合データ基盤 Baikal の話 - Gunosy Tech Blog
                            • Embulk & Digdag Meetup 2020

                              This is a story about running digdag on Kuberentes to create a scalable workflow execution environment

                                Embulk & Digdag Meetup 2020
                              • EC2で運用している分析基盤(Digdag + Embulk)をECS/Fargateに移行しました | ランサーズ(Lancers)エンジニアブログ

                                SREチームの安達(@adachin0817)です。最近ではランサーズ本家のインフラをコンテナに移行しまくっております。今回ランサーズとMENTAで運用しているEC2/分析基盤サーバー(Digdag + Embulk)をECS/Fargateに移行完了しました。では早速概要と苦労した点、今後の展望などを振り返っていきたいと思います。 分析基盤の紹介 > ランサーズの分析基盤(capybara)と運用について紹介 > MENTAをAWSに移行しました ちなみに私が入社して3年経つのですが、運用して変わったことは3年前よりデータの量が膨大になっていることと、現在、社内の分析チームにとって欠かせないシステムとなっております。その中でDigdagによるスケジューラーとEmbulkによるマルチソースバルクデータローダーである分析基盤専用のEC2サーバーがあり、毎日夜中にデータをBigQuryにシンク

                                  EC2で運用している分析基盤(Digdag + Embulk)をECS/Fargateに移行しました | ランサーズ(Lancers)エンジニアブログ
                                • Embulk のメンテナンス体制がオープンになります

                                  オープンソースのプラグイン型データ・ローダー Embulk のメンテナをここ何年かやっている @dmikurube です。 Embulk はオープンソースですが、本体 (core) のメンテナンスは Treasure Data でおこなっている、いわゆる「企業発オープンソース」でした。ライセンスは Apache-2.0 で、その意味でちゃんと「オープンソース」ですが、メンテナンス体制や意思決定は実質的に Treasure Data で握っていました。 [1] この Embulk のメンテナンス体制を、このたび、よりオープンにしていくことになりました。まだ準備を進めている段階ですが、本記事は、その概要のご紹介です。 オープンって、具体的には? 大きくは次の 2 点です。 特にプラグイン互換性に影響があるような大きな変更の意思決定プロセスを整備する Treasure Data の外からも Em

                                    Embulk のメンテナンス体制がオープンになります
                                  • いますぐ使うCodeBuild - Qiita

                                    CodeBuildとは AWSのなかでCI/CDを担うCode三兄弟のひとつ、という説明では一切何もわからなかったので、軽く触った理解をメモとして残します。 AWS CodeBuildは、Jenkinsジョブ相当のものを「Build project」と呼び、任意のDockerイメージを起動して、コンテナ内で任意のコマンドを起動できるサービスと理解しました。 私自身はCircleCIあるし時間の無駄でしょと思って敬遠してましたが、CI/CDという色眼鏡を外すと、活用の幅が非常に広い面白い製品です。使わないのはもったいない! こんなことに使えそう CircleCIやTravisCIなどの CI as a Service を利用されてるなら、料金面や速度など強い不満なければ、わざわざ移設するほどのものではありません EC2サーバーにJenkinsを立ててCI/CDに供しているなら、一部のJenk

                                      いますぐ使うCodeBuild - Qiita
                                    • Embulk v0.11 / v1.0 に向けて: プラグイン開発者の皆様へ

                                      プラグイン型バルク・データ・ローダーの Embulk をメンテナンスしている @dmikurube です。 今後の Embulk のロードマップについて、一年ほど前に、記事を (英語ですが) 出したり、ミートアップで話したりしていました。その内容は、開発版 (非安定版) として Embulk v0.10 でしばらく大改造を行い、そこから次期安定版の v0.11 を経て v1.0 を出しますよ、というものでした。 Embulk v0.10 series, which is a milestone to v1.0 More detailed plan of Embulk v0.10, v0.11, and v1 -- Meetup! Java plugins to catch up with Embulk v0.10 from v0.9 それから一年経ち、その v0.11.0 のリリースがいよ

                                        Embulk v0.11 / v1.0 に向けて: プラグイン開発者の皆様へ
                                      • 分析基盤へのデータ同期を約40倍早くしてみた | MoT Lab (GO Inc. Engineering Blog)

                                        タクシーアプリ「GO」、法人向けサービス「GO BUSINESS」、タクシーデリバリーアプリ「GO Dine」の分析基盤を開発運用している伊田です。本番DBから分析基盤への連携処理を改善した事例を紹介します。※ 本記事の対象読者はETLツールを利用している方を対象にしています はじめに本記事では、タクシーアプリ「GO」の DB から分析基盤への同期処理を約7時間から約10分に改善した事例を紹介します。まず、既存の処理および改善前の状況を説明し、次に改善にあたり実施した分析、その分析をもとにチーム内で実施した議論を経て、最終的にどのような実装を行ったのか紹介させて頂きます。 同期処理についてGO の DB は Cloud SQL 上で構築されており、分析基盤への同期処理は GKE 上で Embulk を起動し、リードレプリカに対してクエリを投げて一度 GCS に結果を格納します。その後、GC

                                          分析基盤へのデータ同期を約40倍早くしてみた | MoT Lab (GO Inc. Engineering Blog)
                                        • EKS(Kubernetes)上にDigdag・Embulk・Redashで分析環境を構築する - Koichi Ishida blog

                                          目次 ワーカーノードの作成 DigdagとEmbulkのDockerビルド KubernetesにDigdag/Embulkをデプロイ Redashの導入 まとめ Kubernetes上に分析環境を構築する機会があったのでどのように構築したかを紹介します。同じような構成でKubernetes上で構築するのは3回目になったので構築方法も洗練されてきました。構成は以下のようになっています。 MySQL(RDS): サービスのデータベース。ここのテーブルからBigQueryにEmbulkでデータをエクスポートします。 PostgreSQL(RDS): Digdagのデータベース。今回新たにつくりました。 Digdag: データベースのエクスポートなどを実行するタスクスケジューラ。失敗したときにリトライもできます。 Embulk: プラグインを使ってデータベースをMySQLからBigQueryにエ

                                            EKS(Kubernetes)上にDigdag・Embulk・Redashで分析環境を構築する - Koichi Ishida blog
                                          • Embulkを利用したデータ統合SaaSの構築と運用

                                            思わず目にとまる コンテンツの作り方、届け方 / how-to-create-deliver-content-catches-the-eye

                                              Embulkを利用したデータ統合SaaSの構築と運用
                                            • Embulkのcoreのソースコードから紐解くデータ転送のしくみ

                                              この記事は trocco Advent Calendar 2023 の6日目の記事となります。 はじめに 今回はtroccoの内部でも利用されているETLのためのOSSであるEmbulkについて、core部分のソースコードリーディングを通して、そのしくみを紐解いていきたいと思います。 おことわり Embulkの基本的な使い方などについては解説しません。 筆者はembulk-coreにコントリビュートしているわけではないので、間違いなどがあればお気軽にご指摘ください。 今回見ていくcoreの実装自体は、比較的変更が少ないとされる各種プラグインが従うべきインターフェース部分(embulk-spi)から隠蔽されているため、今後この記事の内容が正しくなくなる可能性は容易にあります。 Embulkにはguessやpreviewやresumeといった機能も含まれていますが、今回は単純なembulk r

                                                Embulkのcoreのソースコードから紐解くデータ転送のしくみ
                                              • Digdag と Embulk と Athena で作る Gunosy の ELT基盤

                                                株式会社 Gunosy Gunosy Tech Lab Data Reliability & MLOps Group 中山貴博 2019年7月31日 Digdag と Embulk と Athena で作る Gunosy の ELT基盤 (C) Gunosy Inc. All Rights Reserved. PAGE | 2 ■ 中山貴博 (@Civitaspo) ■ Gunosy Tech Lab Data Reliability & MLOps Group Manager ■ 経歴 – DeNA -> Gunosy (2017/10 ~) – Hadoop の運用や ETL全般 ■ Embulk/Digdag などの古橋ウェアが大好 き – Digdag Plugin公開数7個(総合1位) – Embulk Plugin公開数13個(総合3位) 自己紹介 (C) Gunosy Inc

                                                  Digdag と Embulk と Athena で作る Gunosy の ELT基盤
                                                • 初めてECS+Digdag+Embulkでデータ分析基盤を作った話 - Qiita

                                                  こんにちは、theLetterの荻田です。 データ分析基盤を作る機会があり、拡張のしやすさ・現状のデータ量や仕様に合うか・予算問題などを考えた結果どう判断したのかという過程と実装を紹介します。 今後運用する上で出てきた改善点や課題などは半年後くらいに振り返りの記事を書こうと思います。 気になることがあれば気軽にDM(@kai_ogita)してください 一緒に技術選定から実装までゴリゴリやりたい人募集中です! theLetter採用ページ About me サーバーサイドエンジニアの人 TreasureDataやBigqueryは本当に少し触ったことある ETLやデータ分析基盤などの知識は0 GCPよりAWSに触れてきた About theLetter theLetter はニュースレターメディアを誰もがつくれるプラットフォームで、現在はリリース数ヶ月で読者数15 万人を突破しており、初期フ

                                                    初めてECS+Digdag+Embulkでデータ分析基盤を作った話 - Qiita
                                                  • 新しいアンケートシステムをつくった(Digdag・Embulk・BigQueryデータ同期編) - エムスリーテックブログ

                                                    「作れないものがない」アンケート作成システムを作成した、エムスリーエンジニアリンググループの岩本です。 今回は「新しいアンケートシステムをつくった(Goとシステム概要編)」のバッチ部分について説明します。 概要 アンケートシステムのIbisの内部表現として設問があります。例えば下記のように設問が定義されているとき 設問ID設問タイトルカラム名 1年齢age 2好きな食べ物favorite_food 分析時にTableauから参照するBigQueryでは、回答テーブルとして以下のように見えると処理しやすくなります。 回答番号agefavorite_food 137カレー 232スパゲッティ つまり、前回、滝安(@juntaki)が説明したとおりIbisで「設問の作成」を行うと、分析する際のカラムが1つ増えることになります。 縦持ちとなっている「設問」の情報を横持ちに変換し、BigQueryの

                                                      新しいアンケートシステムをつくった(Digdag・Embulk・BigQueryデータ同期編) - エムスリーテックブログ
                                                    • Embulk & Digdag Online Meetup 2020 イベントレポート | trocco®(トロッコ)

                                                      データを基にした論理的な意思決定をしていくことが、(ビジネスにおいて)非常に大事であることが、近年の共通認識になりました。これからは、クラウドやSaaSにデータを集めてきて解析する、という作業がデータサイエンスやデータエンジニアリングをする上で必要になっていくでしょう。さらにSaaS間のデータ統合も必要となり、これは10年前にはあり得なかった世界観です。 古橋氏:「SaaSのクラウドベースにあるデータをインテグレートしていくためにはEmbulkのプラグインAPIの活用することになります。しかしそのプラグインを書くためには、JavaのAPIが使えなければならないのですが、そうしたプラグインを書ける人は多くありません。 その一方で、『スクリプトなら書けます』『スクリプトとSDKがあってドキュメントがあれば書けます』というSaaSの設定をしてる人たちのほうが、圧倒的に人口は多くなります。そうなる

                                                        Embulk & Digdag Online Meetup 2020 イベントレポート | trocco®(トロッコ)
                                                      • Embulkのバージョンアップ

                                                        GMOアドマーケティングのT.Kです。バッチサーバーでEmbulkを使っていますが、古いv0.8系なので更新する事にしました。 embulk selfupdate で更新すると何かあった際に切り戻しが出来ないので、追加インストールして切り替える方針を取りました。 手順 Gemfileを作成 プラグインも新しいバージョンに更新します。インストール先を被らないようにするためGemfileを使います。 既存環境はプラグインをGemfileで管理していないので、コマンドでインストール済みのリストを抽出します。 既存のembulkのインストール先はold/embulkとします。 $ old/embulk gem list | grep embulk- $ mkdir bundle_dir $ cd bundle_dir $ vi Gemfile

                                                          Embulkのバージョンアップ
                                                        • Embulk

                                                          Latest Versions Stable v0.11.2 Note that v0.11 is not fully compatible with v0.9. Several plugins for v0.9 would not work with v0.11. Take a look at this article for details. Past stable v0.9.25 Recent Articles 'embulk gem install' may fail in Embulk v0.9: incompatibility with RubyGems Embulk v0.11 is coming soon Embulk maintenance goes open For Embulk users: What will change in v0.11 and v1.0? Ho

                                                            Embulk
                                                          • Embulk と Argo でデータ転送する|0gura

                                                            こんにちは、株式会社アトラエで wevox のエンジニアをしている小倉といいます。この記事では、Embulk と、Argo を含む Kubernetes の周辺ツールを使った弊社のデータ転送環境を紹介していきます。 RDS から BigQuery へのデータ転送 wevox ではデータベースとして AWS Aurora(MySQL)を利用しています。データ分析環境としては GCP を利用しており、Aurora から BigQuery にいくつかのテーブルを転送するために Embulk の利用をはじめました。 Embulk 自体は ETL ツールとしては王道であり検索すれば情報もたくさん出てくるので多くは記述しません。インプットプラグインには embulk-input-mysql を、アウトプットプラグインには embulk-output-bigquery を使っています。 Embulk と

                                                              Embulk と Argo でデータ転送する|0gura
                                                            • Embulkマネージドサービスtroccoを利用し、分析・アプリ開発に集中

                                                              株式会社スマートエデュケーション様には、2019年7月より分析基盤向けデータ統合サービス「 trocco®」(トロッコ)をご活用いただいております。CTO谷川裕之様に、事業内容から分析基盤の構築とその活用方法についてお話を伺いました。(聞き手:株式会社primeNumber 取締役執行役員CPO 小林寛和)

                                                                Embulkマネージドサービスtroccoを利用し、分析・アプリ開発に集中
                                                              • EKS(Kubernetes)上にDigdag・Embulk・Redashで分析環境を構築する | wapa5pow blog

                                                                Kubernetes上に分析環境を構築する機会があったのでどのように構築したかを紹介します。同じような構成でKubernetes上で構築するのは3回目になったので構築方法も洗練されてきました。構成は以下のようになっています。 MySQL(RDS): サービスのデータベース。ここのテーブルからBigQueryにEmbulkでデータをエクスポートします。 PostgreSQL(RDS): Digdagのデータベース。今回新たにつくりました。 Digdag: データベースのエクスポートなどを実行するタスクスケジューラ。失敗したときにリトライもできます。 Embulk: プラグインを使ってデータベースをMySQLからBigQueryにエクスポートします。Digdagと同じDockerコンテナでDigdagのタスクから実行されます。 BigQuery: すべてのエクスポートされたデータをここに集約さ

                                                                  EKS(Kubernetes)上にDigdag・Embulk・Redashで分析環境を構築する | wapa5pow blog
                                                                • Embulk v0.11.0, v1.0に向けたMavenプラグインのCI環境構築とMavenプラグインの導入方法 (2021/5/28版) - joker1007’s diary

                                                                  現在、Embulkは次の安定版であるv0.11.0に向けた開発版としてv0.10がリリースされています。 メンテナであるdmikurubeさんのアナウンスに依ると、0.11.0以降はJRubyがデフォルトでembulkに組込まれなくなるため、プラグインは基本的にJavaで作ることが推奨される様になります。 また、JRubyがデフォルトで入らなくなるため、基本となるプラグインの配布プラットフォームはMavenリポジトリになる予定です。 JavaのプラグインのAPIもいくつか変更されており、新しいバージョンに対応するためには多少の修正が必要になります。 基本的な開発ガイドについては、以下の記事を参考にすると良いでしょう。 zenn.dev zenn.dev ある程度embulkのプラグイン開発に慣れていれば、上記の記事で実装とビルドまでは何とかなるんですが、当分の間0.9系が生き続けることは間

                                                                    Embulk v0.11.0, v1.0に向けたMavenプラグインのCI環境構築とMavenプラグインの導入方法 (2021/5/28版) - joker1007’s diary
                                                                  • モダンデータスタックでデータ分析基盤の改善〜可用性と保守性もアップ!〜 - Money Forward Developers Blog

                                                                    はじめに こんにちは。CTO室 分析基盤部の長谷川(shase)です。 私が所属するチームでは、データ分析基盤の開発と運用を行っています。 今回は私が入社以来(といっても半年弱程度なのですが)やってきた、データパイプラインの整理についてご紹介したいと思います。 この記事が想定する読者 事業会社でデータ分析基盤の開発と運用に携わる、データエンジニア、データアナリストなどの職種の方にとって参考になればと思い執筆しました。 記事に出てくる社内用語の補足 セキュアデータ基盤は、センシティブなデータが含まれる基盤でアクセス可能なメンバーが制限されています。また、特定の踏み台からしかアクセスすることができません。 カジュアルデータ基盤は、センシティブなデータが含まれていない代わりに、通常のオフィスネットワークからアクセスすることができる環境です。 抱えていた課題 私が入社した時点で、カジュアルデータ分

                                                                      モダンデータスタックでデータ分析基盤の改善〜可用性と保守性もアップ!〜 - Money Forward Developers Blog
                                                                    • Embulk v0.11 でなにが変わるのか: ユーザーの皆様へ

                                                                      プラグイン型バルク・データ・ローダーの Embulk をメンテナンスしている @dmikurube です。 前に Embulk v0.10 に関するアナウンス (英語版) を出してからおよそ一年が経ち、ついに v0.11 のリリースが視界に入ってきました。 その Embulk v0.11 と、それに続く v1.0 は、今までの安定版の v0.9 とは大きく変わります。本記事では、その v0.11 での変更について、ユーザー向けの概要をまとめました。 (ユーザーではなくプラグイン開発者向けのまとめはこちら) (Embulk 公式サイトにある英語版 の翻訳ですが、同一人物が書いているので、おそらく同じ内容になっていると思います。もし違いがありましたら、英語版の方を一次情報として解釈しつつ、ぜひ筆者までご連絡ください) Embulk System Properties とディレクトリ Embul

                                                                        Embulk v0.11 でなにが変わるのか: ユーザーの皆様へ
                                                                      • BigQueryへEmbulkで転送するバッチ処理を改善した話 - High Link テックブログ

                                                                        はじめに こんにちは, 基盤開発チームの奥山(okue)です. High Link では, BigQuery を活用してデータの分析や可視化, 機械学習への活用を行っています. アプリケーション DB の BigQuery へ転送には, AWS ECS Fargate + Embulk という構成でバッチ処理を実行していましたが, いくつか運用上の問題点がありました. 本記事では, BigQuery へDBのデータを転送するバッチ処理を, AWS Step Functions + AWS ECS Fargate + Embulk で実装し改善した話をします. 改善前の構成と問題点 構成 改善前のバッチ処理は下図のような構成でした. AWS RDS MySQL には 60個以上のテーブルがありますが, それらを BigQuery へ転送する処理を1つの ECS Task で実行していました.

                                                                          BigQueryへEmbulkで転送するバッチ処理を改善した話 - High Link テックブログ
                                                                        • イベント資料|Embulk & Digdag Online Meetup 2020 - TECH PLAY[テックプレイ]

                                                                          グループを作れば、無料で誰でもイベントページが作成できます。情報発信や交流のためのイベントをTECH PLAY で公開してみませんか?

                                                                            イベント資料|Embulk & Digdag Online Meetup 2020 - TECH PLAY[テックプレイ]
                                                                          • embulkでRedshiftにデータを取り込む | ブログ一覧 | DATUM STUDIO株式会社

                                                                            この記事についてembulkでRedshiftにデータを取り込む方法について解説します。 どうしてembulkを使うのかまず、Redshiftにデータを取り込む際には、大きく分けて、embulkで取り込む方法と、RedshiftのCOPYコマンドで取り込む方法の2つが考えられます。embulkを使うメリットデメリットは下記のとおりです。 メリットデータのチェック機能があり、汚いデータをインポートするのに強い。元のcsvファイルなどから、特定の条件に該当するレコードのみをインポートするなど、条件抽出もできる。デメリット処理がCOPYコマンドに比べて遅い(内部的にはデータのチェック=>COPYの実行を行っているので)。特に大きなデータを扱う際にその速度差が顕著に出る。このように、汚いデータ(数値として取り込みたい列に文字列が入っているなど)を取り込む際や、元ファイルから特定の条件に該当するレコ

                                                                              embulkでRedshiftにデータを取り込む | ブログ一覧 | DATUM STUDIO株式会社
                                                                            • 最近の砂場活動その24: Embulkでのデータ転送を差分転送にする - yasuhisa's blog

                                                                              差分転送するモチベーション 機械学習を使った情報推薦を行なうために、RDSのテーブルをBigQueryに定期転送しています。細かいことは気にしたくなかったので、一日一回の洗い替え(全データ送信で全部上書き)していましたが、もう少し鮮度を上げたくなりました(新しい情報に対して推薦ができないため)。何も考えずに定期転送の頻度を上げると 1: 転送のためのCPUコスト 2: AWSからGCPへのデータ転送量 が気になってきます。個人の趣味プロジェクトでは、特に2が大きい。先月のAWSの利用料金を見て、涙を流していました...。というわけで、情報の鮮度は上げつつもう少し効率的に定期転送するべく、Embulkでの差分転送をすることにしました。 やり方 差分だけBigQueryに転送する 基本的にはメルカリメソッドそのままです。いつもお世話になっております。 updated_atのような最終更新日時が

                                                                                最近の砂場活動その24: Embulkでのデータ転送を差分転送にする - yasuhisa's blog
                                                                              • DigdagとEmbulkで行うDB同期の管理 - LIVESENSE Data Analytics Blog

                                                                                データプラットフォームグループの松原です。 弊社各サービスのデータ分析基盤であるLivesense Analytics(以降LA)の開発、運用を行っています。 今回はLAで行っている分析のためにサービス側のデータ(テーブル)を、Redshiftへ同期を行う処理について紹介します。 概要 LAではデータウェアハウスとしてRedshiftを運用しており、社内から比較的自由に利用できる様にしています。 LAで取り扱っているデータはアクセスログが中心ですが、分析を行う利用者からはLA由来のデータ以外にも自分たちのサービスのデータを用いて分析を行いたい、という要望がよく出てきます。 サービスのデータには個人情報を含むものも少なくありませんが、分析基盤として社内にデータを解放するためにはそのような情報は削る必要があります。 そこで個人情報をマスキングしたサービス側データを利用できるよう、Redshif

                                                                                  DigdagとEmbulkで行うDB同期の管理 - LIVESENSE Data Analytics Blog
                                                                                • Embulkの設定情報(liquid版) - Qiita

                                                                                  概要 Embulkで処理を作成する際、DB接続情報などの環境によって変更したい設定をどう定義すればいいか調べた内容をメモしておきます。 Embulkのテンプレート機能を利用する Embulkに搭載されているテンプレートエンジンLiquidの機能を使って共通化してみます。 ※ Embulk 0.7.7以上 ファイル構成 │ # 設定情報 ├ _env.yml.liquid │ | # bundle plugin. ├ bundle │ ├ .bundle │ ├ .ruby-version │ ├ Gemfile │ ├ Gemfile.lock │ ├ embulk │ └ jruby │ │ # 処理内容 └ users.yml.liquid

                                                                                    Embulkの設定情報(liquid版) - Qiita

                                                                                  新着記事