並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 181件

新着順 人気順

dbtの検索結果1 - 40 件 / 181件

  • dbtで見やすいER図を生成する - yasuhisa's blog

    背景: dbtを使っていてもER図は欲しい! どうやってER図を生成するか どうやってER図を見やすくするか まとめ 背景: dbtを使っていてもER図は欲しい! dbtはモデル間のリネージなど可視化が得意なツールではありますが、万能なわけではありません。モデルの生成過程などはリネージで担保できますが、分析時に「どれとどのモデルがJOINできて、JOINする際のキーはこれを使って」というER図で扱うような可視化はディフォルトではできません。 DWHを作っている側からすると「このテーブルはあの辺のテーブルと一緒に使うと便利で、いつもあのキーでJOINして」というのが頭の中に入っていることが多いため、ER図がなくてもどうにかなることも多いでしょう。しかし、分析に慣れていない人や分析に慣れている人であっても、普段と異なるドメインのテーブルを触るときはER図が提供してくれる情報は有用です。ちなみに

      dbtで見やすいER図を生成する - yasuhisa's blog
    • dbt導入によるデータマート整備 - ZOZO TECH BLOG

      はじめに こんにちは、ML・データ部推薦基盤ブロックの栁澤(@i_125)です。私はZOZOのデータ基盤におけるデータガバナンス強化を実現するために、Analytics Engineerとして複数の部門を跨ぐプロジェクトチームに参加しています。本記事ではZOZOにおけるデータガバナンス上の課題と、その課題の解決策の1つとしてdbtを導入した話をご紹介します。 目次 はじめに 目次 背景 課題 データマートの乱立 集計定義のばらつき 依存関係の洗い出しが困難 データモデリングツールの比較検討 データ変換に関する要件 データモデリングツールの選定 レイヤリングによる責務の分離 実装方針 今後の展望 dbtモデルを開発する上で工夫したこと 環境の分離 背景 工夫したこと ダミーデータセットの生成 背景 工夫したこと SQLFluffを使ったフォーマット統一 依存モデルを含むテスト dbt Doc

        dbt導入によるデータマート整備 - ZOZO TECH BLOG
      • dbtを導入して小規模チームでも運用可能なデータマネジメント体制を構築した話 - High Link テックブログ

        はじめに こんにちは。株式会社High Linkのデータユニットマネージャーの芦川 (@assy) です。 私たちのチームでは、データを強みとした事業価値創出を促進するために、データ基盤の整備やデータマネジメント、全社的なデータ利活用レベルの引き上げに取り組んでいます。 データマネジメントをしていると、「誰が作ったかわからない野良のテーブルが乱立している」ことや「BigQueryコンソール上でviewを定義してしまってコードレビューができない」さらには、「テーブル間の依存関係がわからず削除できない」といった課題にぶつかる方は多いんじゃないでしょうか。 私たちもまさにこのような問題に直面し、導入したのがdbtです。 今回は、dbtの導入に至る経緯や選定の理由、dbtをどう活用しているのかといった話を共有させて頂こうと思います。 私たちのようにデータマネジメントにがっつり人的リソースを割けない

          dbtを導入して小規模チームでも運用可能なデータマネジメント体制を構築した話 - High Link テックブログ
        • dbtで始めるデータパイプライン構築〜入門から実践〜

          事業会社においてBIやレポート用の分析を担当しているが以下のような状況に該当する人に向けたデータパイプライン構築の入門のための資料です 🧑🏻‍🦱「BigQuery等のView機能を活用しているが、データの流れを追うのが困難な状態になってしまっている、クエリの実行に時間がかかりBIツールが使いづらい」 👩🏻「専任のデータエンジニアがおらず、前処理をpython等で処理したりするのがリソース調整的に大変」 👱🏻‍♂️「ロードされたデータに重複があったり、過不足があったりしてデータの品質が担保できていない」 🧑🏻‍🦰「Digdagやluigiといったデータ変換ツールの独自の仕様を理解しきれておらず使いこなせていない」 ※現時点ではBigQueryを中心に記事を構成してあります、SnowflakeやAmazon Redshift等の様々な分析基盤でもdbtは対応可能です

            dbtで始めるデータパイプライン構築〜入門から実践〜
          • dbtを触ってみた感想 - yasuhisa's blog

            データエンジニア系の勉強会で最近dbtがぱらぱらと話題に出てくるようになった & 4連休ということで、夏休みの自由研究がてらdbtを触ってみました。書いてる人のバックグラウンドは以下の通り。 DWHやデータマートの構築のためのETLツールを模索中(特にTの部分) プライベートではDataformを使っている 前職でも仕事の一部で使っていた 開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog 定期バッチ処理はArgo Workflows on GKEでやっている 触ってみないと肌感とか自分で運用できるかのイメージが湧かないのでね。 Dataformとの比較 細かいノウハウ 手元や本番環境での動作 Argo Workflowとの連携 環境によってDWHの提供するバージョンを差し替える DWHやデータマートの外の情報をデータリネージに加える 既存

              dbtを触ってみた感想 - yasuhisa's blog
            • dbtを使ったELTデータパイプライン構築と運用事例 - DataEngineeringStudy #13

              DataEngineeringStudy #13に10Xの瀧本が登壇した際の資料です。

                dbtを使ったELTデータパイプライン構築と運用事例 - DataEngineeringStudy #13
              • 個人的なdbtの推しポイントを書いてみる - yasuhisa's blog

                dbtや同じ系統のDataformなど、ELTの特にTransform部分に強みを持つツールを使い始めて大体3年になる。主観だけど、それなりに使い倒している部類だと思う。 開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog dbtを触ってみた感想 - yasuhisa's blog dbt カテゴリーの記事一覧 - yasuhisa's blog これらのツールで巷でよく言われる データリネージの可視化ができる データに対するテストが簡単に書ける エンジニア以外の人ともコラボレーションしやすい あたりの話は耳にタコができるくらい聞いていると思うので、ニッチではあるもののそれ以外のdbtの個人的に推しなポイントをダラダラと書いてみたいと思う。データエンジニアやデータガバナンスを推進する人には共感してもらえる内容かもしれない。 推しポイント:

                  個人的なdbtの推しポイントを書いてみる - yasuhisa's blog
                • 全社横断データ基盤へdbt導入を進めている話 - Sansan Tech Blog

                  こんにちは。研究開発部 Architectグループの中村です。 本記事は Sansan Advent Calendar 2023 の16日目の記事です。 今回は、私達のチームで開発&運用している全社横断データ分析基盤のデータレイヤの再設計、及びdbtの導入を進めているという事例について紹介します。 既存のデータ基盤に対して、dbtの導入を検討されている方の参考になれば幸いです。 (本稿ではdbtとはについては触れませんので、ご了承ください) TL;DR 歴史的経緯 全社横断データ基盤が生まれる前 全社横断データ基盤 立ち上げ期 課題 立ち上げ期に作られたデータマートがカオスに・・・ 課題の解決に向けて データレイヤの再設計 Transformツールの選定 dbtへの移行戦略 その他dbt移行におけるTips チームでの開発の標準化 Cosmosの導入検証 データカタログのホスティング まと

                    全社横断データ基盤へdbt導入を進めている話 - Sansan Tech Blog
                  • 【連載】データ分析基盤をdbt・Snowflakeに移行する【設計・実装編】 - Algoage Tech Blog

                    こんにちは、Ops-dataチームの上村(@contradiction29) です。以前、弊社内で運用されているデータ分析基盤を移行するにあたり、設計の方針を練る記事を投稿しました。 tech.algoage.dmm.com 今回はその続きとして、移行プロジェクトの実際の進行に焦点を当てて記事を書いていきたいと思います。 はじめに これまでのあらすじ:運用していく中でつらみがたまってきた弊社のデータ分析基盤。開発しづらいし、運用もつらいし、何よりこのまま運用を続ければ確実に停止してしてしまう。End of Service Life (EOSL) は目前に迫っています。移行するしかない状況です。 とはいっても、単純に移行するだけでは、現場のアナリストやエンジニア、社内ユーザー、そしてその先にあるクライアントのニーズに応え、事業価値に貢献することはできません。真の「価値」に貢献するためには「思

                      【連載】データ分析基盤をdbt・Snowflakeに移行する【設計・実装編】 - Algoage Tech Blog
                    • マーケター自身がデータを管理するために、広告運用にdbtを導入した経緯と効果 - MonotaRO Tech Blog

                      こんにちは、マーケティング部門広告グループの小林です。この記事ではオンライン広告運用に使っているデータ変換処理をdbtに移行した過程と得られた効果についてご紹介します。 モノタロウでは、全社的なデータ活用研修などにより、マーケティングのようなビジネス系の部署でも、SQLを自身で書いてデータ抽出を行い、数字に基づいた意思決定を行っています。その一方で、集計後の数値のズレやドメイン固有のデータの品質管理など、活用が進んだ企業ならではの課題というのも表面化してくるようになってきました。 オンライン広告運用においては、投下した費用など配信実績のレポーティング、広告媒体へのデータ送信などのいわゆるELTを安定的に回す仕組みが必要になりますが、処理の自動化やデータの品質まで求められるようになると、「データが抽出できる」だけでは限界が見えてきていました。そこで今回、マーケター自身がデータを管理する立場に

                        マーケター自身がデータを管理するために、広告運用にdbtを導入した経緯と効果 - MonotaRO Tech Blog
                      • Terraformとdbtを活用してデータ基盤整備の生産性が向上した話

                        はじめに 私が所属しているライフイズテックのデータ基盤グループで、ここ2年ほどでdbtとterraformを活用してDataOpsを進め、データ基盤の整備の生産性が向上した話をまとめます。 導入前の状況と課題 弊社のデータ基盤ではデータ基盤が綺麗に整備されていることよりも、プロダクトや事業に貢献できているかを重要と考え、まずデータを使える状態にすることを目指したサービスの導入や基盤構築を行いました。 考え方としてはこちらの DWHにおけるデータモデリングで大事にしている考え方に書かれている内容に近い考え方になります。 そのため、データモデリングの前にRedashやCRM AnalyticsというBIツール向けにデータレイクからデータマートを先に構築していました。 terraformとdbt導入前は、図のような流れで SQLでSnowflake上にDBやスキーマなどを作成 ELTサービスとし

                          Terraformとdbtを活用してデータ基盤整備の生産性が向上した話
                        • dbt docsを使ったデータカタログの運用事例紹介

                          テストの完了をゴールにしない! ~仮説検証を繰り返し、開発・QA・ユーザーが交流しながら開発することで見えてくる理想の姿~ - #RSGT2024 #DevSumi / Shift left and Shift right

                            dbt docsを使ったデータカタログの運用事例紹介
                          • さようなら、謎の数値ズレ。dbtを活用してデータ品質管理をはじめよう

                            tl;drすべてのデータを高品質に保とうとしない。事業フェーズやプロダクト仕様、マネタイズ方法に応じて、品質を守るべきデータを明確に定義し、「品質が守られた箱の中の世界」を明確にする。データ品質維持の前提は、Single Source of Truth。SSOTなDWHを構築することとセットな取り組みであることが大切。データ品質管理のHowとしては、dbtがおすすめ。not_nullやrelationshipなどdbtがもつtest機能を活用し、データ品質監視を実現しよう。当然、dbtだけでは品質は守られない。Data Meshのような議論から運用体制を考えていく必要もある。聞こえのよい新しいものに踊らされる前に、着実に必要なデータ品質を守っていこうね。 こんにちは、こんばんは。Ubie Discoveryのsotaronです。データエンジニアをやったり、小倉唯さんのファンクラブ会員などを

                              さようなら、謎の数値ズレ。dbtを活用してデータ品質管理をはじめよう
                            • vscode-dbt-power-userでdbtの開発やレビューを効率化する - yasuhisa's blog

                              背景 vscode-dbt-power-userがよかったところ 定義にさっと行ける / 戻れる(Go to definitionが使える) VSCode内でモデル間のリネージが見れる VSCode内からdbtのモデルをさっと実行できる モデルファイルの単独の実行も簡単 コンパイル済みのSQLファイルをさっとプレビューできる まとめ 補足: vscode-dbt-power-userの導入方法 背景 dbtは前職時代から含めると二年以上使っていて、SQLでDWHやデータマートの開発をしようと思うともはやこれなしでは生きられないくらいには便利になっている。dbtがあっても大変なクエリは大変ではあるが、大変さは大分緩和してくれる。dbtがなくて、1つのSQLが1000行以上あり、中間クエリがテストもされていない、という状況はもう戻りたくない...。 dbtに限らずであるが、コードは書いていると

                                vscode-dbt-power-userでdbtの開発やレビューを効率化する - yasuhisa's blog
                              • データ品質を支えるdbt test ~Ubieの事例を添えて~

                                はじめに こんにちは。おきゆきです。現職のUbieでは、Data Analyst / Analytics Engineerとして働いています。(自己紹介ページとTwitterはこちらです) この記事は、dbt Advent Calendar 2022 5日目の記事 / Ubie Engineers & Designers Advent Calendar 2022 5日目の記事です。2つのアドベントカレンダーに関わる dbt×Ubieということで、Ubieの圧倒的なデータ品質を支えるdbt testの事例を紹介します。最近同僚の @jagabass から、Ubieでのデータ品質の重要性とdbtを用いたデータマネジメント領域のさまざまな課題解決事例が紹介されました。この記事は、より具体的なdbt testの例になるかと思います。 上記スライドで書いてあるUbieでのデータ品質の重要性を端的にい

                                  データ品質を支えるdbt test ~Ubieの事例を添えて~
                                • dbt (data build tool) を使ってデータをテストする - CUBE SUGAR CONTAINER

                                  ソフトウェアエンジニアリングの世界では、自動化されたテストを使ってコードの振る舞いを検証するのが当たり前になっている。 同じように、データエンジニアリングの世界でも、自動化されたテストを使ってデータの振る舞いを検証するのが望ましい。 データをテストするのに使える OSS のフレームワークも、いくつか存在する。 今回は、その中でも dbt (data build tool) を使ってデータをテストする方法について見ていく。 dbt 自体はデータのテストを主目的としたツールではないものの、テストに関する機能も備えている。 また、dbt には WebUI を備えたマネージドサービスとしての dbt Cloud と、CLI で操作するスタンドアロン版の dbt Core がある。 今回扱うのは後者の dbt Core になる。 使った環境は次のとおり。 $ sw_vers ProductName:

                                    dbt (data build tool) を使ってデータをテストする - CUBE SUGAR CONTAINER
                                  • データ変換処理をモダンな手法で開発できる「dbt」を使ってみた | DevelopersIO

                                    奈良県でリモートワーク中の玉井です。 日本では全くと言っていいほど知名度がありませんが、国外(アメリカ?)のデータ分析界隈では既にメジャーな存在になりつつある「dbt」(data build tool)について、ご紹介します。 dbtとは? 公式情報など 公式はこちら(ググラビリティが低い名前なので検索しづらい)。 (死ぬほどざっくりいうと)データ変換を効率よく実施できるツールです。SaaSとしての提供になっているので(最初からあったわけではなく、後から登場したようです)、Webブラウザさえあれば、すぐに利用することができます。 主な特徴 ELTの「T」を担当するツール データの前処理における作業をELT(Extract、Load、Transform)と呼称することがありますが、それの「T(変換)」を担当します。E(抽出)やL(ロード)はやりません。 そして、その変換処理をどうやって設定す

                                      データ変換処理をモダンな手法で開発できる「dbt」を使ってみた | DevelopersIO
                                    • dbt とは何をするツールなのか? | FLYWHEEL Tech ブログ

                                      こんにちは、ソフトウェアエンジニアの冨田です。 弊社では一部のプロジェクトで dbt (data build tool) の導入を始めました。私が初めて dbt を学んだときの感想は「結局何をしてくれるものかわからない」「何が嬉しいかよくわからない」といったものでした。dbt に少し触れ、同じ感想を抱いている方は多いのではないでしょうか。 本記事では dbt に興味があるがどんなツールか具体的にイメージできない読者を対象に、dbt が Modern Data Stack で果たす役割や dbt が行う処理の中身について紹介したいと思います。 なお、本記事は主に dbt CLI に焦点を当てて紹介しており、dbt Cloud 特有の機能や特徴については説明をしていません。 dbt とは何か?Modern Data Stack における位置づけdbt 自体の説明をする前に、近年広がってきている

                                        dbt とは何をするツールなのか? | FLYWHEEL Tech ブログ
                                      • dbtとDataformを比較し、dbtを使うことにした - Attsun blog

                                        TL;DRdbt, Dataformについて簡単に紹介dbtDataform比較対応するプラットフォーム主要な機能外部ツールとの接続性運用時のあれこれ両者のPros/Consまとめ私たちの選択どちらを使うべきなのか?選ばれたのは、dbtでしたまとめ最近、業務でDWH / Datamartの整備やデータ品質の担保を効率的に行いたくなる事情があり、調査したところdbtとDataformがツールとして有力そうだったので、比較してみました。 TL;DRdbtは機能が充実しており、カスタマイズするポイントも多く様々な要件に対応できそうです。反面、理解し使いこなすための学習コストがかかります。DataformはWebビューによる開発体験が非常に良いです。機能もほとんどはわかりやすく、迷うことも少ないです。一方、dbtに比較して融通はききづらいです。どちらも十分な機能は備えている素晴らしいツールだと感じ

                                        • Airflowの処理の一部をdbtに移行しようとして断念した話 - Classi開発者ブログ

                                          こんにちは、データプラットフォームチームでデータエンジニアをやっている滑川(@tomoyanamekawa)です。 以前紹介したデータ分析基盤であるソクラテスの改善のためにCloud Composer(Airflow)で行っている処理のdbtへの置き換えを検討しましたが、導入を見送りました。 調べてみてdbtに対するわかりみも深まったので、その供養のために検討内容を公開します。 同じように検討している方の参考になれば幸いです。 dbtとは DWH(Data Ware House)でのquery管理やデータの品質、データリネージの問題を解決してくれるツールです。 すでに先人たちがいろいろな記事を公開してくれているので、詳細は説明しませんがこちらの文がdbtをよく表しています。 ELTの「T」を担当するツール データの前処理における作業をELT(Extract、Load、Transform)と

                                            Airflowの処理の一部をdbtに移行しようとして断念した話 - Classi開発者ブログ
                                          • ディメンショナルモデリングに入門しよう!Snowflakeとdbt Cloudで「Building a Kimball dimensional model with dbt」をやってみた | DevelopersIO

                                            ディメンショナルモデリングに入門しよう!Snowflakeとdbt Cloudで「Building a Kimball dimensional model with dbt」をやってみた さがらです。 ここ2年ほどの間にdbtが日本でも急速に拡大し、様々な情報が日本語の記事でも見かけられるようになってきました。 dbtを採用してある程度活用を進めていくと、「より効率よくガバナンスを持ってデータを管理するにはどうすればいいんだろうか」といったデータの管理方法に悩む場面が出てくると思います。 そんなときに色々調べていくと、データを効率よく管理する手法として「データモデリング」が必要だとわかり、ディメンショナルモデリングやData Vaultなどの手法に行き着くのではないでしょうか。 そしてこれらのデータモデリングの手法の内、ディメンショナルモデリングについてdbtを用いて実践された記事がありま

                                              ディメンショナルモデリングに入門しよう!Snowflakeとdbt Cloudで「Building a Kimball dimensional model with dbt」をやってみた | DevelopersIO
                                            • dbt Labs のベストプラクティス全部違反してみた。そして dbt project evaluator を使って全部直してみた。

                                              dbt Labs のベストプラクティス全部違反してみた。そして dbt project evaluator を使って全部直してみた。 サマリ dbt Labs では、dbt のプロジェクト、並びに変換パイプラインに関するベストプラクティスを紹介しています。 さらに、いくつかのベストプラクティスについては、自動で評価可能な dbt project evaluator というツールも公開されています。 今回は、dbt project evaluator で評価可能な、20 個のベストプラクティスを全て「違反」した dbt プロジェクトを1から作成し、このツールを当てて評価した上で、修正をかけました。 実際にツールがうまく検知してくれるのかを確認し、検知された項目を修正する場合の手続きとその難所や、現実的な運用方法をまとめています。 ※この記事は dbtアドベントカレンダー2022 の 12/1

                                                dbt Labs のベストプラクティス全部違反してみた。そして dbt project evaluator を使って全部直してみた。
                                              • Snowflakeの力を引き出すためのdbtを活用したデータ基盤開発の全貌 - CARTA TECH BLOG

                                                当記事は、dbtのカレンダー | Advent Calendar 2023 - Qiita の23日目の記事です。 こんにちは、株式会社CARTA MARKETING FIRMのデータエンジニア、@pei0804です。データエンジニアリングのほか、組織運営やデータエンジニア育成にも携わっています。 本記事では、Snowflakeを中心とした当社のデータ基盤「Vision」と、その中核であるdbtの利用について深掘りします。dbtを活用することで、SQLのみでデータパイプラインを効率的に構築し、作業の効率化を図っています。 dbt導入の詳しい導入背景は以下のスライドでご覧いただけます:広告レポーティング基盤に、dbtを導入したら別物になった話 / tokyo-dbt-meetup-4 - Speaker Deck。 私たちのチームでは、ビジネスに直接価値を提供しているdbtモデルの開発はプロ

                                                  Snowflakeの力を引き出すためのdbtを活用したデータ基盤開発の全貌 - CARTA TECH BLOG
                                                • 今さら聞けないdbtの基本LT

                                                  dbt(data build tool)はもはやデータ領域ではデファクトスタンダードになりつつあります ここ1〜2年ぐらいで急速に発展したdbtですが、なんで使ってるの?なんでデファクト?とかって疑問あるかと思います。 なので社内勉強会向けに作ったdbtの基本のき 的なLTを作りましたので放流します!

                                                    今さら聞けないdbtの基本LT
                                                  • dbtでCIを実現するために、Github ActionsでAWSのVPC越えしたい。 - KAYAC engineers' blog

                                                    この記事はTech KAYAC Advent Calendar 2023の8日目の記事です。 こんにちわ。その他事業部SREチームの@mashiikeです。 最近、風変わりな記事を連投しているのですが、今回も風変わりです。 ひとことで要約すると、 私は!Github Actionsから!Redshiftにアクセスしたいんだ!!! です。 TL;DR dbtのCIを実現したい。ローカルのunit-testはできてるんだが、Github ActionsからRedshiftへのアクセスに難がある。 Github ActionsからRedshiftにアクセスするために頑張ってみた。 kayac/ecspressoで踏み台となるECS Taskを立ち上げる。 fujiwara/ecstaでportforwardingする。 mashiike/redshift-credentials で一時認証情報を

                                                      dbtでCIを実現するために、Github ActionsでAWSのVPC越えしたい。 - KAYAC engineers' blog
                                                    • dbtではじめる クエリの再利用と正確性の向上について

                                                      複雑なドメインを扱うプロダクトの探索フェーズではいつどのようにテストをするのか / How to testing during exploratory phase

                                                        dbtではじめる クエリの再利用と正確性の向上について
                                                      • dbtを活用したデータ基盤の 論理・物理設計の現在地と振り返り / data warehouse logic design by using dbt

                                                        dbtを活用したデータ基盤の 論理・物理設計の現在地と振り返り / data warehouse logic design by using dbt

                                                          dbtを活用したデータ基盤の 論理・物理設計の現在地と振り返り / data warehouse logic design by using dbt
                                                        • BigQueryにおけるdbtの増分更新についてまとめてみた - Timee Product Team Blog

                                                          はじめに ※Timeeのカレンダー | Advent Calendar 2023 - Qiitaの12月8日分の記事です。 okodooooooonです BigQueryの料金爆発。怖いですよね。 dbtでの開発が進んでたくさんのモデルを作るようになると、デイリーのビルドだけでも凄まじいお金が消えていったりします(僕はもう現職で数え切れないくらいやらかしてます)。 コストの対策として「パーティショニング」「クラスタリング」などが挙げられますが、今回は「増分更新」の観点で話せたらと思います。 「dbtのmaterialized=’incremental’って増分更新できておしゃれでかっこよくてコストもなんとなく軽くなりそう!」くらいの認識でさまざまな失敗を経てきた僕が、BigQueryにおけるincrementalの挙動を説明した上で、タイミーデータ基盤における増分更新の使い方についてまとめ

                                                            BigQueryにおけるdbtの増分更新についてまとめてみた - Timee Product Team Blog
                                                          • [レポート] Fivetran x BigQuery x dbt で実現する”モダン データスタック”の概要と導入事例 #GoogleCloudDay | DevelopersIO

                                                            2023年05月23日(火)〜25日(木)の3日間に渡って行われている『Google Cloud Day ’23 Tour』。 当エントリでは、23日に行われたセッション「Fivetran x BigQuery x dbt で実現する"モダン データスタック"の概要と導入事例」の内容をレポートします。 セッション概要 当セッションの概要情報は以下の通りです。 セッションタイトル: Fivetran x BigQuery x dbt で実現する"モダン データスタック"の概要と導入事例 登壇者: 瀬沼 裕樹氏(株式会社CloudFit 代表取締役) 林 祥子氏(Fivetran Inc. 営業 アカウント・エグゼクティブ) セッション概要: データ領域でトレンドになりつつある"モダン データスタック"。クラウド ネイティブな技術を利用することで、導入・運用コストを下げて、効率的にデータ活用を

                                                              [レポート] Fivetran x BigQuery x dbt で実現する”モダン データスタック”の概要と導入事例 #GoogleCloudDay | DevelopersIO
                                                            • データエンジニア界隈で話題のdbt(data build tool)のまとめ - Qiita

                                                              概要 データエンジニア界隈で話題となってきたdbtに関する調査内容を共有します。 OSS版のdbtでも機能が充実しており、データエンジニアの方には一部の機能の利用だけでも価値があるツールです。 必要に応じて、この記事を更新します。 dbt(Data Build Tool)とは dbtとはData Build Toolの略であり、dbt Labs社が開発しているデータ連携のELTにおけるT(データストア内でのデータ変換)の実施をサポートするツールです。 機能をざっくり整理すると下記のものがあり、SQL文のコンポーネント化やドキュメントの自動生成に特異性があります。 有償版であるdbt cloudとOSS版であるdbt Coreがあります。dbt cloudにて、developer版という個人検証用の無償ライセンスもあるので、とりあえず触りたい方はこちらがおすすめです。 引用元:dbt Pri

                                                                データエンジニア界隈で話題のdbt(data build tool)のまとめ - Qiita
                                                              • dbt snapshot から学ぶ Slowly Changing Dimension - Gunosyデータ分析ブログ

                                                                こんにちは、Gunosy Tech Lab DR&MLOps チームの楠です。 この記事は Gunosy Advent Calendar 2022 の 11 日目の記事です。 昨日の記事は UT@mocyuto さんの『RailsのフロントをReactへリファクタしたとき、スキーマをOpenAPIベースの自動生成にした話』でした。 この記事では、ELT パイプラインにおける Transformation ツールである dbt の snapshot という機能について紹介した後、snapshot の手法を一般化したディメンションモデリングにおける概念である Slowly Changing Dimension を包括的に紹介します。 はじめに dbt とは? dbt についての参考資料 dbt snapshot とは? どんなときに使える? dbt snapshot のまとめ dbt snap

                                                                  dbt snapshot から学ぶ Slowly Changing Dimension - Gunosyデータ分析ブログ
                                                                • dbt のデータモニタリングツール Elementary を使ってデータ品質管理を試してみた - Techtouch Developers Blog

                                                                  テックタッチアドベントカレンダー 13 日目を担当しますデータエンジニアの acchan です。 この間完全個室型のサウナに初めて行ってきまして、贅の極みを堪能してきました。みなさんもこの 1 年間頑張ってきた自分のご褒美にいかがでしょうか。 はじめに Elementaryとは チュートリアルをやってみる 下準備 パッケージのインストールと Elementary の初期設定 Elementary テストの追加 テストの実行とレポートの生成 Slack通知を試してみる さいごに はじめに 弊社では最近、データ分析基盤のモデリング用途として dbt を使い始めました。まだ間もないですが、モデルの共同開発が以前より活発になり、導入したことによるメリットが実感として現れつつあります。 しかし、作成されたモデルは本当に正しいデータを持っているのか?定義された指標通りに集計がされているのか?といった品

                                                                    dbt のデータモニタリングツール Elementary を使ってデータ品質管理を試してみた - Techtouch Developers Blog
                                                                  • dbtで管理しているデータの可用性をelementaryで分析する - yasuhisa's blog

                                                                    データの可用性を可視化したい データの可用性の解像度を上げたい: elementary-data elementaryによる細かい可視化 大雑把にデータセット単位で可用性を可視化したい まとめ データの可用性を可視化したい データ品質は正確性や最新性など様々な項目に分解することができますが、可用性(Availability)はその中でも基礎的な項目です。使いたいときにデータが使えないと困るので。 自分が所属しているチームはdbt(cli)およびdbt cloudを使っていますが、可用性を考えるのであれば cli: dbt runの実行結果 dbt cloud: Jobsの実行結果 をそれぞれ確認したり、こけているようであればアラートを飛ばすという運用が多いと思います。これだけだと「いつこけた」しか分からないので、Datadogを使って「いつこけた」「いつ復旧した」「こけて落ちていた時間はど

                                                                      dbtで管理しているデータの可用性をelementaryで分析する - yasuhisa's blog
                                                                    • データエンジニアリングの背景を踏まえてdbt(Data Build Tool)を少し深く理解してみる - Qiita

                                                                      概要 dbt(Data Build tool)を、前提知識となるデータエンジニアリングにおける現状を踏まえて、どういったツールであるかを説明します。dbtがデータエンジニアリングのあるべき姿としてデザインされており、共有されることが少ないデータエンジニアリングのナレッジを含むため、dbtを利用しない場合でも本記事の内容は有益な情報となっております。 dbtの概要については、下記の記事で整理しています。 データエンジニアリングの技術背景 ストレージコンピューティングの分離が可能なデータ処理エンジン(Spark、Presto等)がデータ分析基盤のデータストアとして用いられるようになってきています。従来であればデータレイクではデータの管理が困難であったが、レイクハウスフォーマット(Delta Lake、Hudi、Iceberg等)の開発によりデータレイクにACID特性を持たせられるようになり、デ

                                                                        データエンジニアリングの背景を踏まえてdbt(Data Build Tool)を少し深く理解してみる - Qiita
                                                                      • dbtのモデルとTableau上で使われているWorkbookの依存関係をexposureで表現して、データ管理を効率的に行なおう - yasuhisa's blog

                                                                        3行まとめ dbtのジョブが失敗した際やテーブルの廃止検討の際に、BI上のどのダッシュボードで利用されている(データリネージ)か知るのは重要です TableauのGraphQLのAPIからWorkbookとBigQuery上のモデルの埋め込みの関係を知ることができます dbtのモデルとTableau上で使われているWorkbookの依存関係をexposureとして出力するスクリプトにより、dbtのジョブの失敗やテーブルの廃止がTableauのダッシュボードに与える影響などを調べやすくなりました 3行まとめ 背景 課題: dbtのexposureとしてダッシュボードを手動で記入し続けるのは難しい 解決方法: TableauのGraphQLのAPIを使い、 dbtのexposureを自動生成する 発展的話題 背景 業務において、DWHやデータマートの生成にdbtを、BIツールとしてTablea

                                                                          dbtのモデルとTableau上で使われているWorkbookの依存関係をexposureで表現して、データ管理を効率的に行なおう - yasuhisa's blog
                                                                        • DuckDBとdbtとRillで作るローカルで動くDWHっぽいもの

                                                                          この記事はdbt Advent Calendar 2022の12月1日の記事です。 サマリ DuckDBとdbtを使えばローカル環境で一定のデータ量であればオレオレDWHっぽいものが作れるようになる 社内にデータ分析基盤がない、データ活用しようにもデータ基盤がなく本格的に取り組もうと思うとセキュリティや運用までかんがえると始めることすらままならないようなプロジェクトや会社でも始められる可能性がある MLのデータの前処理とdb Pythonモデルを使ってローカル環境で一定のクレンジングと前処理のパイプライン等も作れるかも? DuckDBとは? SQLiteをベースとした軽量で高速なOLAPデータベースです。 近年のPCのメモリ増加で16GBとか乗っていると数百万行ぐらいのデータでもローカルで高速に一定処理することが可能になってしまっています。 詳しくは @notrogue さんが書いた記事を

                                                                            DuckDBとdbtとRillで作るローカルで動くDWHっぽいもの
                                                                          • dbt Core を GCPのCloud Run JobsやBatchで実行する方法

                                                                            はじめに dbtを用いたデータ基盤運用がお盛んになったなと個人的に感じます。 よく記事で見かけるのが、DWH製品としてSnowFlake, そしてデータ変換にdbt Cloudでしょうか。 そして DWH製品としてSnowFlake, そしてデータ変換にdbt core を ECS Fargateに乗せてサーバレスにやる方法も最近記事で見ました。 あとは dbt core を AirFlow(Cloud ComposerやMWAA含む)で実行する方法もしばしばみかけます。 しかしどれも自分には、あまりFitしませんでした。なぜならば求めている要件としては以下だからです BigQueryの案件が多いのでBigQueryにクエリ投げれればOK 1日1回のバッチ回せれば良い スケジュール設定できればOK dbtドキュメントもみたい 無課金or微課金(ストレージ料やクエリスキャン料除く)ですませた

                                                                              dbt Core を GCPのCloud Run JobsやBatchで実行する方法
                                                                            • dbt exposureによるデータ基盤アウトプットの登録を自動化しました - Timee Product Team Blog

                                                                              はじめに 課題感・背景 使用しているBIツールについて BIツールの使用ボリューム感について やったこと:概要 やったこと:詳細 referenced tableにテーブル名ではなくdbtモデル名が入るようにしたことについて 各種アウトプットの公開設定をmeta情報として付与する方針としたことについて tagを追加してexposureの検索性を向上させたこと exposureのnameにシートとダッシュボードのタイトルを反映する方針にしたこと 今後の発展 保守運用の設計 カラムレベルリネージュ ✖️ exposure おわりに We're Hiring!! はじめに こんにちは。okodooonです!! データ基盤を参照したアウトプットが社内に溢れかえっていませんか? 弊社は追いきれていないLookerStudioやConnectedSheetがめちゃくちゃ溢れかえっていました。 そんな折

                                                                                dbt exposureによるデータ基盤アウトプットの登録を自動化しました - Timee Product Team Blog
                                                                              • dbt 入門

                                                                                dbt(data build tool)というアナリティクスエンジニアがデータ変換をデータウェアハウス(DW)でかんたんに行うためのツールについての本です。 dbt はいわゆる ELT(Extract, Load, Transform)の T を担当するツールで、データがすでに DW にロードされてる状況で使います。 いわゆるモダンデータスタック(MDS)を構成する技術スタックの一部に挙げられることが多くなってきています。 また dbt はアドホックなコードでカオスに陥ってしまいがちなアナリティクスエンジニアが、バージョン管理や CI などのメリットを享受しソフトウェアエンジニアのように働くための一助にもなり得るツールです。

                                                                                  dbt 入門
                                                                                • 【インターンレポート】LINEの大規模ETL batch pipelineにおけるdbtの導入によるデータ分析での課題解決の検証

                                                                                  LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog こんにちは、早稲田大学政治経済学経済学科 学部3年の滝田愛澄と申します。2023年8月7日から6週間、LINE株式会社のIU Data Connectチームにて、就業型インターンシップに参加させていただきました。本インターンでは、LINEの大規模ETL batch pipelineであるVinitusが現在抱えている課題を解決することを目的に、data build tool (dbt) の調査とdbtを用いた新たなworkflowのプロトタイプの設計・実装に取り組みました。このレポートでは、現在のVinitusが抱えている課題を確認し、dbtの導入によってどのようにそれらの課題を解決できるか、具体的にこのプロトタイプでは何をど

                                                                                    【インターンレポート】LINEの大規模ETL batch pipelineにおけるdbtの導入によるデータ分析での課題解決の検証