並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 155件

新着順 人気順

dbtの検索結果1 - 40 件 / 155件

  • 広告プロダクトにおけるデータ基盤の民主化 | CyberAgent Developers Blog

    協業リテールメディアdivでデータエンジニアをしている千葉です。 本日は、広告プロダクトにおけるデータ基盤を効率よく活用することを目指したこの1年間を振り返って、データ基盤から広告プロダクトの価値を高めるための試行錯誤をご紹介します。 目次 データ基盤の構成紹介 データ基盤の活用および運用方法 手動作業での事故が起きないCI/CD構築 実験ができる環境の提供 コストの確認および監視 定期的な棚卸し データ基盤の民主化をした結果と課題 まとめ データ基盤の構成紹介 以前弊社のイベントに登壇した際の設計思想をもとに構築をしています。 このデータ基盤の利用目的としては、各広告媒体の配信結果を分析するための基盤となっています。 基盤の構成としてはStorageにRaw Dataを格納し、Datalake、DWH,Datamartの3層構造で基盤を構築しています。 主に使用しているツール/サービスと

      広告プロダクトにおけるデータ基盤の民主化 | CyberAgent Developers Blog
    • dbt 基盤の開発フローを改善した話 - Yappli Tech Blog

      こんにちは!データサイエンスグループの山本です( @__Y4M4MOTO__ )です。 さて、ヤプリのデータサイエンスグループ(以下、DSグループ)では2023年から分析用データ基盤の dbt 移行に取り組んでいます。 dbt 移行に至った経緯などについては昨年開催された Yappli Tech Conference 2023 にて発表しているので、そちらをご覧いただければ幸いです。 tech.yappli.io dbt 移行に伴い、ヤプリの各種サービスが参照しているデータマートも dbt 移行後のものへ切り替えを行っています。 dbt 移行後の分析用データ基盤(以後、 dbt 基盤)の運用が本格化してきたことで、その開発フローの方も併せて改善していきました。 この記事では、その時の話について記したいと思います。 なお、開発フロー改善は分析ツール「 Yappli Analytics 」のデ

        dbt 基盤の開発フローを改善した話 - Yappli Tech Blog
      • 最近のデータカタログの各種機能の有無を確認してみた(2024年4月時点) | DevelopersIO

        さがらです。 ここ1~2年は新しい製品のリリースが落ち着いてきた印象ですが、Modern Data Stack界隈ではたくさんのデータカタログ製品が存在しています。 私も2年くらい前に色々触って調査したものの、この2年間での各製品のアップデートが凄まじく「どの製品がどの機能を持っているんだっけ…?」と知識が怪しくなってきてしまっている状況です。 そこで、今回改めて各製品の公式ドキュメントをベースに、最近のデータカタログの各種機能の有無を確認してみたので、本記事でまとめてみます。 ※注意事項:各製品のアップデートのスピードは本当に早いため、半年も経てば現時点で出来ていなかったことが出来ているようになっている可能性が高いです。最新の情報はご自身で確認の上、本記事は参考程度にご利用ください。 比較対象のデータカタログ 比較対象としては、以下のデータカタログを比較します。 SaaS Atlan S

          最近のデータカタログの各種機能の有無を確認してみた(2024年4月時点) | DevelopersIO
        • ストアドプロシージャからdbtへの移行手順 #dbt | DevelopersIO

          アライアンス事業部 エンジニアグループ モダンデータスタック(MDS)チームのしんやです。 以前執筆、公開した下記のエントリは、dbtでSELECT文以外のDML/DDLを扱う時に「こういう風にSELECT文に置き換えると良いですよ」という案内、紹介をするものでした。 この中で「ストアドプロシージャの移行」に関するトピックもあったのですが、このエントリ内では情報源の紹介のみに留まる形としており、詳細な内容の紹介はしていませんでした。 ですのでその部分の紹介を当エントリで進めていこうと思います。 目次 なぜストアド・プロシージャの代わりにdbtモデルを使うのか ストアドプロシージャの問題点とは 代替案としてdbtを検討する理由 ストアドプロシージャからdbtへの移行手法 ステップ0: dbtの仕組みを少し理解する ステップ1: dbtとストアドプロシージャの違いを理解する ステップ2: スト

            ストアドプロシージャからdbtへの移行手順 #dbt | DevelopersIO
          • Elementaryを用いたデータ品質の可視化とデータ基盤の運用改善

            Tokyo dbt Meetup #8での登壇資料になります。 - https://www.meetup.com/tokyo-dbt-meetup/events/299602585/

              Elementaryを用いたデータ品質の可視化とデータ基盤の運用改善
            • incrementalモデルの理解を深める

              2024年3月19日 Tokyo dbt meetup #8 で発表した資料です。 dbtのincrementalモデルについて、基本的な挙動から、dbtでどのような処理が行われているかの詳細まで網羅的に解説しました。

                incrementalモデルの理解を深める
              • dbt exposureによるデータ基盤アウトプットの登録を自動化しました - Timee Product Team Blog

                はじめに 課題感・背景 使用しているBIツールについて BIツールの使用ボリューム感について やったこと:概要 やったこと:詳細 referenced tableにテーブル名ではなくdbtモデル名が入るようにしたことについて 各種アウトプットの公開設定をmeta情報として付与する方針としたことについて tagを追加してexposureの検索性を向上させたこと exposureのnameにシートとダッシュボードのタイトルを反映する方針にしたこと 今後の発展 保守運用の設計 カラムレベルリネージュ ✖️ exposure おわりに We're Hiring!! はじめに こんにちは。okodooonです!! データ基盤を参照したアウトプットが社内に溢れかえっていませんか? 弊社は追いきれていないLookerStudioやConnectedSheetがめちゃくちゃ溢れかえっていました。 そんな折

                  dbt exposureによるデータ基盤アウトプットの登録を自動化しました - Timee Product Team Blog
                • データ分析基盤まとめ(随時更新)

                  はじめに データ分析基盤の資料を力尽きるまで追記していきます。 構成図にあるアイコンや記事の内容から技術要素を調べて記載していますが、不明分は未記載にしています。修正のコメント頂ければ助かります。 あと、この記事追加してっていう要望も歓迎いたします。 テンプレート 記事公開日 : 会社名(サービス名) データソース : データ処理 : アウトプット : 画像 URL 2025年 2024/03/14 : 株式会社エス・エム・エス(カイポケ) データソース : Amazon Aurora データ処理 : Datastream、BigQuery、dbt アウトプット : Looker Studio 2024/03/12 : 株式会社マイナビ データソース : SQL Server、Amazon S3 データ処理 : Embulk、Amazon MWAA、Apache Airflow、Snowf

                    データ分析基盤まとめ(随時更新)
                  • 【データ可視化/Streamlit】Streamlitで作ったアプリからSnowflakeのテーブルを自由に更新する方法 - Qiita

                    前置き こんにちは。データエンジニアの山口です! Streamlitでデータ可視化アプリを作成しており、 Streamlitアプリ上に手入力した値とSnowflake内の値を結合してデータを可視化したいなと思ったので、やり方を考えてみました。 結論 Streamlitアプリ上に手入力した値をSnowflakeのテーブルにデータを挿入・更新して、 すでにSnowflakeに入っているデータと結合すればいいのではないかと言う考えに至りました。 Streamlitのform_submit_button関数が使えそうだったので、そちらを使っていきます! 機能を実装する 早速機能を実装していきます! 前準備 まずはStreamlitから更新をするテーブルを用意しておきます。 今回は従業員マスターというテーブルを以下のクエリで作成して、 このテーブルの中にINSERT文などで、いくつか適当にデータを入

                      【データ可視化/Streamlit】Streamlitで作ったアプリからSnowflakeのテーブルを自由に更新する方法 - Qiita
                    • dbtをDagster Cloudでオーケストレーションする

                      2024-03-05 @Data Engineering Study #23 Data orchestration 特集

                        dbtをDagster Cloudでオーケストレーションする
                      • dbt導入によるデータマート整備 - ZOZO TECH BLOG

                        はじめに こんにちは、ML・データ部推薦基盤ブロックの栁澤(@i_125)です。私はZOZOのデータ基盤におけるデータガバナンス強化を実現するために、Analytics Engineerとして複数の部門を跨ぐプロジェクトチームに参加しています。本記事ではZOZOにおけるデータガバナンス上の課題と、その課題の解決策の1つとしてdbtを導入した話をご紹介します。 目次 はじめに 目次 背景 課題 データマートの乱立 集計定義のばらつき 依存関係の洗い出しが困難 データモデリングツールの比較検討 データ変換に関する要件 データモデリングツールの選定 レイヤリングによる責務の分離 実装方針 今後の展望 dbtモデルを開発する上で工夫したこと 環境の分離 背景 工夫したこと ダミーデータセットの生成 背景 工夫したこと SQLFluffを使ったフォーマット統一 依存モデルを含むテスト dbt Doc

                          dbt導入によるデータマート整備 - ZOZO TECH BLOG
                        • Terraformとdbtを活用してデータ基盤整備の生産性が向上した話

                          はじめに 私が所属しているライフイズテックのデータ基盤グループで、ここ2年ほどでdbtとterraformを活用してDataOpsを進め、データ基盤の整備の生産性が向上した話をまとめます。 導入前の状況と課題 弊社のデータ基盤ではデータ基盤が綺麗に整備されていることよりも、プロダクトや事業に貢献できているかを重要と考え、まずデータを使える状態にすることを目指したサービスの導入や基盤構築を行いました。 考え方としてはこちらの DWHにおけるデータモデリングで大事にしている考え方に書かれている内容に近い考え方になります。 そのため、データモデリングの前にRedashやCRM AnalyticsというBIツール向けにデータレイクからデータマートを先に構築していました。 terraformとdbt導入前は、図のような流れで SQLでSnowflake上にDBやスキーマなどを作成 ELTサービスとし

                            Terraformとdbtを活用してデータ基盤整備の生産性が向上した話
                          • 個人的なdbtの推しポイントを書いてみる - yasuhisa's blog

                            dbtや同じ系統のDataformなど、ELTの特にTransform部分に強みを持つツールを使い始めて大体3年になる。主観だけど、それなりに使い倒している部類だと思う。 開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog dbtを触ってみた感想 - yasuhisa's blog dbt カテゴリーの記事一覧 - yasuhisa's blog これらのツールで巷でよく言われる データリネージの可視化ができる データに対するテストが簡単に書ける エンジニア以外の人ともコラボレーションしやすい あたりの話は耳にタコができるくらい聞いていると思うので、ニッチではあるもののそれ以外のdbtの個人的に推しなポイントをダラダラと書いてみたいと思う。データエンジニアやデータガバナンスを推進する人には共感してもらえる内容かもしれない。 推しポイント:

                              個人的なdbtの推しポイントを書いてみる - yasuhisa's blog
                            • dbtで見やすいER図を生成する - yasuhisa's blog

                              背景: dbtを使っていてもER図は欲しい! どうやってER図を生成するか どうやってER図を見やすくするか まとめ 背景: dbtを使っていてもER図は欲しい! dbtはモデル間のリネージなど可視化が得意なツールではありますが、万能なわけではありません。モデルの生成過程などはリネージで担保できますが、分析時に「どれとどのモデルがJOINできて、JOINする際のキーはこれを使って」というER図で扱うような可視化はディフォルトではできません。 DWHを作っている側からすると「このテーブルはあの辺のテーブルと一緒に使うと便利で、いつもあのキーでJOINして」というのが頭の中に入っていることが多いため、ER図がなくてもどうにかなることも多いでしょう。しかし、分析に慣れていない人や分析に慣れている人であっても、普段と異なるドメインのテーブルを触るときはER図が提供してくれる情報は有用です。ちなみに

                                dbtで見やすいER図を生成する - yasuhisa's blog
                              • DWHにおけるデータモデリングで大事にしている考え方

                                こんにちは。データエンジニアリングの支援を行っているstable株式会社の代表の宮﨑(@ikki_mz)です。弊社では、クライアント社内のデータウェアハウス(DWH)におけるデータモデリングをサポート...

                                  DWHにおけるデータモデリングで大事にしている考え方 
                                • DWH改善に生かす! 入門elementary - yasuhisa's blog

                                  前提: これは何? dbtを使ったデータプロダクトを作っている社内のチームメンバー向けに書いた勉強会用のドキュメントです 社外に公開できるように少し抽象化して書いてます DWHに限らずdbtを使ったデータプロダクトで生かせる話ですが、分かりやすさのためにDWHを題材にしています 3行まとめ elementaryはdbtを利用しているデータパイプラインに対してData Observabilityを強化するツールであり、付属のリッチなレポートやSlachへのアラート通知が便利です しかし、実はelementaryが内部で生成している成果物はDWHの改善に役に立つものがたくさんあります 本エントリではelementaryの成果物や役に立つ実例を多めに紹介します 前提: これは何? 3行まとめ 背景: DWHとデータ品質 Observability / Data Observabilityについて

                                    DWH改善に生かす! 入門elementary - yasuhisa's blog
                                  • Snowflake & dbt Cloudハンズオン実践 #1: 『Snowflake環境準備』 #snowflakeDB #dbt | DevelopersIO

                                    アライアンス事業部 エンジニアグループ モダンデータスタック(MDS)チームの しんや です。 Snowflakeが展開しているサイト『Snowflake Quickstarts』では、Snowflake単体、またSnowflakeと他サービスとの連携について実戦形式で手を動かしながら学んでいけるコンテンツが多数公開されています。 その中の1つ『Accelerating Data Teams with Snowflake and dbt Cloud Hands On Lab(Snowflake と dbt Cloud ハンズオン ラボを使用してデータ チームを加速する)』は、dbt CloudとSnowflakeを連携させる形で、Snowflakeのデータを使ってdbt Cloudでデータ変換の処理を作り上げていく流れを学ぶことが出来る非常に参考になるコンテンツです。 当エントリ及び一連の

                                      Snowflake & dbt Cloudハンズオン実践 #1: 『Snowflake環境準備』 #snowflakeDB #dbt | DevelopersIO
                                    • dbt docs generateをDB接続なしで実行してみた | DevelopersIO

                                      はじめに データアナリティクス事業本部のおざわです。 今回はdbt docs generateでデータベースに接続せずにドキュメントを出力してみた結果を共有します。 今回使用したdbtのバージョンです。 ❯ dbt debug 02:00:02 Running with dbt=1.7.3 02:00:02 dbt version: 1.7.3 ...略... 02:00:03 adapter type: redshift 02:00:03 adapter version: 1.7.0 本記事ではRedshiftを使っていますが、他のDBでもドキュメントの生成自体は問題ないかと思います。 実行したコマンド データベース接続できない環境でも以下のコマンドでドキュメントを生成することができます。 dbt parse dbt docs generate --no-compile --empty-

                                        dbt docs generateをDB接続なしで実行してみた | DevelopersIO
                                      • 社内勉強会「Modern Data Stack入門」の内容をブログ化しました - PLAID engineer blog

                                        プレイドの社内向けに行ったModern Data Stack勉強会の内容が好評だったので、データ基盤に携わる方に向けてModern Data Stackの概要、主要サービス、重要だと思うトレンドをまとめました。

                                          社内勉強会「Modern Data Stack入門」の内容をブログ化しました - PLAID engineer blog
                                        • 今さら聞けないdbtの基本LT

                                          dbt(data build tool)はもはやデータ領域ではデファクトスタンダードになりつつあります ここ1〜2年ぐらいで急速に発展したdbtですが、なんで使ってるの?なんでデファクト?とかって疑問あるかと思います。 なので社内勉強会向けに作ったdbtの基本のき 的なLTを作りましたので放流します!

                                            今さら聞けないdbtの基本LT
                                          • ディメンショナルモデリングに入門しよう!Snowflakeとdbt Cloudで「Building a Kimball dimensional model with dbt」をやってみた | DevelopersIO

                                            ディメンショナルモデリングに入門しよう!Snowflakeとdbt Cloudで「Building a Kimball dimensional model with dbt」をやってみた さがらです。 ここ2年ほどの間にdbtが日本でも急速に拡大し、様々な情報が日本語の記事でも見かけられるようになってきました。 dbtを採用してある程度活用を進めていくと、「より効率よくガバナンスを持ってデータを管理するにはどうすればいいんだろうか」といったデータの管理方法に悩む場面が出てくると思います。 そんなときに色々調べていくと、データを効率よく管理する手法として「データモデリング」が必要だとわかり、ディメンショナルモデリングやData Vaultなどの手法に行き着くのではないでしょうか。 そしてこれらのデータモデリングの手法の内、ディメンショナルモデリングについてdbtを用いて実践された記事がありま

                                              ディメンショナルモデリングに入門しよう!Snowflakeとdbt Cloudで「Building a Kimball dimensional model with dbt」をやってみた | DevelopersIO
                                            • dbtのモデルとLooker Studioのレポートの依存関係をexposureで表現して、データ管理を効率的に行なおう - yasuhisa's blog

                                              シリーズの第三弾です。読者の宿題にしてたけど、誰も書いてくれなさそうだったので結局自分で書きました。 背景 Looker StudioはGoogle Workspaceを使っていれば基本的に無料で使えますし*1、権限管理にGoogle Groupとも連携できるので、人気のBIの一つだと思います。私が初めて触ったBIもLooker Studioだったので、(API強化して欲しいとか不満は山のようにありつつも)何だかんだで憎めないし、さっとダッシュボード作りたいときはLooker Studioを使うことが多いです。会社によっては社内の公式のダッシュボードをLooker Studioで作っているところもあると思います。 dbtで作ったテーブルがConnected Sheetsから参照されている場合、一定程度利用されているスプレッドシートからのテーブルの参照状況はデータ基盤を管理する人間としては把

                                                dbtのモデルとLooker Studioのレポートの依存関係をexposureで表現して、データ管理を効率的に行なおう - yasuhisa's blog
                                              • OpenMetadataとdbtによるデータカタログの構築

                                                No one is an island. Learnings from fostering a developers community.

                                                  OpenMetadataとdbtによるデータカタログの構築
                                                • Snowflakeの力を引き出すためのdbtを活用したデータ基盤開発の全貌 - CARTA TECH BLOG

                                                  当記事は、dbtのカレンダー | Advent Calendar 2023 - Qiita の23日目の記事です。 こんにちは、株式会社CARTA MARKETING FIRMのデータエンジニア、@pei0804です。データエンジニアリングのほか、組織運営やデータエンジニア育成にも携わっています。 本記事では、Snowflakeを中心とした当社のデータ基盤「Vision」と、その中核であるdbtの利用について深掘りします。dbtを活用することで、SQLのみでデータパイプラインを効率的に構築し、作業の効率化を図っています。 dbt導入の詳しい導入背景は以下のスライドでご覧いただけます:広告レポーティング基盤に、dbtを導入したら別物になった話 / tokyo-dbt-meetup-4 - Speaker Deck。 私たちのチームでは、ビジネスに直接価値を提供しているdbtモデルの開発はプロ

                                                    Snowflakeの力を引き出すためのdbtを活用したデータ基盤開発の全貌 - CARTA TECH BLOG
                                                  • 全社横断データ基盤へdbt導入を進めている話 - Sansan Tech Blog

                                                    こんにちは。研究開発部 Architectグループの中村です。 本記事は Sansan Advent Calendar 2023 の16日目の記事です。 今回は、私達のチームで開発&運用している全社横断データ分析基盤のデータレイヤの再設計、及びdbtの導入を進めているという事例について紹介します。 既存のデータ基盤に対して、dbtの導入を検討されている方の参考になれば幸いです。 (本稿ではdbtとはについては触れませんので、ご了承ください) TL;DR 歴史的経緯 全社横断データ基盤が生まれる前 全社横断データ基盤 立ち上げ期 課題 立ち上げ期に作られたデータマートがカオスに・・・ 課題の解決に向けて データレイヤの再設計 Transformツールの選定 dbtへの移行戦略 その他dbt移行におけるTips チームでの開発の標準化 Cosmosの導入検証 データカタログのホスティング まと

                                                      全社横断データ基盤へdbt導入を進めている話 - Sansan Tech Blog
                                                    • BigQueryにおけるdbtの増分更新についてまとめてみた - Timee Product Team Blog

                                                      はじめに ※Timeeのカレンダー | Advent Calendar 2023 - Qiitaの12月8日分の記事です。 okodooooooonです BigQueryの料金爆発。怖いですよね。 dbtでの開発が進んでたくさんのモデルを作るようになると、デイリーのビルドだけでも凄まじいお金が消えていったりします(僕はもう現職で数え切れないくらいやらかしてます)。 コストの対策として「パーティショニング」「クラスタリング」などが挙げられますが、今回は「増分更新」の観点で話せたらと思います。 「dbtのmaterialized=’incremental’って増分更新できておしゃれでかっこよくてコストもなんとなく軽くなりそう!」くらいの認識でさまざまな失敗を経てきた僕が、BigQueryにおけるincrementalの挙動を説明した上で、タイミーデータ基盤における増分更新の使い方についてまとめ

                                                        BigQueryにおけるdbtの増分更新についてまとめてみた - Timee Product Team Blog
                                                      • dbtでCIを実現するために、Github ActionsでAWSのVPC越えしたい。 - KAYAC engineers' blog

                                                        この記事はTech KAYAC Advent Calendar 2023の8日目の記事です。 こんにちわ。その他事業部SREチームの@mashiikeです。 最近、風変わりな記事を連投しているのですが、今回も風変わりです。 ひとことで要約すると、 私は!Github Actionsから!Redshiftにアクセスしたいんだ!!! です。 TL;DR dbtのCIを実現したい。ローカルのunit-testはできてるんだが、Github ActionsからRedshiftへのアクセスに難がある。 Github ActionsからRedshiftにアクセスするために頑張ってみた。 kayac/ecspressoで踏み台となるECS Taskを立ち上げる。 fujiwara/ecstaでportforwardingする。 mashiike/redshift-credentials で一時認証情報を

                                                          dbtでCIを実現するために、Github ActionsでAWSのVPC越えしたい。 - KAYAC engineers' blog
                                                        • dbtのテンプレートSQLをJinja2テンプレートで大量生成する話 〜クラシコム様での事例〜 - KAYAC engineers' blog

                                                          この記事はdbt Advent Calendar 2023の5日目です。 こんにちは、その他事業部SREチーム所属の@mashiikeです。 カヤックは様々な事業・プロジェクトを展開しておりますが、その一つとして『北欧、暮らしの道具店』を運営する株式会社クラシコムとの協業プロジェクトがあります。 www.kayac.com こちらのプロジェクトでは2019年より継続して、クラシコム様のデータ基盤の構築・運用のサポートの一部を行っております。 その中で、troccoのdbt連携機能を用いて、データの変換を実装しております。1 今回の記事は、同プロジェクトの中で行われた一風変わったdbtの活用例の紹介になります。 内容の関係上、予めLookerの用語と概念を知っていると読みやすいと思います。 cloud.google.com 背景 クラシコム様のデータ分析基盤では、ビジネスインテリジェンスにL

                                                            dbtのテンプレートSQLをJinja2テンプレートで大量生成する話 〜クラシコム様での事例〜 - KAYAC engineers' blog
                                                          • dbtのカレンダー | Advent Calendar 2023 - Qiita

                                                            dbt(data build tool)に関するアドベントカレンダーです。 dbtの導入事例や、テストやモデリングに関すること、ドキュメントやデータカタログやdbtと連携するツール等、dbtを中心とした話題であればなんでもOKです。 ぜひお気軽に投稿してください! edit_calendarHow to join the calendarYou can join the calendar by selecting an available date and registering the URL of the article you wish to link to. If a slot is available, you can go back to a past date to join!

                                                              dbtのカレンダー | Advent Calendar 2023 - Qiita
                                                            • 根っこから理解を深める dbt - Gunosyデータ分析ブログ

                                                              はじめに はじめに dbt はそもそもツールとして何を行なうか ELT における Transform について dbt が担っている機能 dbt は技術的にどのようにして Transform を実現しているか Jinja テンプレートによる SQL の生成 各種データ基盤に向けたデータ変換の手続きの抽象化 生成された SQL に基づくデータ変換の手続きの実行 さいごに DRE&MLOps チームの hyamamoto です。 最近は涼しくなってきて、秋の気配が感じられるようになってきましたね。 秋は一番好きな季節なので嬉しいです。 さて、今回は dbt について少し変わった切り口で紹介します。 今回の紹介において主眼に置きたいことは以下の内容です。 dbt はそもそもツールとして何を行なうか dbt は技術的にどのようにしてその機能を実現しているか その機能の結果 dbt はアプリケーショ

                                                                根っこから理解を深める dbt - Gunosyデータ分析ブログ
                                                              • 派生先テーブルの参照回数も考慮して安全にテーブルを撤退する - yasuhisa's blog

                                                                3行まとめ テーブルの撤退時にはテーブルの参照回数を見ることが多いと思いますが、テーブル単独の参照回数を見るだけだと不十分なことが多いです 派生先のテーブルの参照回数まで考慮すると、テーブルが撤退できるか安全に判断することができます リネージ上の親子関係をWITH RECURSIVEで考慮しながら、累積参照回数をSQLで導出できるようにし、安全にテーブル撤退を判断できるようにしました 3行まとめ 背景: テーブルの撤退にはテーブル単独の参照回数を見るだけだと不十分 アイディア: 累積参照回数を計算する 実装 テーブル間の親子関係を抽出する WITH RECURSIVEでテーブルの親子関係を辿る テーブルの親子関係を考慮しながら、累積参照回数を計算する まとめ 背景: テーブルの撤退にはテーブル単独の参照回数を見るだけだと不十分 データエンジニアやアナリティクスエンジニアの仕事をしていると、

                                                                  派生先テーブルの参照回数も考慮して安全にテーブルを撤退する - yasuhisa's blog
                                                                • dbtのモデルとTableau上で使われているWorkbookの依存関係をexposureで表現して、データ管理を効率的に行なおう - yasuhisa's blog

                                                                  3行まとめ dbtのジョブが失敗した際やテーブルの廃止検討の際に、BI上のどのダッシュボードで利用されている(データリネージ)か知るのは重要です TableauのGraphQLのAPIからWorkbookとBigQuery上のモデルの埋め込みの関係を知ることができます dbtのモデルとTableau上で使われているWorkbookの依存関係をexposureとして出力するスクリプトにより、dbtのジョブの失敗やテーブルの廃止がTableauのダッシュボードに与える影響などを調べやすくなりました 3行まとめ 背景 課題: dbtのexposureとしてダッシュボードを手動で記入し続けるのは難しい 解決方法: TableauのGraphQLのAPIを使い、 dbtのexposureを自動生成する 発展的話題 背景 業務において、DWHやデータマートの生成にdbtを、BIツールとしてTablea

                                                                    dbtのモデルとTableau上で使われているWorkbookの依存関係をexposureで表現して、データ管理を効率的に行なおう - yasuhisa's blog
                                                                  • 【連載】データ分析基盤をdbt・Snowflakeに移行する【設計・実装編】 - Algoage Tech Blog

                                                                    こんにちは、Ops-dataチームの上村(@contradiction29) です。以前、弊社内で運用されているデータ分析基盤を移行するにあたり、設計の方針を練る記事を投稿しました。 tech.algoage.dmm.com 今回はその続きとして、移行プロジェクトの実際の進行に焦点を当てて記事を書いていきたいと思います。 はじめに これまでのあらすじ:運用していく中でつらみがたまってきた弊社のデータ分析基盤。開発しづらいし、運用もつらいし、何よりこのまま運用を続ければ確実に停止してしてしまう。End of Service Life (EOSL) は目前に迫っています。移行するしかない状況です。 とはいっても、単純に移行するだけでは、現場のアナリストやエンジニア、社内ユーザー、そしてその先にあるクライアントのニーズに応え、事業価値に貢献することはできません。真の「価値」に貢献するためには「思

                                                                      【連載】データ分析基盤をdbt・Snowflakeに移行する【設計・実装編】 - Algoage Tech Blog
                                                                    • dbt Coreとdbt Cloudの関係性・違いなどについてまとめてみた #dbt | DevelopersIO

                                                                      アライアンス事業部 エンジニアグループ モダンデータスタック(MDS)チームの しんや です。 モダンデータスタック(MDS)におけるデータ変換処理、ELTデータパイプラインのアプローチにおける「T(Transform)」の部分をカバーするサービスである「dbt」(正式名称:data build tool)は、大きく分けて2つのプロダクトによって構成されています。それが「dbt Core」と「dbt Cloud」です。 当エントリでは、この2つのプロダクト「dbt Core」と「dbt Cloud」について、それぞれがどういう特徴を備えているのか、またそれぞれのプロダクトの違いについて要点を整理しながら見ていこうと思います。 目次 超基本的な部分の違い dbt Coreで出来ること dbt Cloudで出来ること 構成・実行イメージ(の違い) 機能・環境・ケースにおける違い クラウド統合開

                                                                        dbt Coreとdbt Cloudの関係性・違いなどについてまとめてみた #dbt | DevelopersIO
                                                                      • 【インターンレポート】LINEの大規模ETL batch pipelineにおけるdbtの導入によるデータ分析での課題解決の検証

                                                                        LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog こんにちは、早稲田大学政治経済学経済学科 学部3年の滝田愛澄と申します。2023年8月7日から6週間、LINE株式会社のIU Data Connectチームにて、就業型インターンシップに参加させていただきました。本インターンでは、LINEの大規模ETL batch pipelineであるVinitusが現在抱えている課題を解決することを目的に、data build tool (dbt) の調査とdbtを用いた新たなworkflowのプロトタイプの設計・実装に取り組みました。このレポートでは、現在のVinitusが抱えている課題を確認し、dbtの導入によってどのようにそれらの課題を解決できるか、具体的にこのプロトタイプでは何をど

                                                                          【インターンレポート】LINEの大規模ETL batch pipelineにおけるdbtの導入によるデータ分析での課題解決の検証
                                                                        • dbtプロジェクト構築に関する ベストプラクティス #1「概要」 #dbt | DevelopersIO

                                                                          アライアンス事業部 エンジニアグループ モダンデータスタック(MDS)チームのしんやです。 dbtはクラウド型データウェアハウス(DWH)におけるデータ変換に特化したツールです。非常に使い勝手が良く便利なツールである一方、様々な機能が提供されているのでいざ使ってみよう!となると『何をどうやって作り上げていけば良いんだろう?』『この場合のルールや制限はどういうものがあるの?どういう取り決めをもって扱えば良いんだろう?』という風に思うこともあるかと思います。(実際私自身そう感じました) そんなユーザーの疑問や悩みを解決する、いわゆるdbtユーザー向けのガードレール的な存在となりうるコンテンツがdbt社から展開されています。それが『dbtベストプラクティスガイド(Best practice guides)』です。構造、スタイル、セットアップなど、dbt Labsの現在の視点を通した「ベストプラク

                                                                            dbtプロジェクト構築に関する ベストプラクティス #1「概要」 #dbt | DevelopersIO
                                                                          • dbtで管理しているデータの可用性をelementaryで分析する - yasuhisa's blog

                                                                            データの可用性を可視化したい データの可用性の解像度を上げたい: elementary-data elementaryによる細かい可視化 大雑把にデータセット単位で可用性を可視化したい まとめ データの可用性を可視化したい データ品質は正確性や最新性など様々な項目に分解することができますが、可用性(Availability)はその中でも基礎的な項目です。使いたいときにデータが使えないと困るので。 自分が所属しているチームはdbt(cli)およびdbt cloudを使っていますが、可用性を考えるのであれば cli: dbt runの実行結果 dbt cloud: Jobsの実行結果 をそれぞれ確認したり、こけているようであればアラートを飛ばすという運用が多いと思います。これだけだと「いつこけた」しか分からないので、Datadogを使って「いつこけた」「いつ復旧した」「こけて落ちていた時間はど

                                                                              dbtで管理しているデータの可用性をelementaryで分析する - yasuhisa's blog
                                                                            • クラスメソッド データアナリティクス通信(AWSデータ分析編) – 2023年7~9月合併号 | DevelopersIO

                                                                              データアナリティクス事業本部 コンサルティングチームの石川です。コンサルティングチームメンバーを中心に、日々AWSのアナリティクス関連サービスのアップデートとそのブログを追っています。 先月、先々月は業務多忙のため、合併号とさせていただきます。(ゴメンナサイ m(_ _)m) Amazon Redshiftは、Redshift Serverlessのスケジューラやシングルサインオンの対応、 Amazon Forecastとの統合、QUALIFY句のサポートを開始しました。AWS Glueは、AWS Glue for RayがGAになった他に、AWS Glue for Apache Spark 向け Snowflake 接続の一般提供開始、Amazon CodeWhisperer をサポートするようになりました。Amazon QuickSightは、CI/CDを可能にするアセットのデプロイを

                                                                                クラスメソッド データアナリティクス通信(AWSデータ分析編) – 2023年7~9月合併号 | DevelopersIO
                                                                              • [動画公開] Amazon Athena (Iceberg) x dbt ではじめるデータ分析! #ちょっぴりDD | DevelopersIO

                                                                                [動画公開] Amazon Athena (Iceberg) x dbt ではじめるデータ分析! #ちょっぴりDD データアナリティクス事業本部のコンサルティングチームの石川です。AWS主催のオンラインカンファレンス、ちょっぴり DiveDeep する AWS の時間にて「Amazon Athena (Iceberg) x dbt ではじめるデータ分析!」というテーマにて登壇しました。セッション動画と資料が公開されました。 セッション概要 コンサルティングチームでは、Amazon RedshiftやSnowflakeと「dbt」を用いたサーバレスなデータプラットフォームである「dbt-template」ソリューションと、コンサルティングサービスをご提供しております。今回は、「dbt-template」のAmazon Athena対応で得られた技術調査の結果と、テーブルフォーマット「Iceb

                                                                                  [動画公開] Amazon Athena (Iceberg) x dbt ではじめるデータ分析! #ちょっぴりDD | DevelopersIO
                                                                                • dbtの公式入門ドキュメント『Quickstart for dbt Core from a manual install』を実践してみた #dbt | DevelopersIO

                                                                                  dbtの公式入門ドキュメント『Quickstart for dbt Core from a manual install』を実践してみた #dbt 直近、dbtのQuickstartシリーズで以下2本のエントリを公開しましたが、いずれもdbt Cloudに関するものでした。 dbtではその他に大きなプロダクトの柱がもう1つ存在します。それが『dbt Core』です。コマンドラインベースのオープンソースプロダクト(無償)でdbtの各種操作をCLIで実行します。当エントリではdbt Coreのクイックスタートチュートリアルとして用意されている『Quickstart for dbt Core from a manual install』の実践内容をお届けします。 目次 01.はじめに dbt Coreをローカル環境にインストール 接続検証用のBigQuery環境を準備 接続検証用のGitリポジト

                                                                                    dbtの公式入門ドキュメント『Quickstart for dbt Core from a manual install』を実践してみた #dbt | DevelopersIO