[B! dwh][workflow] sh19910711のブックマーク

Cube Coreでセマンティックレイヤーを体験する - Qiita

最近話題になっているセマンティックレイヤーを自分も触れてみようと思って、オープンソースである Cube Core を試してみようと思います。 1. セマンティックレイヤーとはざっくり言うと、以下の特徴を持つ機能と理解しています。データモデルやビジネスロジック（KPI 算出ロジックなど）の一元提供データを利活用する様々な BI ツールや分析ツール、プログラムにデータモデルとビジネスロジックを一元的に提供することで、レポートや分析結果の信頼性を向上させます。データモデルやビジネスロジックの管理がコードベースで可能これにより、バージョン管理や CI/CD などの実現を容易にします。詳しい説明は以下がとても分かりやすいです。 2. Cube Core とはセマンティックレイヤーと言うと dbt Semantic Layer が一番有名な気がしますが、これは dbt Cloud（Saa

sh19910711 2024/06/03

"データモデルやビジネスロジックの一元提供 + データがどのような DB やサービスなどに保存されていても、同じインターフェースでアクセス / Cube Core: データを REST/GraphQL API や SQL API で提供可能 + SQL API は PostgreSQL 互換"

リンク

dbtを導入した話、そしてClassiのデータ基盤「ソクラテス」の現在地 - Classi開発者ブログ

こんにちは、データプラットフォームチームの鳥山（@to_lz1）です。 Classiでは、2019年ごろからデータ基盤に「ソクラテス」の愛称をつけて運用を続けています。初期の構成は2021年に書かれたエントリ*1にも詳しいですが、数年の間に進化したことも増えてきました。大きな変化の一例として、最近、私たちのチームではdbt*2を導入してジョブ間の依存管理やメタデータの管理を改善しました。本記事ではこの取り組みをピックアップして紹介します。また、進化したソクラテスの構成図をアップデートするとともに、Classiデータプラットフォームチームの最新版の雰囲気もお伝えできればと思います。 dbt移行前の構成ジョブ間の依存管理がつらいメタデータの管理がつらい過去との差分と、移行への機運周辺ツールのエコシステムが整ったエンジニア以外のメンバーがPull Requestを出すことが減った

sh19910711 2024/05/30

"dbt導入以前のジョブはCloud Composer（Airflow）が提供するOperatorが担っており / クエリの依存関係を以下のようなyamlの設定ファイルに書いて対応 / データだけでなくメタデータもきちんと移植できているか"

リンク

データカタログの最初の一歩〜データ組織向けに dbt docs を整備している話〜 / Maintaining dbt docs for data organizations

sh19910711 2024/05/28

"データ関係の仕様書があちこちに分散 + クエリを直接読まないと分からない / 早めにデータカタログとしての場所だけ作って運用 + テーブル、クエリ、リネージグラフがサクッと確認できるだけでも十分"

リンク

dbt exposureによるデータ基盤アウトプットの登録を自動化しました - Timee Product Team Blog

はじめに課題感・背景使用しているBIツールについて BIツールの使用ボリューム感についてやったこと：概要やったこと：詳細 referenced tableにテーブル名ではなくdbtモデル名が入るようにしたことについて各種アウトプットの公開設定をmeta情報として付与する方針としたことについて tagを追加してexposureの検索性を向上させたこと exposureのnameにシートとダッシュボードのタイトルを反映する方針にしたこと今後の発展保守運用の設計カラムレベルリネージュ ✖️ exposure おわりに We're Hiring!! はじめにこんにちは。okodooonです！！データ基盤を参照したアウトプットが社内に溢れかえっていませんか？弊社は追いきれていないLookerStudioやConnectedSheetがめちゃくちゃ溢れかえっていました。そんな折

sh19910711 2024/05/26

"exposure: スネークケースにしなくても日本語名でも通ります + データリネージュの可視性を高めるためにLookerStudioとコネクテッドシートのタイトルをnameに含む形で設定している"

リンク

Dataformを使ってデータ分析基盤を構築した話 - Leverages データ戦略ブログ

はじめにこんにちは。レバレジーズデータ戦略室の辰野です。前回の投稿からいつの間にか1年以上経過していました。引き続きデータマネジメントやデータガバナンスに関連する仕事をしていたのですが、今回は私が昨年度末に取り組んだ、Dataformを利用したデータ分析基盤の構築についてお話させていただきます。 Dataformとは Dataformとは、現在Google Cloudで利用できるデータモデリングツールの一つです。ELT（抽出、読み込み、変換）処理における、T（変換）の部分を管理できます。主な機能として、下記があります。 SQLワークフローを開発、実行できるテーブル同士の依存関係を管理できるテーブルの品質テストができるこれらの機能を利用することで、すべてのデータプロセスを管理することが可能です。（参考：Google Cloud,Dataform の概要） Dataformを導入

sh19910711 2024/05/06

"人事の採用管理システムをリプレイスするプロジェクト / 元々、採用データを専任で管理しているメンバーがいなかった / 採用に関するローデータ保管から、BIツールへ接続させるまで全てGoogle Cloudのサービスで完結" 2023

リンク

Dataformでコンパイル変数を使ってみた | DevelopersIO

WorkflowsからDataformの起動方法を検証してみました。Dataformタグ指定、コンパイル変数のWorkflowsからの上書きができるか、もあわせて検証してみました。データアナリティクス事業本部の根本です。Dataformを使っていて、呼び出しもと(Workflowsとか)から動的に値を変えてDataformを呼び出すことができたらいいなと思い調べてみたらコンパイル変数を用いたらできたので記事にしてみました。この記事の対象者 Dataformでコンパイル変数を使ってみたいひと前提条件 Dataformのワークスペースやリポジトリが存在する、使えること検証の全体像コンパイル変数をdataform.jsonで指定して動作するか確認 APIでDataformを実行するときにコンパイル変数の値を上書きして動作するか確認上記2つの検証をしていきます。やってみるそれでは早

sh19910711 2024/05/03

"${dataform.projectConfig.vars.変数名}で、dataform.jsonで定義したコンパイル変数を取得 / APIでコンパイル変数を上書きしてDataformワークフローを実行 / 日付を指定したり、前工程の処理結果を指定したり、環境(prod,stg)を指定したり"

リンク

[レポート] データウェアハウスを製品として捉える〜設計から実現までの一貫した流れ #dbtCoalesce #Coalesce23 | DevelopersIO

[レポート] データウェアハウスを製品として捉える〜設計から実現までの一貫した流れ #dbtCoalesce #Coalesce23 大阪オフィスの玉井です。米国時間2023年10月16日〜19日、イベント『Coalesce 2023』が開催されました。主催はdbt labs社です。本記事は、その中で発表されたData warehouse as a product: Design to delivery（データウェアハウスを製品として捉える：設計から実現までの一貫した流れ）というセッションについて、レポートをお届け致します。セッション概要登壇者 Lance Witheridge, Data Modernisation Lead, Trade Me 超概要社内のデータ分析基盤をクラウド化しようとしたが、うまくいかず、抜本的な再設計を行った話です。その際、DWH（のデータ）を製品・プ

sh19910711 2024/05/02

"ユーザーが抱える課題を理解し、それに対してどのように最善のサービスを提供できるかを考える / PoCとして始まったシステムがビジネス上不可欠なものに / データは全て生のままストア + 後から必要なものを選別" 2023

リンク

BigQuery DataFrames と Vertex AI Pipelines による機械学習パイプライン構築

はじめにこんにちは、クラウドエースデータソリューション部の松本です。普段は、データ基盤や MLOps を構築したり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。クラウドエースデータソリューション部についてクラウドエースのIT エンジニアリングを担うシステム開発統括部の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのがデータソリューション部です。弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があればエントリーをお待ちしております！今回は、BigQuery DataFrames と Vertex AI Pipelines による機械学習パイプライン構築方法について、ご紹介いたします。この記事はこんな人にオススメ機械学習パイプラインにおける実行基盤を検討さ

sh19910711 2024/05/01

"Vertex AI Pipelines: Vertex ML Metadata を使用してアーティファクトに関するメタデータの追跡が可能 / bigframes.ml の register 関数により、訓練したモデルを Vertex AI Model Registory に登録"

リンク

SnowflakeネイティブなMLパイプライン

この記事は Snowflake Advent Calendar 2023 Series 2 の 22日目です。はじめに SnowflakeSummit 2023やSnowday2023ではML関連機能が多く発表されました． Snowpark ML Modeling API (PuPr) Snowpark ML Preprocessing API (PuPr) Snowpark ML Operations API (PrPr) Snowpark Container Services (PrPr) Snowflake FeatureStore (PrPr) Snowflake Cortex (PrPr) Snowflake Notebook (PrPr) とは言うものの，SnowflakeでML実践している事例をあまり聞くことがないので，現状どこまで可能か試してみました．目指すアーキテクチャ

sh19910711 2024/04/27

"SnowflakeSummit2023やSnowday2023ではML関連機能が多く発表 / とは言うものの，SnowflakeでML実践している事例をあまり聞くことがない / 前処理で実施できることが限定的 + ハイパーパラメータの探索が効率的ではなかったりする" 2023

リンク

初手BQMLのメリデメ

概要スタートアップで初めて機械学習を用いた予測システムをデプロイするときにBigQueryMLを採用したので、やったこととメリデメを整理する。背景・課題機械学習を用いて需要予測を行うシステムをデプロイしたい予測システムの導入は初めてなので、現在簡単にデプロイできるような体制はない dbtでデータ基盤を管理している予測モデルがワークするか確かめられるまでは、リッチなシステム構築は避けたいやったこと BigQueryMLを用いて、学習・モデルデプロイ・予測を行うシステムを組んだ https://cloud.google.com/bigquery/docs/bqml-introduction?hl=ja あらかじめデータ基盤やジョブスケジューリング機能を作れていたので、実装自体は調査含めて4日くらいでできたシステム構成・データ処理はdbtで管理する。これにより異常データなどが入っ

sh19910711 2024/04/27

"BigQuery ML + dbt_ml: 学習結果がvertex aiで自動的に表示されるため、性能指標のモニタリングについてゼロから開発する必要がない + データをBigQuery外に出すことなく、学習・予測が完了 / model_registryでvertex aiを指定"

リンク

dbtからSnowflake Dynamic Tablesを作成してリアルタイムデータパイプラインを構築してみる

これは何？こんにちは。 dely株式会社でデータエンジニアをしておりますharry(@gappy50)です。この記事は、昨年書いた以下の記事の続きの記事になります。 SnowflakeではDynamic TablesのPuPrが開始されており、宣言的なデータパイプラインの全貌徐々に見え隠れしております。また、これに追従する形でdbt1.6でもMaterialized View（SnowflakeではDynamic Table）をサポートしはじめました。このDynamic Tablesのメリットとして一番わかりやすいのは、ニアリアルタイムなストリーミングパイプラインをクエリを書くだけで実現が可能になる面だと思います。これまではモデルを作成したあとのワークロードの実行は dbt build を実行するタイミングとなってしまうため、リアルタイムなデータパイプラインの構築が難しい側面があ

sh19910711 2024/04/23

"宣言的なデータパイプラインの全貌徐々に見え隠れ + これに追従する形でdbt1.6でもMaterialized View（SnowflakeではDynamic Table）をサポート / ニアリアルタイムなストリーミングパイプラインをクエリを書くだけで実現" 2023

リンク

Google Cloud Next’24で発表されたBigQueryのアップデート情報をまとめました | DevelopersIO

Google CLoudデータエンジニアのはんざわです。 Google Cloud Next'24において、各サービスで多数のアップデート情報が紹介されました。この記事では、BigQueryのアップデート情報、特にデータエンジニア向けの情報をまとめて紹介したいと思います！新機能が発表されたセッションとその内容を簡単に紹介していきます！気になる内容があった方は是非、YouTubeの動画を確認してみてください。注意点本記事の内容にBigQuery ML関連のサービスは含まれていません。不足している情報があれば随時更新します... 2024年4月13日時点では、Google Cloud Next'24で発表された機能のほとんどがリリースノートやドキュメントに反映されていません。そのため今後変更される可能性がありますので注意してください。 Build a unified, open,

sh19910711 2024/04/14

"BigQuery workflows: SQLクエリや後述するdata canvas、data preparationなどの各タスクをワークフローとしてスケジュール実行 + ワークフローをDataformやCloud Composerにエクスポートすることも可能"

リンク

Findyデータ基盤のアーキテクチャと技術スタック - Findy Tech Blog

1. はじめに Findyでデータエンジニアとして働いているひらき（hiracky16）です。この記事ではFindyで取り組んでいるデータ基盤について紹介します。 Findyでは2023年からデータエンジニアを採用し本格的にデータ基盤構築に着手しています。これまではBigQuery（Google Cloud）を中心としたデータ蓄積・利活用をしていました。今後もっとデータ分析、機械学習などのデータ利用を加速するためにデータマネジメントが不可欠だと考えており、データエンジニアを採用しています。まだ1人目のデータエンジニアがジョインしてから半年間くらいの取り組みですが、現時点のアーキテクチャや技術スタック、伸びしろや展望などを記します。 1. はじめに 2. これまでのデータ基盤の伸びしろ 3. 現状のデータ基盤アーキテクチャ 3.1. 本番環境のIaC化と開発環境の準備 3.2. デ

sh19910711 2024/03/26

"dbtにクエリや知識を集約させるべくBigQueryのユーザーを巻き込み利用を促していましたが、なかなかモデル（テーブル）の数が増えませんでした / Dataformはブラウザで完結しBigQueryのメニューにある"

リンク

dataformからdbtに移行するために調べたこと - Retty Tech Blog

コトの発端実現したい分析基盤 Rettyの分析基盤 dbtにまとめて、こうしたい dataformでやっていたこと使ったdbtの機能は、incrimental modelのThe insert_overwrite strategy 実際にやったコト merge intoで指定する任意のパーティション設定 incremental modelのinsert_overwriteの設定 incremental時のwhere句感想サンプルコード挙動 N日に実行 N+1日に実行この記事Retty Advent Calendar 2023 - Adventarの24日目の記事です。 2023年4月に入社した土田です。コトの発端こんなメールが来た。半年後にdeprecated。まじか。実現したい分析基盤前述の通りRettyではdataformを使って、DWH内の物理テーブルを更新し

sh19910711 2024/03/10

旧dataform => dbt / "分析基盤はdbtでデータガバナンスをしていることからdbtでできるならdbtに移行しよう！となりました / on_schema_changeを設定すると、schemaが変更されたことをエラーで教えてくれる" 2023

リンク

SQLMeshが提供するVirtual Data Environments(データ環境の仮想化)を体験してみた

はじめに開発・運用のコストを最小限にしつつDev・Staging・Prodをシームレスに切り替える設計思想としてVirtual Data Environments(データ環境の仮想化)という概念があるらしい。 SQLMeshで実装されており、簡単に試すことが出来るので、どんな感じかさわってみた。 Virtual Data Environments(データ環境の仮想化) TL;DR Physical layerにデータのスナップショットを作成して、それをVirtual layerから参照することで独立性を担保しつつ、素早く環境を切り替えるというコンセプト。 (Virtual layerはViewのみで構成されている) 【引用元： Iaroslav Zeigerman, tobiko data Blog, 2023/4/18, Figure 6: Virtual Data Environme

sh19910711 2023/05/13

"データ環境の仮想化: Physical layerにデータのスナップショットを作成して、それをVirtual layerから参照することで独立性を担保しつつ、素早く環境を切り替え / SQLMesh: AirflowのDAGの自動生成や、変更サマリ情報の表示など"

リンク

dbt Cloudが自動で作成したBigQueryのデータセットのうち、古いデータセットを削除するマクロを運用する - yasuhisa's blog

背景: dbt CloudはCIの意味でも便利課題: Pull Requestを閉じてもデータセットは自動では消えない場合がある解決案: 作成から一定期間立ったデータセットはマクロで定期的に掃除させるその他の解決策考慮すべき点背景: dbt CloudはCIの意味でも便利仕事でdbt Cloudを利用している。SQLやyamlファイルは手元の環境で書いてGitHubにpushする形で生活しているので、実はdbt CloudのIDEにはお世話になっていないのだが、それでも便利に使っている。dbt CloudとGitHubの連携の設定をすると、特にGitHubでPull Requestを作った際にPull Requestに対応したデータセットやテーブルを作ってくれるのが便利である。 dbt_cloud_pr_1862_917のようなPull Requestのidに沿ったデータセット

sh19910711 2023/02/24

期限付きデータセットが欲しい / "dbt Cloud: Pull Requestに対応したデータセットやテーブルを作ってくれる / カスタムスキーマを使っている場合、Pull Requestを閉じてもdbt Cloudが自動で作ったデータセットが削除されない"

リンク

dbtを導入して小規模チームでも運用可能なデータマネジメント体制を構築した話 - High Link テックブログ

はじめにこんにちは。株式会社High Linkのデータユニットマネージャーの芦川 (@assy) です。私たちのチームでは、データを強みとした事業価値創出を促進するために、データ基盤の整備やデータマネジメント、全社的なデータ利活用レベルの引き上げに取り組んでいます。データマネジメントをしていると、「誰が作ったかわからない野良のテーブルが乱立している」ことや「BigQueryコンソール上でviewを定義してしまってコードレビューができない」さらには、「テーブル間の依存関係がわからず削除できない」といった課題にぶつかる方は多いんじゃないでしょうか。私たちもまさにこのような問題に直面し、導入したのがdbtです。今回は、dbtの導入に至る経緯や選定の理由、dbtをどう活用しているのかといった話を共有させて頂こうと思います。私たちのようにデータマネジメントにがっつり人的リソースを割けない

sh19910711 2022/09/10

"dbt: 利用者側の工夫や学習がある程度必要なもの + 管理がしやすくなる以上に、チームで共通のツールを採用し、プロセスを統一化できることに大きな価値がある"

リンク

SodaSQLを使ってBigQueryのデータをテストする

これは何か SodaSQLを触ってみて、BigQuery上のデータのテストを実行してみたので、所感を書いてみる。 sodaSQLとはデータ品質監視のためのツール。公式ページのコンセプトを見た感じ、データの品質維持を行うためには、カタログ化・テスト・モニタリング・プロファイリングを行った上で、observabilityを保つ必要があるが、SodaSQLはそれらを行う機能を提供してくれるらしい。 CLI版とマネージドのCloud版がある。準備開発環境準備 soda SQLを実行する環境を準備する。 FROM python:3.8-slim RUN pip install --upgrade pip && pip install soda-sql-bigquery RUN apt-get -y update && apt-get install -y vim nano CMD ["/bi

sh19910711 2022/09/01

"Great Expectations: 高機能だが癖が強く取っ付きづらい / SodaSQL: シンプルかつライト / PrefectやAirflowなどのオーケストラレーションツールを使ってSodaSQLを実行し、出力結果を受けて通知を出したりは簡単にできそう"

リンク

【R&D DevOps通信】Cloud Composerを用いたデータ基盤の転送パイプライン構築 - Sansan Tech Blog

こんにちは。研究開発部でデータエンジニアをしている鈴木翔大です。今回は【R&D DevOps通信】連載 9回目として、以前構築したデータ基盤の転送パイプラインについて書こうと思います。 AWSのS3上に存在するデータをGCPのGCSに転送して、データのETL処理をしながらBigQueryのネイティブテーブルに同期するような仕組みです。この一連の処理の流れ(パイプライン)をCloud Composer上で管理・運用する方法について紹介します。背景 Sansanが持っているデータは非常に大規模で、かつ機密性が高いデータも含まれています。そのため、基本的にデータを全社員が見れないように、必要なチームのみにアクセス権限を付与しています。現在構築を進めている全社横断データ基盤でも、列レベル・行レベルできめ細やかなアクセス制御を行う必要があり、これを実現できるデータウェアハウスとしてBigQuer

sh19910711 2022/08/05

BigQuery Data Transfer Serviceの方はAWSのIAMロール指定できないのか👀 / "BigQuery Data Transfer Serviceを利用する方法もありますが、今回構築したパイプラインではS3からGCSにデータを転送するData Transfer Serviceを利用しています"

リンク

dbtから特定のmodel実行時にSnowflakeのウェアハウスのサイズを変更する #dbt #SnowflakeDB | DevelopersIO

さがらです。 dbtから、特定のmodel実行時にSnowflakeのウェアハウスのサイズを変更する方法を検証したので、その方法をまとめてみます。特定のmodel実行時にSnowflakeのウェアハウスのサイズを変更する必要性まず、特定のmodel実行時にSnowflakeのウェアハウスのサイズを変更する必要性について考えてみます。必ずサイズ変更が必要なものではないですが、 marts/aaa.sql：10TBのデータを使用 marts/bbb.sql：1GBのデータを使用 marts/ccc.sql：1GBのデータを使用このようなケースのときに、それぞれのmodelで同じサイズのウェアハウスを使う必要はないと思います。aaa.sqlの実行時だけ、ウェアハウスのサイズを上げたい…と考える方も多いのではないでしょうか。また関連する所でいうと、下記の公式Docに記載のsnowflak

sh19910711 2022/06/08

ALTER文で計算リソース調整できるの良いな / "特定のmodel実行時にSnowflakeのウェアハウスのサイズを変更 / 名前が開発環境と本番環境で変わっても、問題なく対応できます / alter warehouse {{target.warehouse}} set warehouse_size=medium"

リンク

はてなブックマーク

タグ

関連タグで絞り込む (13)

dwhとworkflowに関するsh19910711のブックマーク (28)

お知らせ

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

今週のはてなブックマーク数ランキング（2024年5月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス