タグ

dwhとworkflowに関するsh19910711のブックマーク (28)

  • Cube Coreでセマンティックレイヤーを体験する - Qiita

    最近話題になっているセマンティックレイヤーを自分も触れてみようと思って、オープンソースである Cube Core を試してみようと思います。 1. セマンティックレイヤーとは ざっくり言うと、以下の特徴を持つ機能と理解しています。 データモデルやビジネスロジック(KPI 算出ロジックなど)の一元提供 データを利活用する様々な BI ツールや分析ツール、プログラムにデータモデルとビジネスロジックを一元的に提供することで、レポートや分析結果の信頼性を向上させます。 データモデルやビジネスロジックの管理がコードベースで可能 これにより、バージョン管理や CI/CD などの実現を容易にします。 詳しい説明は以下がとても分かりやすいです。 2. Cube Core とは セマンティックレイヤーと言うと dbt Semantic Layer が一番有名な気がしますが、これは dbt Cloud(Saa

    Cube Coreでセマンティックレイヤーを体験する - Qiita
    sh19910711
    sh19910711 2024/06/03
    "データモデルやビジネスロジックの一元提供 + データがどのような DB やサービスなどに保存されていても、同じインターフェースでアクセス / Cube Core: データを REST/GraphQL API や SQL API で提供可能 + SQL API は PostgreSQL 互換"
  • dbtを導入した話、そしてClassiのデータ基盤「ソクラテス」の現在地 - Classi開発者ブログ

    こんにちは、データプラットフォームチームの鳥山(@to_lz1)です。 Classiでは、2019年ごろからデータ基盤に「ソクラテス」の愛称をつけて運用を続けています。初期の構成は2021年に書かれたエントリ*1にも詳しいですが、数年の間に進化したことも増えてきました。 大きな変化の一例として、最近、私たちのチームではdbt*2を導入してジョブ間の依存管理やメタデータの管理を改善しました。 記事ではこの取り組みをピックアップして紹介します。また、進化したソクラテスの構成図をアップデートするとともに、Classiデータプラットフォームチームの最新版の雰囲気もお伝えできればと思います。 dbt移行前の構成 ジョブ間の依存管理がつらい メタデータの管理がつらい 過去との差分と、移行への機運 周辺ツールのエコシステムが整った エンジニア以外のメンバーがPull Requestを出すことが減った

    dbtを導入した話、そしてClassiのデータ基盤「ソクラテス」の現在地 - Classi開発者ブログ
    sh19910711
    sh19910711 2024/05/30
    "dbt導入以前のジョブはCloud Composer(Airflow)が提供するOperatorが担っており / クエリの依存関係を以下のようなyamlの設定ファイルに書いて対応 / データだけでなくメタデータもきちんと移植できているか"
  • データカタログの最初の一歩 〜データ組織向けに dbt docs を整備している話〜 / Maintaining dbt docs for data organizations

    sh19910711
    sh19910711 2024/05/28
    "データ関係の仕様書があちこちに分散 + クエリを直接読まないと分からない / 早めにデータカタログとしての場所だけ作って運用 + テーブル、クエリ、リネージグラフがサクッと確認できるだけでも十分"
  • dbt exposureによるデータ基盤アウトプットの登録を自動化しました - Timee Product Team Blog

    はじめに 課題感・背景 使用しているBIツールについて BIツールの使用ボリューム感について やったこと:概要 やったこと:詳細 referenced tableにテーブル名ではなくdbtモデル名が入るようにしたことについて 各種アウトプットの公開設定をmeta情報として付与する方針としたことについて tagを追加してexposureの検索性を向上させたこと exposureのnameにシートとダッシュボードのタイトルを反映する方針にしたこと 今後の発展 保守運用の設計 カラムレベルリネージュ ✖️ exposure おわりに We're Hiring!! はじめに こんにちは。okodooonです!! データ基盤を参照したアウトプットが社内に溢れかえっていませんか? 弊社は追いきれていないLookerStudioやConnectedSheetがめちゃくちゃ溢れかえっていました。 そんな折

    dbt exposureによるデータ基盤アウトプットの登録を自動化しました - Timee Product Team Blog
    sh19910711
    sh19910711 2024/05/26
    "exposure: スネークケースにしなくても日本語名でも通ります + データリネージュの可視性を高めるためにLookerStudioとコネクテッドシートのタイトルをnameに含む形で設定している"
  • Dataformを使ってデータ分析基盤を構築した話 - Leverages データ戦略ブログ

    はじめに こんにちは。レバレジーズ データ戦略室の辰野です。 前回の投稿からいつの間にか1年以上経過していました。引き続きデータマネジメントやデータガバナンスに関連する仕事をしていたのですが、今回は私が昨年度末に取り組んだ、Dataformを利用したデータ分析基盤の構築についてお話させていただきます。 Dataformとは Dataformとは、現在Google Cloudで利用できるデータモデリングツールの一つです。ELT(抽出、読み込み、変換)処理における、T(変換)の部分を管理できます。主な機能として、下記があります。 SQLワークフローを開発、実行できる テーブル同士の依存関係を管理できる テーブルの品質テストができる これらの機能を利用することで、すべてのデータプロセスを管理することが可能です。 (参考:Google Cloud,Dataform の概要) Dataformを導入

    Dataformを使ってデータ分析基盤を構築した話 - Leverages データ戦略ブログ
    sh19910711
    sh19910711 2024/05/06
    "人事の採用管理システムをリプレイスするプロジェクト / 元々、採用データを専任で管理しているメンバーがいなかった / 採用に関するローデータ保管から、BIツールへ接続させるまで全てGoogle Cloudのサービスで完結" 2023
  • Dataformでコンパイル変数を使ってみた | DevelopersIO

    WorkflowsからDataformの起動方法を検証してみました。Dataformタグ指定、コンパイル変数のWorkflowsからの上書きができるか、もあわせて検証してみました。 データアナリティクス事業部の根です。Dataformを使っていて、呼び出しもと(Workflowsとか)から動的に値を変えてDataformを呼び出すことができたらいいなと思い調べてみたらコンパイル変数を用いたらできたので記事にしてみました。 この記事の対象者 Dataformでコンパイル変数を使ってみたいひと 前提条件 Dataformのワークスペースやリポジトリが存在する、使えること 検証の全体像 コンパイル変数をdataform.jsonで指定して動作するか確認 APIでDataformを実行するときにコンパイル変数の値を上書きして動作するか確認 上記2つの検証をしていきます。 やってみる それでは早

    Dataformでコンパイル変数を使ってみた | DevelopersIO
    sh19910711
    sh19910711 2024/05/03
    "${dataform.projectConfig.vars.変数名}で、dataform.jsonで定義したコンパイル変数を取得 / APIでコンパイル変数を上書きしてDataformワークフローを実行 / 日付を指定したり、前工程の処理結果を指定したり、環境(prod,stg)を指定したり"
  • [レポート] データウェアハウスを製品として捉える〜設計から実現までの一貫した流れ #dbtCoalesce #Coalesce23 | DevelopersIO

    [レポート] データウェアハウスを製品として捉える〜設計から実現までの一貫した流れ #dbtCoalesce #Coalesce23 大阪オフィスの玉井です。 米国時間2023年10月16日〜19日、イベント『Coalesce 2023』が開催されました。主催はdbt labs社です。 記事は、その中で発表されたData warehouse as a product: Design to delivery(データウェアハウスを製品として捉える:設計から実現までの一貫した流れ)というセッションについて、レポートをお届け致します。 セッション概要 登壇者 Lance Witheridge, Data Modernisation Lead, Trade Me 超概要 社内のデータ分析基盤をクラウド化しようとしたが、うまくいかず、抜的な再設計を行った話です。その際、DWH(のデータ)を製品・プ

    [レポート] データウェアハウスを製品として捉える〜設計から実現までの一貫した流れ #dbtCoalesce #Coalesce23 | DevelopersIO
    sh19910711
    sh19910711 2024/05/02
    "ユーザーが抱える課題を理解し、それに対してどのように最善のサービスを提供できるかを考える / PoCとして始まったシステムがビジネス上不可欠なものに / データは全て生のままストア + 後から必要なものを選別" 2023
  • BigQuery DataFrames と Vertex AI Pipelines による機械学習パイプライン構築

    はじめに こんにちは、クラウドエース データソリューション部の松です。 普段は、データ基盤や MLOps を構築したり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。 クラウドエース データソリューション部 について クラウドエースのITエンジニアリングを担う システム開発統括部 の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのが データソリューション部 です。 弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があれば エントリー をお待ちしております! 今回は、BigQuery DataFrames と Vertex AI Pipelines による機械学習パイプライン構築方法について、ご紹介いたします。 この記事はこんな人にオススメ 機械学習パイプラインにおける実行基盤を検討さ

    BigQuery DataFrames と Vertex AI Pipelines による機械学習パイプライン構築
    sh19910711
    sh19910711 2024/05/01
    "Vertex AI Pipelines: Vertex ML Metadata を使用してアーティファクトに関するメタデータの追跡が可能 / bigframes.ml の register 関数 により、訓練したモデルを Vertex AI Model Registory に登録"
  • SnowflakeネイティブなMLパイプライン

    この記事は Snowflake Advent Calendar 2023 Series 2 の 22日目です。 はじめに SnowflakeSummit2023やSnowday2023ではML関連機能が多く発表されました. Snowpark ML Modeling API (PuPr) Snowpark ML Preprocessing API (PuPr) Snowpark ML Operations API (PrPr) Snowpark Container Services (PrPr) Snowflake FeatureStore (PrPr) Snowflake Cortex (PrPr) Snowflake Notebook (PrPr) とは言うものの,SnowflakeでML実践している事例をあまり聞くことがないので,現状どこまで可能か試してみました. 目指すアーキテクチャ

    SnowflakeネイティブなMLパイプライン
    sh19910711
    sh19910711 2024/04/27
    "SnowflakeSummit2023やSnowday2023ではML関連機能が多く発表 / とは言うものの,SnowflakeでML実践している事例をあまり聞くことがない / 前処理で実施できることが限定的 + ハイパーパラメータの探索が効率的ではなかったりする" 2023
  • 初手BQMLのメリデメ

    概要 スタートアップで初めて機械学習を用いた予測システムをデプロイするときにBigQueryMLを採用したので、やったこととメリデメを整理する。 背景・課題 機械学習を用いて需要予測を行うシステムをデプロイしたい 予測システムの導入は初めてなので、現在簡単にデプロイできるような体制はない dbtでデータ基盤を管理している 予測モデルがワークするか確かめられるまでは、リッチなシステム構築は避けたい やったこと BigQueryMLを用いて、学習・モデルデプロイ・予測を行うシステムを組んだ https://cloud.google.com/bigquery/docs/bqml-introduction?hl=ja あらかじめデータ基盤やジョブスケジューリング機能を作れていたので、実装自体は調査含めて4日くらいでできた システム構成 ・データ処理はdbtで管理する。これにより異常データなどが入っ

    初手BQMLのメリデメ
    sh19910711
    sh19910711 2024/04/27
    "BigQuery ML + dbt_ml: 学習結果がvertex aiで自動的に表示されるため、性能指標のモニタリングについてゼロから開発する必要がない + データをBigQuery外に出すことなく、学習・予測が完了 / model_registryでvertex aiを指定"
  • dbtからSnowflake Dynamic Tablesを作成してリアルタイムデータパイプラインを構築してみる

    これは何? こんにちは。 dely株式会社でデータエンジニアをしておりますharry(@gappy50)です。 この記事は、昨年書いた以下の記事の続きの記事になります。 SnowflakeではDynamic TablesのPuPrが開始されており、宣言的なデータパイプラインの全貌徐々に見え隠れしております。 また、これに追従する形でdbt1.6でもMaterialized View(SnowflakeではDynamic Table)をサポートしはじめました。 このDynamic Tablesのメリットとして一番わかりやすいのは、ニアリアルタイムなストリーミングパイプラインをクエリを書くだけで実現が可能になる面だと思います。 これまではモデルを作成したあとのワークロードの実行は dbt build を実行するタイミングとなってしまうため、リアルタイムなデータパイプラインの構築が難しい側面があ

    dbtからSnowflake Dynamic Tablesを作成してリアルタイムデータパイプラインを構築してみる
    sh19910711
    sh19910711 2024/04/23
    "宣言的なデータパイプラインの全貌徐々に見え隠れ + これに追従する形でdbt1.6でもMaterialized View(SnowflakeではDynamic Table)をサポート / ニアリアルタイムなストリーミングパイプラインをクエリを書くだけで実現" 2023
  • Google Cloud Next’24で発表されたBigQueryのアップデート情報をまとめました | DevelopersIO

    Google CLoudデータエンジニアのはんざわです。 Google Cloud Next'24において、各サービスで多数のアップデート情報が紹介されました。 この記事では、BigQueryのアップデート情報、特にデータエンジニア向けの情報をまとめて紹介したいと思います! 新機能が発表されたセッションとその内容を簡単に紹介していきます! 気になる内容があった方は是非、YouTubeの動画を確認してみてください。 注意点 記事の内容にBigQuery ML関連のサービスは含まれていません。 不足している情報があれば随時更新します... 2024年4月13日時点では、Google Cloud Next'24で発表された機能のほとんどがリリースノートやドキュメントに反映されていません。そのため今後変更される可能性がありますので注意してください。 Build a unified, open,

    Google Cloud Next’24で発表されたBigQueryのアップデート情報をまとめました | DevelopersIO
    sh19910711
    sh19910711 2024/04/14
    "BigQuery workflows: SQLクエリや後述するdata canvas、data preparationなどの各タスクをワークフローとしてスケジュール実行 + ワークフローをDataformやCloud Composerにエクスポートすることも可能"
  • Findyデータ基盤のアーキテクチャと技術スタック - Findy Tech Blog

    1. はじめに Findyでデータエンジニアとして働いている ひらき(hiracky16)です。 この記事ではFindyで取り組んでいるデータ基盤について紹介します。 Findyでは2023年からデータエンジニアを採用し格的にデータ基盤構築に着手しています。 これまではBigQuery(Google Cloud)を中心としたデータ蓄積・利活用をしていました。 今後もっとデータ分析機械学習などのデータ利用を加速するためにデータマネジメントが不可欠だと考えており、データエンジニアを採用しています。 まだ1人目のデータエンジニアがジョインしてから半年間くらいの取り組みですが、現時点のアーキテクチャや技術スタック、伸びしろや展望などを記します。 1. はじめに 2. これまでのデータ基盤の伸びしろ 3. 現状のデータ基盤アーキテクチャ 3.1. 番環境のIaC化と開発環境の準備 3.2. デ

    Findyデータ基盤のアーキテクチャと技術スタック - Findy Tech Blog
    sh19910711
    sh19910711 2024/03/26
    "dbtにクエリや知識を集約させるべくBigQueryのユーザーを巻き込み利用を促していましたが、なかなかモデル(テーブル)の数が増えませんでした / Dataformはブラウザで完結しBigQueryのメニューにある"
  • dataformからdbtに移行するために調べたこと - Retty Tech Blog

    コトの発端 実現したい分析基盤 Rettyの分析基盤 dbtにまとめて、こうしたい dataformでやっていたこと 使ったdbtの機能は、incrimental modelのThe insert_overwrite strategy 実際にやったコト merge intoで指定する任意のパーティション設定 incremental modelのinsert_overwriteの設定 incremental時のwhere句 感想 サンプル コード 挙動 N日に実行 N+1日に実行 この記事Retty Advent Calendar 2023 - Adventarの24日目の記事です。 2023年4月に入社した土田です。 コトの発端 こんなメールが来た。 半年後にdeprecated。まじか。 実現したい分析基盤 前述の通りRettyではdataformを使って、DWH内の物理テーブルを更新し

    dataformからdbtに移行するために調べたこと - Retty Tech Blog
    sh19910711
    sh19910711 2024/03/10
    旧dataform => dbt / "分析基盤はdbtでデータガバナンスをしていることからdbtでできるならdbtに移行しよう!となりました / on_schema_changeを設定すると、schemaが変更されたことをエラーで教えてくれる" 2023
  • SQLMeshが提供するVirtual Data Environments(データ環境の仮想化)を体験してみた

    はじめに 開発・運用のコストを最小限にしつつDev・Staging・Prodをシームレスに切り替える設計思想としてVirtual Data Environments(データ環境の仮想化)という概念があるらしい。 SQLMeshで実装されており、簡単に試すことが出来るので、どんな感じかさわってみた。 Virtual Data Environments(データ環境の仮想化) TL;DR Physical layerにデータのスナップショットを作成して、それをVirtual layerから参照することで独立性を担保しつつ、素早く環境を切り替えるというコンセプト。 (Virtual layerはViewのみで構成されている) 【引用元: Iaroslav Zeigerman, tobiko data Blog, 2023/4/18, Figure 6: Virtual Data Environme

    SQLMeshが提供するVirtual Data Environments(データ環境の仮想化)を体験してみた
    sh19910711
    sh19910711 2023/05/13
    "データ環境の仮想化: Physical layerにデータのスナップショットを作成して、それをVirtual layerから参照することで独立性を担保しつつ、素早く環境を切り替え / SQLMesh: AirflowのDAGの自動生成や、変更サマリ情報の表示など"
  • dbt Cloudが自動で作成したBigQueryのデータセットのうち、古いデータセットを削除するマクロを運用する - yasuhisa's blog

    背景: dbt CloudはCIの意味でも便利 課題: Pull Requestを閉じてもデータセットは自動では消えない場合がある 解決案: 作成から一定期間立ったデータセットはマクロで定期的に掃除させる その他の解決策 考慮すべき点 背景: dbt CloudはCIの意味でも便利 仕事dbt Cloudを利用している。SQLyamlファイルは手元の環境で書いてGitHubにpushする形で生活しているので、実はdbt CloudのIDEにはお世話になっていないのだが、それでも便利に使っている。dbt CloudとGitHubの連携の設定をすると、特にGitHubでPull Requestを作った際にPull Requestに対応したデータセットやテーブルを作ってくれるのが便利である。 dbt_cloud_pr_1862_917のようなPull Requestのidに沿ったデータセット

    dbt Cloudが自動で作成したBigQueryのデータセットのうち、古いデータセットを削除するマクロを運用する - yasuhisa's blog
    sh19910711
    sh19910711 2023/02/24
    期限付きデータセットが欲しい / "dbt Cloud: Pull Requestに対応したデータセットやテーブルを作ってくれる / カスタムスキーマを使っている場合、Pull Requestを閉じてもdbt Cloudが自動で作ったデータセットが削除されない"
  • dbtを導入して小規模チームでも運用可能なデータマネジメント体制を構築した話 - High Link テックブログ

    はじめに こんにちは。株式会社High Linkのデータユニットマネージャーの芦川 (@assy) です。 私たちのチームでは、データを強みとした事業価値創出を促進するために、データ基盤の整備やデータマネジメント、全社的なデータ利活用レベルの引き上げに取り組んでいます。 データマネジメントをしていると、「誰が作ったかわからない野良のテーブルが乱立している」ことや「BigQueryコンソール上でviewを定義してしまってコードレビューができない」さらには、「テーブル間の依存関係がわからず削除できない」といった課題にぶつかる方は多いんじゃないでしょうか。 私たちもまさにこのような問題に直面し、導入したのがdbtです。 今回は、dbtの導入に至る経緯や選定の理由、dbtをどう活用しているのかといった話を共有させて頂こうと思います。 私たちのようにデータマネジメントにがっつり人的リソースを割けない

    dbtを導入して小規模チームでも運用可能なデータマネジメント体制を構築した話 - High Link テックブログ
    sh19910711
    sh19910711 2022/09/10
    "dbt: 利用者側の工夫や学習がある程度必要なもの + 管理がしやすくなる以上に、チームで共通のツールを採用し、プロセスを統一化できることに大きな価値がある"
  • SodaSQLを使ってBigQueryのデータをテストする

    これは何か SodaSQLを触ってみて、BigQuery上のデータのテストを実行してみたので、所感を書いてみる。 sodaSQLとは データ品質監視のためのツール。 公式ページのコンセプトを見た感じ、データの品質維持を行うためには、カタログ化・テスト・モニタリング・プロファイリングを行った上で、observabilityを保つ必要があるが、SodaSQLはそれらを行う機能を提供してくれるらしい。 CLI版とマネージドのCloud版がある。 準備 開発環境準備 soda SQLを実行する環境を準備する。 FROM python:3.8-slim RUN pip install --upgrade pip && pip install soda-sql-bigquery RUN apt-get -y update && apt-get install -y vim nano CMD ["/bi

    SodaSQLを使ってBigQueryのデータをテストする
    sh19910711
    sh19910711 2022/09/01
    "Great Expectations: 高機能だが癖が強く取っ付きづらい / SodaSQL: シンプルかつライト / PrefectやAirflowなどのオーケストラレーションツールを使ってSodaSQLを実行し、出力結果を受けて通知を出したりは簡単にできそう"
  • 【R&D DevOps通信】Cloud Composerを用いたデータ基盤の転送パイプライン構築 - Sansan Tech Blog

    こんにちは。研究開発部でデータエンジニアをしている鈴木翔大です。 今回は【R&D DevOps通信】連載 9回目として、以前構築したデータ基盤の転送パイプラインについて書こうと思います。 AWSのS3上に存在するデータをGCPのGCSに転送して、データのETL処理をしながらBigQueryのネイティブテーブルに同期するような仕組みです。この一連の処理の流れ(パイプライン)をCloud Composer上で管理・運用する方法について紹介します。 背景 Sansanが持っているデータは非常に大規模で、かつ機密性が高いデータも含まれています。そのため、基的にデータを全社員が見れないように、必要なチームのみにアクセス権限を付与しています。現在構築を進めている全社横断データ基盤でも、列レベル・行レベルできめ細やかなアクセス制御を行う必要があり、これを実現できるデータウェアハウスとしてBigQuer

    【R&D DevOps通信】Cloud Composerを用いたデータ基盤の転送パイプライン構築 - Sansan Tech Blog
    sh19910711
    sh19910711 2022/08/05
    BigQuery Data Transfer Serviceの方はAWSのIAMロール指定できないのか👀 / "BigQuery Data Transfer Serviceを利用する方法もありますが、今回構築したパイプラインではS3からGCSにデータを転送するData Transfer Serviceを利用しています"
  • dbtから特定のmodel実行時にSnowflakeのウェアハウスのサイズを変更する #dbt #SnowflakeDB | DevelopersIO

    さがらです。 dbtから、特定のmodel実行時にSnowflakeのウェアハウスのサイズを変更する方法を検証したので、その方法をまとめてみます。 特定のmodel実行時にSnowflakeのウェアハウスのサイズを変更する必要性 まず、特定のmodel実行時にSnowflakeのウェアハウスのサイズを変更する必要性について考えてみます。 必ずサイズ変更が必要なものではないですが、 marts/aaa.sql:10TBのデータを使用 marts/bbb.sql:1GBのデータを使用 marts/ccc.sql:1GBのデータを使用 このようなケースのときに、それぞれのmodelで同じサイズのウェアハウスを使う必要はないと思います。aaa.sqlの実行時だけ、ウェアハウスのサイズを上げたい…と考える方も多いのではないでしょうか。 また関連する所でいうと、下記の公式Docに記載のsnowflak

    dbtから特定のmodel実行時にSnowflakeのウェアハウスのサイズを変更する #dbt #SnowflakeDB | DevelopersIO
    sh19910711
    sh19910711 2022/06/08
    ALTER文で計算リソース調整できるの良いな / "特定のmodel実行時にSnowflakeのウェアハウスのサイズを変更 / 名前が開発環境と本番環境で変わっても、問題なく対応できます / alter warehouse {{target.warehouse}} set warehouse_size=medium"