タグ

*dataとworkflowに関するsh19910711のブックマーク (155)

  • Cube Coreでセマンティックレイヤーを体験する - Qiita

    最近話題になっているセマンティックレイヤーを自分も触れてみようと思って、オープンソースである Cube Core を試してみようと思います。 1. セマンティックレイヤーとは ざっくり言うと、以下の特徴を持つ機能と理解しています。 データモデルやビジネスロジック(KPI 算出ロジックなど)の一元提供 データを利活用する様々な BI ツールや分析ツール、プログラムにデータモデルとビジネスロジックを一元的に提供することで、レポートや分析結果の信頼性を向上させます。 データモデルやビジネスロジックの管理がコードベースで可能 これにより、バージョン管理や CI/CD などの実現を容易にします。 詳しい説明は以下がとても分かりやすいです。 2. Cube Core とは セマンティックレイヤーと言うと dbt Semantic Layer が一番有名な気がしますが、これは dbt Cloud(Saa

    Cube Coreでセマンティックレイヤーを体験する - Qiita
    sh19910711
    sh19910711 2024/06/03
    "データモデルやビジネスロジックの一元提供 + データがどのような DB やサービスなどに保存されていても、同じインターフェースでアクセス / Cube Core: データを REST/GraphQL API や SQL API で提供可能 + SQL API は PostgreSQL 互換"
  • dbtを導入した話、そしてClassiのデータ基盤「ソクラテス」の現在地 - Classi開発者ブログ

    こんにちは、データプラットフォームチームの鳥山(@to_lz1)です。 Classiでは、2019年ごろからデータ基盤に「ソクラテス」の愛称をつけて運用を続けています。初期の構成は2021年に書かれたエントリ*1にも詳しいですが、数年の間に進化したことも増えてきました。 大きな変化の一例として、最近、私たちのチームではdbt*2を導入してジョブ間の依存管理やメタデータの管理を改善しました。 記事ではこの取り組みをピックアップして紹介します。また、進化したソクラテスの構成図をアップデートするとともに、Classiデータプラットフォームチームの最新版の雰囲気もお伝えできればと思います。 dbt移行前の構成 ジョブ間の依存管理がつらい メタデータの管理がつらい 過去との差分と、移行への機運 周辺ツールのエコシステムが整った エンジニア以外のメンバーがPull Requestを出すことが減った

    dbtを導入した話、そしてClassiのデータ基盤「ソクラテス」の現在地 - Classi開発者ブログ
    sh19910711
    sh19910711 2024/05/30
    "dbt導入以前のジョブはCloud Composer(Airflow)が提供するOperatorが担っており / クエリの依存関係を以下のようなyamlの設定ファイルに書いて対応 / データだけでなくメタデータもきちんと移植できているか"
  • データカタログの最初の一歩 〜データ組織向けに dbt docs を整備している話〜 / Maintaining dbt docs for data organizations

    sh19910711
    sh19910711 2024/05/28
    "データ関係の仕様書があちこちに分散 + クエリを直接読まないと分からない / 早めにデータカタログとしての場所だけ作って運用 + テーブル、クエリ、リネージグラフがサクッと確認できるだけでも十分"
  • dbt exposureによるデータ基盤アウトプットの登録を自動化しました - Timee Product Team Blog

    はじめに 課題感・背景 使用しているBIツールについて BIツールの使用ボリューム感について やったこと:概要 やったこと:詳細 referenced tableにテーブル名ではなくdbtモデル名が入るようにしたことについて 各種アウトプットの公開設定をmeta情報として付与する方針としたことについて tagを追加してexposureの検索性を向上させたこと exposureのnameにシートとダッシュボードのタイトルを反映する方針にしたこと 今後の発展 保守運用の設計 カラムレベルリネージュ ✖️ exposure おわりに We're Hiring!! はじめに こんにちは。okodooonです!! データ基盤を参照したアウトプットが社内に溢れかえっていませんか? 弊社は追いきれていないLookerStudioやConnectedSheetがめちゃくちゃ溢れかえっていました。 そんな折

    dbt exposureによるデータ基盤アウトプットの登録を自動化しました - Timee Product Team Blog
    sh19910711
    sh19910711 2024/05/26
    "exposure: スネークケースにしなくても日本語名でも通ります + データリネージュの可視性を高めるためにLookerStudioとコネクテッドシートのタイトルをnameに含む形で設定している"
  • DataformをGoogle Cloud上から触ってみる(rawデータから集計テーブルを作るまで) - ギークなエンジニアを目指す男

    たかぱい(@takapy0210)です。 正月にGoogle CloudのDataformをゴニョゴニョ触っていたので、その備忘録を残しておこうと思います。 Dataformとは dbtとの違いは...? 使用したデータ 実際に動かしてみる 基的な設定を記載する「dataform.json」 Dataformのディレクトリ構成はどうするのが良いのか 実際に記述するsqlxのコード definitions/sources/mansion.sqlx definitions/outputs/day_aggregated_by_city.sqlx スケジュール実行する Githubと連携してコード管理する おわりに Dataformとは SQL likeなコード(SQLX)でテーブルやビュー作成クエリを記述することで、テーブル間の依存関係を管理することができるデータモデリングツールです。同じよう

    DataformをGoogle Cloud上から触ってみる(rawデータから集計テーブルを作るまで) - ギークなエンジニアを目指す男
    sh19910711
    sh19910711 2024/05/22
    "買収前の従来のDataformのドキュメントには、definitions ディレクトリ配下に「Sources」、「Staging」、「Reporting」を用意することが推奨 / リリース構成で指定した時間よりワークフロー構築で指定する実行時間を最短でも1h開け"
  • Dataformを使ってデータ分析基盤を構築した話 - Leverages データ戦略ブログ

    はじめに こんにちは。レバレジーズ データ戦略室の辰野です。 前回の投稿からいつの間にか1年以上経過していました。引き続きデータマネジメントやデータガバナンスに関連する仕事をしていたのですが、今回は私が昨年度末に取り組んだ、Dataformを利用したデータ分析基盤の構築についてお話させていただきます。 Dataformとは Dataformとは、現在Google Cloudで利用できるデータモデリングツールの一つです。ELT(抽出、読み込み、変換)処理における、T(変換)の部分を管理できます。主な機能として、下記があります。 SQLワークフローを開発、実行できる テーブル同士の依存関係を管理できる テーブルの品質テストができる これらの機能を利用することで、すべてのデータプロセスを管理することが可能です。 (参考:Google Cloud,Dataform の概要) Dataformを導入

    Dataformを使ってデータ分析基盤を構築した話 - Leverages データ戦略ブログ
    sh19910711
    sh19910711 2024/05/06
    "人事の採用管理システムをリプレイスするプロジェクト / 元々、採用データを専任で管理しているメンバーがいなかった / 採用に関するローデータ保管から、BIツールへ接続させるまで全てGoogle Cloudのサービスで完結" 2023
  • Dataformでコンパイル変数を使ってみた | DevelopersIO

    WorkflowsからDataformの起動方法を検証してみました。Dataformタグ指定、コンパイル変数のWorkflowsからの上書きができるか、もあわせて検証してみました。 データアナリティクス事業部の根です。Dataformを使っていて、呼び出しもと(Workflowsとか)から動的に値を変えてDataformを呼び出すことができたらいいなと思い調べてみたらコンパイル変数を用いたらできたので記事にしてみました。 この記事の対象者 Dataformでコンパイル変数を使ってみたいひと 前提条件 Dataformのワークスペースやリポジトリが存在する、使えること 検証の全体像 コンパイル変数をdataform.jsonで指定して動作するか確認 APIでDataformを実行するときにコンパイル変数の値を上書きして動作するか確認 上記2つの検証をしていきます。 やってみる それでは早

    Dataformでコンパイル変数を使ってみた | DevelopersIO
    sh19910711
    sh19910711 2024/05/03
    "${dataform.projectConfig.vars.変数名}で、dataform.jsonで定義したコンパイル変数を取得 / APIでコンパイル変数を上書きしてDataformワークフローを実行 / 日付を指定したり、前工程の処理結果を指定したり、環境(prod,stg)を指定したり"
  • MLflowのデータストアを覗いてみる - 株式会社ホクソエムのブログ

    (2020/08/14 flavorについての記載を一部修正) はじめに こんにちは、ホクソエムサポーターの藤岡です。 最近、MLflowを分析業務で使用しているのですが、お手軽に機械学習のモデルや結果が管理できて重宝しています。 また、特定のライブラリに依存しないなど、使い方の自由度も非常に高いところが魅力的です。 ただ、ザ・分析用のPythonライブラリという感じでとにかく色々なものが隠蔽されており、 サーバにつなぐクライアントさえもプログラマあまりは意識する必要がないという徹底っぷりです。 もちろんマニュアル通りに使う分には問題ないですが、 ちゃんと中身を知っておくと自由度の高さも相まって色々と応用が効くようになり、 様々なシチュエーションで最適な使い方をすることができるようになります。 というわけで、今回はMLflowの記録部分を担う、 Experiment, Run, Artif

    MLflowのデータストアを覗いてみる - 株式会社ホクソエムのブログ
    sh19910711
    sh19910711 2024/05/02
    "MLflow: とにかく色々なものが隠蔽 + ちゃんと中身を知っておくと自由度の高さも相まって色々と応用が効く / データマートとかもMLflowで管理してみたのですが、案外できてしまった(しかも割と便利だった)" 2020
  • [レポート] データウェアハウスを製品として捉える〜設計から実現までの一貫した流れ #dbtCoalesce #Coalesce23 | DevelopersIO

    [レポート] データウェアハウスを製品として捉える〜設計から実現までの一貫した流れ #dbtCoalesce #Coalesce23 大阪オフィスの玉井です。 米国時間2023年10月16日〜19日、イベント『Coalesce 2023』が開催されました。主催はdbt labs社です。 記事は、その中で発表されたData warehouse as a product: Design to delivery(データウェアハウスを製品として捉える:設計から実現までの一貫した流れ)というセッションについて、レポートをお届け致します。 セッション概要 登壇者 Lance Witheridge, Data Modernisation Lead, Trade Me 超概要 社内のデータ分析基盤をクラウド化しようとしたが、うまくいかず、抜的な再設計を行った話です。その際、DWH(のデータ)を製品・プ

    [レポート] データウェアハウスを製品として捉える〜設計から実現までの一貫した流れ #dbtCoalesce #Coalesce23 | DevelopersIO
    sh19910711
    sh19910711 2024/05/02
    "ユーザーが抱える課題を理解し、それに対してどのように最善のサービスを提供できるかを考える / PoCとして始まったシステムがビジネス上不可欠なものに / データは全て生のままストア + 後から必要なものを選別" 2023
  • BigQuery DataFrames と Vertex AI Pipelines による機械学習パイプライン構築

    はじめに こんにちは、クラウドエース データソリューション部の松です。 普段は、データ基盤や MLOps を構築したり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。 クラウドエース データソリューション部 について クラウドエースのITエンジニアリングを担う システム開発統括部 の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのが データソリューション部 です。 弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があれば エントリー をお待ちしております! 今回は、BigQuery DataFrames と Vertex AI Pipelines による機械学習パイプライン構築方法について、ご紹介いたします。 この記事はこんな人にオススメ 機械学習パイプラインにおける実行基盤を検討さ

    BigQuery DataFrames と Vertex AI Pipelines による機械学習パイプライン構築
    sh19910711
    sh19910711 2024/05/01
    "Vertex AI Pipelines: Vertex ML Metadata を使用してアーティファクトに関するメタデータの追跡が可能 / bigframes.ml の register 関数 により、訓練したモデルを Vertex AI Model Registory に登録"
  • Airflow Breeze を使ったローカル環境構築

    Airflow Breeze を使ったローカル環境構築 フューチャー株式会社 多賀 聡一朗

    Airflow Breeze を使ったローカル環境構築
    sh19910711
    sh19910711 2024/04/29
    "Airflow Breeze: 公式が提供している Airflow の 開発 と テストのための環境 + ローカル開発、CI 向け + Docker Compose ベースで構築 / DAGファイルやcustom pluginsを適用できる" 2021
  • SnowflakeネイティブなMLパイプライン

    この記事は Snowflake Advent Calendar 2023 Series 2 の 22日目です。 はじめに SnowflakeSummit2023やSnowday2023ではML関連機能が多く発表されました. Snowpark ML Modeling API (PuPr) Snowpark ML Preprocessing API (PuPr) Snowpark ML Operations API (PrPr) Snowpark Container Services (PrPr) Snowflake FeatureStore (PrPr) Snowflake Cortex (PrPr) Snowflake Notebook (PrPr) とは言うものの,SnowflakeでML実践している事例をあまり聞くことがないので,現状どこまで可能か試してみました. 目指すアーキテクチャ

    SnowflakeネイティブなMLパイプライン
    sh19910711
    sh19910711 2024/04/27
    "SnowflakeSummit2023やSnowday2023ではML関連機能が多く発表 / とは言うものの,SnowflakeでML実践している事例をあまり聞くことがない / 前処理で実施できることが限定的 + ハイパーパラメータの探索が効率的ではなかったりする" 2023
  • 初手BQMLのメリデメ

    概要 スタートアップで初めて機械学習を用いた予測システムをデプロイするときにBigQueryMLを採用したので、やったこととメリデメを整理する。 背景・課題 機械学習を用いて需要予測を行うシステムをデプロイしたい 予測システムの導入は初めてなので、現在簡単にデプロイできるような体制はない dbtでデータ基盤を管理している 予測モデルがワークするか確かめられるまでは、リッチなシステム構築は避けたい やったこと BigQueryMLを用いて、学習・モデルデプロイ・予測を行うシステムを組んだ https://cloud.google.com/bigquery/docs/bqml-introduction?hl=ja あらかじめデータ基盤やジョブスケジューリング機能を作れていたので、実装自体は調査含めて4日くらいでできた システム構成 ・データ処理はdbtで管理する。これにより異常データなどが入っ

    初手BQMLのメリデメ
    sh19910711
    sh19910711 2024/04/27
    "BigQuery ML + dbt_ml: 学習結果がvertex aiで自動的に表示されるため、性能指標のモニタリングについてゼロから開発する必要がない + データをBigQuery外に出すことなく、学習・予測が完了 / model_registryでvertex aiを指定"
  • 実験の再現性を高めるデータバージョン管理(DVC)の紹介 - techtekt

    データバージョンの管理とは? データバージョンの管理とは、バイナリデータのバージョンを管理することを指します。データバージョンの管理は、Git 等でのコードのバージョン管理をバイナリデータに拡張しています。実験の再現性を高められるメリットがあります。 DVC とは? データのバージョンを管理する機能をもつオープンソースソフトウェアです。データのハッシュをテキストファイルで保持し git でバージョン管理します。また、yaml ファイルで実行パイプラインを定義して監視対象データが更新された際にハッシュを更新することで、新しいハッシュ値を含んだデータをバージョン管理します。更新されたデータファイルはキャッシュディレクトリに保存され、必要なタイミングで自動的に復元されます。 データのリモートリポジトリを定義することで、データ一式を簡単なコマンド操作で S3 等へ push / pull すること

    実験の再現性を高めるデータバージョン管理(DVC)の紹介 - techtekt
    sh19910711
    sh19910711 2024/04/24
    "シードを固定し、ログやMLflow等で実験結果を残しても、入力データが再現できなければ実行は再現できません / DVC: データのバージョンが管理 + パイプライン管理 + 実行結果の指標蓄積や指標推移の視覚化機能もあり"
  • dbtからSnowflake Dynamic Tablesを作成してリアルタイムデータパイプラインを構築してみる

    これは何? こんにちは。 dely株式会社でデータエンジニアをしておりますharry(@gappy50)です。 この記事は、昨年書いた以下の記事の続きの記事になります。 SnowflakeではDynamic TablesのPuPrが開始されており、宣言的なデータパイプラインの全貌徐々に見え隠れしております。 また、これに追従する形でdbt1.6でもMaterialized View(SnowflakeではDynamic Table)をサポートしはじめました。 このDynamic Tablesのメリットとして一番わかりやすいのは、ニアリアルタイムなストリーミングパイプラインをクエリを書くだけで実現が可能になる面だと思います。 これまではモデルを作成したあとのワークロードの実行は dbt build を実行するタイミングとなってしまうため、リアルタイムなデータパイプラインの構築が難しい側面があ

    dbtからSnowflake Dynamic Tablesを作成してリアルタイムデータパイプラインを構築してみる
    sh19910711
    sh19910711 2024/04/23
    "宣言的なデータパイプラインの全貌徐々に見え隠れ + これに追従する形でdbt1.6でもMaterialized View(SnowflakeではDynamic Table)をサポート / ニアリアルタイムなストリーミングパイプラインをクエリを書くだけで実現" 2023
  • ETLサービスの活用を支えるインシデント対応の工夫

    sh19910711
    sh19910711 2024/04/20
    "1年前にCloud Composer事象を検知する手段が不足していて事象に気が付かなかった / 「気を付ける」のではなく、自然と気がつくような仕組みで解決したい / インシデントマネジメントを支援するSlack Bot" 2023
  • Google Cloud Next’24で発表されたBigQueryのアップデート情報をまとめました | DevelopersIO

    Google CLoudデータエンジニアのはんざわです。 Google Cloud Next'24において、各サービスで多数のアップデート情報が紹介されました。 この記事では、BigQueryのアップデート情報、特にデータエンジニア向けの情報をまとめて紹介したいと思います! 新機能が発表されたセッションとその内容を簡単に紹介していきます! 気になる内容があった方は是非、YouTubeの動画を確認してみてください。 注意点 記事の内容にBigQuery ML関連のサービスは含まれていません。 不足している情報があれば随時更新します... 2024年4月13日時点では、Google Cloud Next'24で発表された機能のほとんどがリリースノートやドキュメントに反映されていません。そのため今後変更される可能性がありますので注意してください。 Build a unified, open,

    Google Cloud Next’24で発表されたBigQueryのアップデート情報をまとめました | DevelopersIO
    sh19910711
    sh19910711 2024/04/14
    "BigQuery workflows: SQLクエリや後述するdata canvas、data preparationなどの各タスクをワークフローとしてスケジュール実行 + ワークフローをDataformやCloud Composerにエクスポートすることも可能"
  • Findyデータ基盤のアーキテクチャと技術スタック - Findy Tech Blog

    1. はじめに Findyでデータエンジニアとして働いている ひらき(hiracky16)です。 この記事ではFindyで取り組んでいるデータ基盤について紹介します。 Findyでは2023年からデータエンジニアを採用し格的にデータ基盤構築に着手しています。 これまではBigQuery(Google Cloud)を中心としたデータ蓄積・利活用をしていました。 今後もっとデータ分析機械学習などのデータ利用を加速するためにデータマネジメントが不可欠だと考えており、データエンジニアを採用しています。 まだ1人目のデータエンジニアがジョインしてから半年間くらいの取り組みですが、現時点のアーキテクチャや技術スタック、伸びしろや展望などを記します。 1. はじめに 2. これまでのデータ基盤の伸びしろ 3. 現状のデータ基盤アーキテクチャ 3.1. 番環境のIaC化と開発環境の準備 3.2. デ

    Findyデータ基盤のアーキテクチャと技術スタック - Findy Tech Blog
    sh19910711
    sh19910711 2024/03/26
    "dbtにクエリや知識を集約させるべくBigQueryのユーザーを巻き込み利用を促していましたが、なかなかモデル(テーブル)の数が増えませんでした / Dataformはブラウザで完結しBigQueryのメニューにある"
  • PyAirbyteで始める簡単Data Injest Pipeline

    はじめに PyAirbyteがリリースされました。(2024/03/16時点ではBeta版なのでご注意を) PyAirbyteはExtractのコネクタ部分をPythonのライブラリとして提供してPandasに格納するという機能を提供しているらしい。 つまり、BigQueryのクライアントと合わせればExtractとLoadの部分を過疎結合にしつつ、スケジューラーでPythonを呼び出すだけのシンプルなData Injest Pipelineを作ることが可能なのでは!?ということで検証します。 個人的に考えるData Injestツールの抱える課題点 FivetranのようなSaaSを使い始める際は規約確認や、契約がとても面倒 Airbyteは契約関連の面倒な部分は無いが、運用工数が大きすぎる worker, sever, temporal, api, dbなどなど(ちゃんと拡張性を考えて

    PyAirbyteで始める簡単Data Injest Pipeline
    sh19910711
    sh19910711 2024/03/17
    "SaaSを使い始める際は規約確認や、契約がとても面倒 / Airflowでスケジューリング機能があって、Fivetranでもスケジューリング機能があって、Airflowの各種OperatorでELの機能があって、FivetranでELの機能があって"
  • dataformからdbtに移行するために調べたこと - Retty Tech Blog

    コトの発端 実現したい分析基盤 Rettyの分析基盤 dbtにまとめて、こうしたい dataformでやっていたこと 使ったdbtの機能は、incrimental modelのThe insert_overwrite strategy 実際にやったコト merge intoで指定する任意のパーティション設定 incremental modelのinsert_overwriteの設定 incremental時のwhere句 感想 サンプル コード 挙動 N日に実行 N+1日に実行 この記事Retty Advent Calendar 2023 - Adventarの24日目の記事です。 2023年4月に入社した土田です。 コトの発端 こんなメールが来た。 半年後にdeprecated。まじか。 実現したい分析基盤 前述の通りRettyではdataformを使って、DWH内の物理テーブルを更新し

    dataformからdbtに移行するために調べたこと - Retty Tech Blog
    sh19910711
    sh19910711 2024/03/10
    旧dataform => dbt / "分析基盤はdbtでデータガバナンスをしていることからdbtでできるならdbtに移行しよう!となりました / on_schema_changeを設定すると、schemaが変更されたことをエラーで教えてくれる" 2023