主にクラウドの話してます - 広島 での登壇資料です。 https://omoni-cloud.connpass.com/event/315682/
Amazon RedshiftはZero-ETL統合のMulti-AZデプロイメント、Amazon Athenaのフェデレーテッドクエリパススルー機能、Amazon QuickSightのAWS PrivateLinkのサポートとIAMアイデンティティセンターのアカウントインスタンスを新たに統合など。 はじめに クラスメソッドの石川です。日々AWSのアナリティクス関連サービスのアップデートとそのブログをご紹介します。 今月は、Amazon RedshiftはZero-ETL統合のMulti-AZデプロイメントで高可用性を実現し、ダウンタイムなしの分析を可能に。Amazon Athenaのフェデレーテッドのクエリパススルー機能で、BigQueryやSnowflakeなどの外部データソースへの直接アクセスが可能になり、データ処理の効率が飛躍的に向上。さらに、Amazon QuickSightは
はじめまして、テックタッチで DataEnabling チームのエンジニアマネージャーをしているtaker です。 DataEnabling チームでは、社内の様々な組織のデータ活用をより推進し、プロダクト開発やカスタマサクセスを強化するためデータ基盤の改善や社内からの様々な依頼について日々取り組んでいます。 この記事ではそんな私達のチームが、チーム内でデータに関する知識を共有するプラクティスについて共有させていただくため、一筆したためました。 はじめに 取組内容について 進める上で気をつけている点 実施した結果良かったこと 終わりに はじめに データ活用を進める上では、プロダクトのデータ構造や機能とデータの対応関係について精通している必要があります。 例えば、カスタマーサクセス(CS)から「 xx の機能を有効にしている顧客数を知りたい」という問い合わせがあった際「 xx の機能」が「ど
クラスメソッドの石川です。日々AWSのアナリティクス関連サービスのアップデートとそのブログをご紹介します。 今月は、Amazon RedshiftのZero-ETL統合が待望のデータフィルタリングをサポートしました。このアップデートで、必要なテーブルをピンポイントかつRedshiftにニアリアルタイムで同期できるようになり、実用性が向上しました。 また、re:Invent2023でアナウンスのあったAmazon DataZoneのディスクリプションに対する AIリコメンデーションなどがサポートされました。放置されがちなメタデータをAIがいい感じで自動設定してくれます。Amazon DataZoneのAmazon Redshiftに対する機能強化もあります。 他にもアップデートがあるので紹介します! Amazon Redshift 新機能・アップデート 2024/03/18 - AWS Se
はじめに データ分析基盤の資料を力尽きるまで追記していきます。 構成図にあるアイコンや記事の内容から技術要素を調べて記載していますが、不明分は未記載にしています。修正のコメント頂ければ助かります。 あと、この記事追加してっていう要望も歓迎いたします。 テンプレート 記事公開日 : 会社名(サービス名) データソース : データ処理 : アウトプット : 画像 URL 2025年 2024/03/14 : 株式会社エス・エム・エス(カイポケ) データソース : Amazon Aurora データ処理 : Datastream、BigQuery、dbt アウトプット : Looker Studio 2024/03/12 : 株式会社マイナビ データソース : SQL Server、Amazon S3 データ処理 : Embulk、Amazon MWAA、Apache Airflow、Snowf
CyberMates チャットAI教育テキスト無償配布プログラムは、チャットAIを軸に「AIの仕組みや危険性、正しい使い方を広めること」を通じて、「AIに関連する危険な事故や事件を未然に防ぎ、正しく規制や改善を行える環境作りを行い、AIを安全かつ便利に使えるようにすること。」を目的に、チャットAIの教育テキストを無償配布するプログラムです。 プログラムの内容 チャットAI 教育テキストを無償配布 プログラムの趣旨 ・チャットAIの仕組みや危険性、正しい使い方を周知する。 ・チャットAIを使用することや、使用されることによる事故や事件を未然に防ぐ。 ・AI全体の規制や未来について考えるための前提的な知識を広める。 プログラムの実施期間 2024年3月9日~終了日未定 プログラムの対象 次の全てに該当し ・営利を目的としない ・本プログラムの趣旨に賛同する ・本プログラムの条件、注意事項に同意
フェイスブックとインスタグラムの親会社であるメタの株価は3月11日、トランプ前大統領がフェイスブックを「国民の敵」と酷評したことを受けて急落した。 メタの株価は11日、約4.5%下落して先月末以来の安値の484ドル弱に沈み、昨年7月20日以降で最悪のパフォーマンスを記録した。 この急落は、トランプの11日朝のCNBCの番組でのコメントを受けてのものだ。彼は、国家の安全保障上の懸念から中国バイトダンスのTikTokを米国政府が禁止すれば「米国民の敵であるフェイスブック」に大きな追い風を与えることになると発言した。 メタの株価は、今から2カ月足らず前の1月19日に史上最高値を更新した後にさらに上昇しており、2月1日に開示した2023年第4四半期の売上高と純利益はともに過去最高を記録していた。同社の株価は、年初から29%近く上昇しており、拡張現実(AR)と仮想現実(VR)への取り組みに起因する損
<blockquote class="hatena-bookmark-comment"><a class="comment-info" href="https://b.hatena.ne.jp/entry/4750413716620172320/comment/rag_en" data-user-id="rag_en" data-entry-url="https://b.hatena.ne.jp/entry/s/b.hatena.ne.jp/entry/4750378486597579968/comment/esbee" data-original-href="https://b.hatena.ne.jp/entry/4750378486597579968/comment/esbee" data-entry-favicon="https://cdn-ak2.favicon.st-haten
起動確認 いつもの 初期設定 VSCode左下の><をクリック 開発コンテナー構成ファイルを追加 ワークスペースに構成を追加する こちらを選択することでGit上で構成ファイルを管理出来ます。 定義済みのコンテナー構成定義から Node.js & TypeSctipt 導入する、言語などを選択してください。 バージョンを指定してください。 お好きな拡張機能を追加してください。 .devcontainer/devcontainer.jsonに以下の様なファイルが出来上がります。 // For format details, see https://aka.ms/devcontainer.json. For config options, see the // README at: https://github.com/devcontainers/templates/tree/main/src/
最近、他の支援会社ではたらく後輩たちから「クライアントから “業者扱い” されてしまう」という相談をたびたび受けました。 私も支援会社歴が長いので、「業者扱いされたくない」という気持ちはよくわかります。クライアントが上・支援会社が下というコミュニケーションが続けば、担当者はどんどん疲弊してしまう。しかも、問題はそれだけじゃありません。 業者扱いされると、支援会社もつい「指示されたことだけをやればいい」モードに入りがちです。いつしかクライアントの「御用聞き」と化してしまう。そうなれば、期待以上の大きな成果なんて生まれません。それに「御用聞き」ならいくらでも替えがきくので、取引も長くは続かない。このような、クライアントも支援会社もハッピーじゃない案件をいくつか見てきました。 THE MOLTSという支援会社でクライアントの成果に向き合ってきた自分の経験上、「クライアントと支援会社が協働し、物事
はじめに こんにちは、ML・データ部推薦基盤ブロックの栁澤(@i_125)です。私はZOZOのデータ基盤におけるデータガバナンス強化を実現するために、Analytics Engineerとして複数の部門を跨ぐプロジェクトチームに参加しています。本記事ではZOZOにおけるデータガバナンス上の課題と、その課題の解決策の1つとしてdbtを導入した話をご紹介します。 目次 はじめに 目次 背景 課題 データマートの乱立 集計定義のばらつき 依存関係の洗い出しが困難 データモデリングツールの比較検討 データ変換に関する要件 データモデリングツールの選定 レイヤリングによる責務の分離 実装方針 今後の展望 dbtモデルを開発する上で工夫したこと 環境の分離 背景 工夫したこと ダミーデータセットの生成 背景 工夫したこと SQLFluffを使ったフォーマット統一 依存モデルを含むテスト dbt Doc
概要 スタースキーマからスノーフレーク、ギャラクシー、そしてデータボールトやアンカーモデリングまで、各スキーマの特徴、利点、そして適用シナリオを掘り下げます。 スタースキーマ スタースキーマを元に整理します。 スタースキーマ または 星型スキーマ はデータウェアハウスに利用される最も単純なスキーマである。スタースキーマには唯1つもしくは少数のファクト表と複数のディメンション表が含まれる。スタースキーマはスノーフレークスキーマの一種であるが、多くの用途で利用されている。 DWHに利用される最も単純なスキーマ 唯一または少数のファクトテーブルと、複数のディメンションテーブルが含まれる スノーフレークスキーマの一種 モデル ファクト表はデータウェアハウスでの解析で利用され、複数の異なるディメンションに区分される。ファクト表は主要なデータを持つ一方、ディメンション表は相対的にサイズが小さくディメン
データエンジニアリングとは、組織内外で日々生成されるデータを蓄積し分析するためのデータシステムを構築し維持管理することであり、急速に注目を集めている分野です。近年ではデータエンジニアリングを支えるツールやクラウドサービスが成熟し、組織へのデータ利活用の導入は容易になりましたが、明確な指針のないままデータシステムの構築を進めると費用と時間を無駄に費やすことになります。本書は「データエンジニアリングライフサイクル」を軸にデータシステムの要件を整理することで、組織の「データ成熟度」に応じたデータシステム構築の指針を与えます。またデータエンジニアの立ち位置を明確にし、組織内でデータエンジニアが果たすべき役割を示します。 まえがき Ⅰ部 データエンジニアリングの基礎と構成要素 1章 データエンジニアリング概説 1.1 データエンジニアリングとは何か 1.1.1 データエンジニアリングの定義 1.1.
はじめに 私が所属しているライフイズテックのデータ基盤グループで、ここ2年ほどでdbtとterraformを活用してDataOpsを進め、データ基盤の整備の生産性が向上した話をまとめます。 導入前の状況と課題 弊社のデータ基盤ではデータ基盤が綺麗に整備されていることよりも、プロダクトや事業に貢献できているかを重要と考え、まずデータを使える状態にすることを目指したサービスの導入や基盤構築を行いました。 考え方としてはこちらの DWHにおけるデータモデリングで大事にしている考え方に書かれている内容に近い考え方になります。 そのため、データモデリングの前にRedashやCRM AnalyticsというBIツール向けにデータレイクからデータマートを先に構築していました。 terraformとdbt導入前は、図のような流れで SQLでSnowflake上にDBやスキーマなどを作成 ELTサービスとし
はじめに こんにちは、クラウドエース データソリューション部の松本です。 普段はデータ基盤や MLOps の構築をしたり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。また、昨年は Google Cloud Partner Top Engineer 2024 に選出されました。今年も Goodle Cloud 界隈を盛り上げていけるよう頑張っていきたいと思います。 クラウドエース データソリューション部 について クラウドエースのITエンジニアリングを担う システム開発統括部 の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのが データソリューション部 です。 弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があれば エントリー をお待ちしております! 今回は、次世代データ基盤であるデ
dbtや同じ系統のDataformなど、ELTの特にTransform部分に強みを持つツールを使い始めて大体3年になる。主観だけど、それなりに使い倒している部類だと思う。 開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog dbtを触ってみた感想 - yasuhisa's blog dbt カテゴリーの記事一覧 - yasuhisa's blog これらのツールで巷でよく言われる データリネージの可視化ができる データに対するテストが簡単に書ける エンジニア以外の人ともコラボレーションしやすい あたりの話は耳にタコができるくらい聞いていると思うので、ニッチではあるもののそれ以外のdbtの個人的に推しなポイントをダラダラと書いてみたいと思う。データエンジニアやデータガバナンスを推進する人には共感してもらえる内容かもしれない。 推しポイント:
ディメンショナルモデリングに入門しよう!Snowflakeとdbt Cloudで「Building a Kimball dimensional model with dbt」をやってみた さがらです。 ここ2年ほどの間にdbtが日本でも急速に拡大し、様々な情報が日本語の記事でも見かけられるようになってきました。 dbtを採用してある程度活用を進めていくと、「より効率よくガバナンスを持ってデータを管理するにはどうすればいいんだろうか」といったデータの管理方法に悩む場面が出てくると思います。 そんなときに色々調べていくと、データを効率よく管理する手法として「データモデリング」が必要だとわかり、ディメンショナルモデリングやData Vaultなどの手法に行き着くのではないでしょうか。 そしてこれらのデータモデリングの手法の内、ディメンショナルモデリングについてdbtを用いて実践された記事がありま
世間ではデータエンジニアリングが流行しており、エンジニアからは人気が出て、企業からはその能力が求められています。 データエンジニアは、データの収集、蓄積、分析、活用に必要なデータ基盤を構築・運用する職種です。データエンジニアとして活躍するためには、非常に幅広い知識と能力が求められます。 データベース プログラミング システム開発 クラウドサービス データ分析 etc……. 私は多少データエンジニアとして経験を積んできており、業務を行う上で読んで良かったと心から思える本があったのでこちらで紹介します。どなたかの一助になれば幸いです。 初級向けデータエンジニアリング 本ではありませんが、データエンジニアリングに必要な知識がスライドやPDFに綺麗にまとまっています。初めて学ぶ方には適しています。後半はAzure製品について記載されているので、前半のデータエンジニアリングの箇所だけ参考にして下さい
過去最速のスピードでユーザーも売上も獲得したChatGPTは、SaaSのGTM通念を根本から覆した。当ニュースレター含め、業界の老害たちは「いやいやProduct Led Growthとかカッコイイけどね、結局はエンタープライズをやるなら営業組織を作らな…えええFortune 500企業の9割がもうChatGPT使ってるの⁉︎」と泡を食うこととなった。 そんなChatGPTにもハプニングがあった。製造元OpenAIが11月に前代未聞のお家騒動を引き起こし、コーポレートガバナンス的アキレス腱を露呈した。キッシンジャー元米国国務長官も、11月末大往生する直前までAIが孕む地政的リスクを懸念していたが、技術の製品化スピードに、それ以外の側面が追いついていないことは明々白々である。EUはいち早くAIを規制する包括的法案を可決したが、その保守的すぎる姿勢は、引き続きシリコンバレーにおいて嘲笑の的とな
この記事は datatech-jp Advent Calendar 2023 3日目の記事です。 背景・趣旨 筆者(@yuzutas0)は風音屋(@Kazaneya_PR)という会社を経営しており、データ職種の採用・育成に関心を持っています。 複数企業で少ない専門家を奪い合って疲弊するような採用活動ではなく、マーケット全体がより豊かになるような動き方はできないだろうかと模索しています。 1つの実験として、MENTAで「第2新卒が3ヶ月でデータ職種への転職を目指す講座」というトレーニングを提供し、ありがたいことに30名以上の方々に受講いただきました。 ちなみにこの講座は今では風音屋の社内研修になっています。 MENTAの受講者が30名を突破しました🎉 卒業生が風音屋に入社したり、スキルアップして「社内で提案が通るようになった」「現職で活躍できるようになった」という感想もいただいています。
BI Product チームの野本です。 メルカリでは Google BigQuery 監査ログと Google Workspace ログイベントを BigQuery にエクスポートして、データ分析環境の管理に活用しています。アクセス履歴を詳細に調べられる BigQuery 監査ログは、分析環境のコスト最適化やテーブルの変更時の影響範囲調査などの管理業務にとても便利です。 BigQuery の利用が増えてくると、過剰に高頻度なクエリジョブや、使われずに放置されたテーブルなどにかかる無駄なコストも増大していきます。これらの使われていないジョブやテーブルを抽出し削減することで、BigQuery の計算やデータの保管にかかるコストを削減することができます。 メルカリでは、BigQuery 監査ログ、Google Workspace ログイベントを活用して、分析環境の管理業務に役立てていますので、
こんにちは、エンジニアリンググループ、データ基盤チームの木田です。 最近我が家では手作りピザがブームになっており、週末になると度々生地をこねては家庭内ピザパーティーを開催しております。 息子が盛り付けた手作りピザ (本文とは特に関係ありません) さて、エムスリーではBigQueryをメインのデータウェアハウスとして活用していますが、費用最適化の取り組みの 1つとして一部のデータマートでクラスタ化テーブルの活用を始めました。本日はその導入効果をご紹介できればと思います。 この記事は【データ基盤チーム ブログリレー4日目】です。データ基盤チーム設立の経緯についてはブログリレー1日目の鳥山の記事をぜひご覧ください。 www.m3tech.blog はじめに 費用最適化のアプローチ クラスタ化テーブルとは クラスタ化テーブルの作成方法 実際に速く・安くなるのか 複合キーによるクラスタリング クラス
風音屋では、データエンジニア、データアナリスト、データコンサルタントを募集しています。 書籍執筆者やOSSコントリビューターなど、業界を代表する20名以上のアドバイザーと一緒にベストプラクティスを追求できる環境です。 ぜひカジュアルトークをお申し込みください。 兼業データアナリストの星野(@mochigenmai)です。 この記事では dbt 開発で使える SQL スタイルガイドを導入した話について紹介します。 SQL スタイルガイドを導入した背景 現在 dbt を利用したデータパイプライン開発が活発になってきています。 データパイプラインは「信頼性の高い分析」を効率的かつ迅速に実現するために構築します。 そのため、データの信頼性を担保する仕組みは積極的に導入したほうが良いと考えられます。 今回は以下のような点でデータの信頼性を担保できると考え、 dbt 開発環境に SQLFluff (L
風音屋では、データエンジニア、データアナリスト、データコンサルタントを募集しています。 書籍執筆者やOSSコントリビューターなど、業界を代表する20名以上のアドバイザーと一緒にベストプラクティスを追求できる環境です。 ぜひカジュアルトークをお申し込みください。 兼業データアナリストの星野(@mochigenmai)です。 今回 dbt を利用したデータパイプラインの開発時に、SQLFluff(Linter) を動作させる GitHub Actions を構築しました。 GitHub Actions で SQLFluff を動作させる手順は kazaneya/sqlfluff-dbt-starterkit に公開しているので、よかったら活用してみてください。 この記事では GitHub Actions の環境構築時に発覚した情報漏洩リスクの原因と対策を dbt compile の仕様と合わせ
風音屋では、データエンジニア、データアナリスト、データコンサルタントを募集しています。 書籍執筆者やOSSコントリビューターなど、業界を代表する20名以上のアドバイザーと一緒にベストプラクティスを追求できる環境です。 ぜひカジュアルトークをお申し込みください。 風音屋 アドバイザーの “たけっぱ”(@takegue) です。 データを整備できる人材が見つからない、採用できない――。 データ活用を考える多くの企業がぶつかる問題です。 どうすればデータエンジニアに来てもらえるのか。 そもそも「データの整備」はデータエンジニアだけの仕事なのか。 風音屋代表の “ゆずたそ”(@yuzutas0)さん と僕のデータエンジニア2人で考えてみました。 ※この記事は、YouTube動画「データマネジメント.fm」の第2回目「データ整備の人材獲得」 を書き起こし、加筆・修正したものです。 書き起こし・編集:
Pub/Sub schemas are designed to allow safe, structured communication between publishers and subscribers. In particular, the use of schemas provides that guarantee that any message published adheres to a schema and encoding, which the subscriber can rely on when reading the data. Schemas tend to evolve over time. For example, a retailer is capturing web events and sending them to Pub/Sub for downst
はじめにStable DiffusionだとかChatGPT、LLMみたいな「大規模モデル」って考え方が機械学習業界から出て、スケーリング則に基づいてまだまだ精度が上がるとされている昨今。 (スケーリング則はどうのこうの諸説あるが)さておき、「マルチモーダルに」「あらゆるデータを学習した」「大規模なモデル」が今後数年リードしていく事は間違いないと思う。 そんな中で、我々機械学習エンジニアやデータサイエンティスト、アナリスト、データエンジニア、MLOpsエンジニアみたいな、いわゆるAI屋として働いている人たち、皆が所属するAI組織ってどうなっていくのかな、という話を書いてみる。 データの民主化AIの民主化とデータの民主化AI業界では「AIの民主化」というワードがある。 便宜的にAIというワードが広く使われるようになった辺りで出てきたワードで、OSSやプラットフォーム、ハードの発展によって「A
各事業部ごとに、それぞれが担当する法人向けサービスのデータを保有しているパーソルキャリア。垣根を越えてデータ活用を実現すべく、顧客データ基盤を構築したプロジェクトがスタートし、前回は取り組みの全体概要について詳しく話を聞きました。 本プロジェクトでは、データ仮想化・統合ツール「Denodo」を採用してこれまでのデータ統合における課題を解決し、開発工数の削減や拡張性の向上を実現したのだといいます。 パーソルキャリアでは初となる「Denodo」活用の裏側には、どのようなポイントがあったのでしょうか。データとテクノロジーを司るデジタルテクノロジー統括部のエンジニアである寺本、井上、渡邉に話を聞きました。 ETL処理やトラブル時の調査にかかる時間・コストの削減を目指し、「Denodo」の導入を決断 “データマネジメントについて会話しやすい環境” ができ、次のステップに進めた ETL処理やトラブル時
こんにちは。おきゆき (@okiyuki99) です。最近はアナリティクスエンジニア:データアナリスト = 80:20でやっています。数年前まではデータアナリスト・データサイエンティスト成分が多めだったのですが、逆転してきました。 アナリティクスエンジニアというポジションは昨年くらいから急激に見るようになったと思いますが、この記事ではデータアナリストのネクストキャリアとして、アナリティクスエンジニアはいいぞ!という話をします。 ちなみに、dbtの開発者ブログのこの内容にインスパイアされて、自分なりの考えを書いてみようと思いました。 アナリティクスエンジニアとはあらためてアナリティクスエンジニアについて簡単におさらい。dbtのアナリティクスエンジニアリングガイドに書かれているアナリティクスエンジニアの役割を意訳すると以下のように書いています。 データを使って解きたい問いを持つエンドユーザが分
新年になったので今年のやりたいことをまとめようと思いたち筆をとっています。単にやりたいこと書いてもただのポエムになってしまうので、私が今時点で妄想している最強のデータ基盤を描いて、その中でまだ触ったことのない技術を今年触っていこうという意気込みを最後に書こうと思います(意気込みだけにならないように頑張りたいです!) まだ触ったことないものもあるので妄想しているレベルです。 アーキテクチャ図 まず最初に結論から書いていきます。 なぜこのアーキテクチャが最強と思うのか データ基盤として機能を分けると以下の6つの領域に分かれると思っています(もう少し細かく分けることもできたりします。例えばDMBOKとかではホイール図で11の領域に分けたりしています) データ基盤の領域 主に関連するDMBOKの知識領域 主担当
先人の知恵に学ぶ データエンジニア道で、本当に良かった!読み物を、不定期に追記していく。 A Beginner’s Guide to Data Engineering — Part I データエンジニアをこれから始める人に、必ず薦める記事。データエンジニアの基本を学べるかつ、どういう世界に広がっていくのかまで、一気に学べるのでとても良い。 Functional Data Engineering — a modern paradigm for batch data processing 関数型パラダイムを使ったデータパイプラインの構築方法。これを初めて読んだ時の衝撃は今でも忘れないし、フルスクラッチからdbtを使ったデータパイプラインになっても健在な設計手法。 Engineers Shouldn’t Write ETL: A Guide to Building a High Function
データアナリティクス事業本部のコンサルティングチームの石川です。 本日は、2022年5月に発表された論文 「Amazon Redshift re-invented」を実際に読み、難しいところや弊社が実際に検証をした点を補足して解説します。普段はRedshiftの機能や使い方の解説が多く、あまり触れられることの少ないUnder the hoods 的なお話しようと思います。 本エントリはAWS Analytics Advent Calendar 2022の12/24(土)の記事です。 論文の詳細については、2022/12/19のBigData JAWS #22にて、登壇した資料をご覧ください。ブログの中では、紹介した機能についてのブログを紹介しています。 このブログをおすすめする人 オライリーの「データ指向アプリケーションデザイン」や「詳説データベース」とかを読むと、Redshiftの内部が
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。Yahoo!広告のデータマーケティングソリューション(以下、DMS)を開発しているデータアナリストの薄田です。 みなさんは、中間テーブル同士が複雑に絡み合い変更しようにも影響範囲を推定できず、手がつけられない分析パイプラインの保守で苦労された経験はないでしょうか? 私のチームでは数千行におよぶ分析用SQLをリファクタリングして、保守性と生産性を両立する分析パイプラインに生まれ変わらせることができました。 この記事ではリファクタリングを通して確立した、分析用SQLを構造化するための4原則を紹介します。4原則を意識しながらSQLを書くことで、高凝集・疎結合な分析パイプラインを作ることができます。 この記事では凝集度と結合度
こんにちは、Gunosy Tech Lab DR&MLOps チームの楠です。 この記事は Gunosy Advent Calendar 2022 の 11 日目の記事です。 昨日の記事は UT@mocyuto さんの『RailsのフロントをReactへリファクタしたとき、スキーマをOpenAPIベースの自動生成にした話』でした。 この記事では、ELT パイプラインにおける Transformation ツールである dbt の snapshot という機能について紹介した後、snapshot の手法を一般化したディメンションモデリングにおける概念である Slowly Changing Dimension を包括的に紹介します。 はじめに dbt とは? dbt についての参考資料 dbt snapshot とは? どんなときに使える? dbt snapshot のまとめ dbt snap
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く