[4ページ] DWHの人気記事 239件 - はてなブックマーク

121 - 160 件 / 239件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

DWHの検索結果121 - 160 件 / 239件

「鮮度」と「精度」を両立させる広告データ基盤のつくり方 - pixiv inside
- 13 users
- inside.pixiv.blog
- 学び
- 2023/01/27
はじめにアドプラットフォーム事業部でアナリティクスエンジニアをしているucchi-です。ピクシブは、2022年11月24日に「pixiv Ads」という広告ネットワークをリリースしました。広告主は、pixivに広告を少額予算から簡単に出稿できます。 ads.pixiv.net pixiv Adsのデータ基盤では、大きく分けて以下の課題と向き合っています。鮮度：広告の配信状況をリアルタイムに見たいクライアントは、ユーザーに広告を届けるため、常にお金を払い続けます。広告配信条件を誤ると、それだけお金を無駄にしてしまうため、少なくとも数十分以内に配信状況を確認できる必要があります精度：広告の支払い金額は1円の誤差も許さないクライアントは、広告の配信ログから集計した配信実績に基づきお金を支払います。請求金額が絡むため、非常に高い精度のデータ品質が求められますこれらの課題に対し、データ
Google AnalyticsのBigQuery Exportを使って検索ログデータ分析基盤を構築した - エムスリーテックブログ
- 12 users
- www.m3tech.blog
- テクノロジー
- 2021/05/26
エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。好きな言語はGo。仕事では主に検索周りを担当しています。 Overview 医師に質問ができるサービスであるAskDoctorsではユーザーが質問を検索できる機能があり、今回は検索改善タスクのために検索ログデータ分析基盤を構築したお話をします。これにより改善サイクルを回せるようになったり、検索ログを使った各種アルゴリズムが利用可能になりました。データ基盤構築では他チームとの連携が必要不可欠であり、コミュニケーションで工夫した点などもお話できればと思います。 Overview なぜ検索ログデータ分析基盤が必要なのか検索を監視して改善サイクルを回したい各種アルゴリズムに利用できるデータを取得したいデータ分析に利用したいデータアーキテクチャを書き出すイベントとデー
Apache Iceberg - Apache Iceberg
- 11 users
- iceberg.apache.org
- テクノロジー
- 2020/07/02
What is Iceberg? Iceberg is a high-performance format for huge analytic tables. Iceberg brings the reliability and simplicity of SQL tables to big data, while making it possible for engines like Spark, Trino, Flink, Presto, Hive and Impala to safely work with the same tables, at the same time. Expressive SQL Iceberg supports flexible SQL commands to merge new data, update existing rows, and perfor
- Iceberg
- DWH
「Databricks とは？何ができるか」新入社員が感じたイケてる機能１０選 - Qiita
- 10 users
- qiita.com/kohei-arai
- テクノロジー
- 2022/08/19
目次はじめに背景と目的 Databricksとは何か機能紹介共通データエンジニアリング機械学習 Databricks SQL おわりにはじめにこんにちは。Databricks の新井です。Qiita 初投稿です。 2022年の7月よりソリューションアーキテクトとして働き始めました。お客様に弊社製品を知っていただき、導入いただく際の技術サポートを行う役割です。本記事では Databricks にご興味がある皆様に弊社プラットフォームを理解いただくために、新入社員の目線から便利だと感じた10個の機能をまとめました。今後も記事執筆を継続するモチベーションに繋がりますので「いいね」や記事の保存、SNSで共有いただけると嬉しいです。宜しくお願いいたします！背景と目的皆様の中には Databricks という会社に馴染みがない方も多いと思います。米国カリフォルニア州に本社が
- Databricks
ジモティーのデータ活用フローのご紹介 - ジモティー Tech Blog
- 10 users
- jmty-tech.hatenablog.com
- テクノロジー
- 2020/09/30
ジモティーiOSチーム所属のエンジニアの橋本です。普段はiOSアプリの開発に従事していますが､ Webやネイティブアプリ（iOS/Android）の各種計測データの収集や社内への展開などの業務にも従事しています。今回は､自分が担当しているデーター活用周りでの取り組みのご紹介をしたいと思います。組織のコンディション判断と意思決定に利用されるデータ Webアプリやネイティブアプリ（iOS/Android）が生み出す様々なデータは収集･蓄積・加工 ▶ 分析･活用という過程を経るわけですが､その利用目的は大きくは2つです。ジモティーというサービスの現状がどうなのか､サービスのコンディションの善し悪しを判断するための利用ユーザーの利用状況の傾向を把握し､次の打ち手を決める判断材料としての利用この利用目的を達成するためにデータをどのように利用者に届けるかが重要となります。エンジニア
- aws
【禁断の比較？】SnowflakeとTreasure Dataを比べてみました
- 9 users
- knowledge.insight-lab.co.jp
- テクノロジー
- 2021/08/04
ここ最近「SnowflakeとTreasure Dataの違いを教えてほしい」といった質問を頂くことが増えています。どちらもクラウドDWH(データウェアハウス)や、クラウドデータプラットフォームと呼ばれるように、競合するプロダクトですね。クラウドのスケールメリットを活かしている点、ユーザビリティの高いGUIが用意されている点など、共通点が多いです。 2011年に米国で日本人が創業し、 2013年から今日に至るまで日本国内での普及を着実に進めていったTreasure Data。 2012年に米国で元Oracle出身者が創業し、グローバルでの評価を確固たるものとし、満を持して2019年に日本法人を設立したSnowflake。グローバルでの知名度は圧倒的にSnowflakeの方が高いのですが日本国内での歴史はまだ浅く、国内においてはTreasure Dataの方が知名度が高く
スタースキーマと Power BI での重要性を理解する - Power BI
- 9 users
- learn.microsoft.com
- テクノロジー
- 2020/03/07
このブラウザーはサポートされなくなりました。 Microsoft Edge にアップグレードすると、最新の機能、セキュリティ更新プログラム、およびテクニカルサポートを利用できます。この記事は、Power BI Desktop データモデラーを対象としています。スタースキーマの設計と、パフォーマンスおよび使いやすさのために最適化された Power BI データモデルの開発とのその関連性について説明します。この記事は、スタースキーマの設計に関する完全な説明を提供するためのものではありません。詳細については、Ralph Kimball その他による「The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling (2013 年第 3 版)」など、公開されているコンテンツを直接参照してください。ス
ダンボールワンのデータ分析基盤〜dbt導入してみた〜
- 9 users
- zenn.dev/raksul_nakada
- テクノロジー
- 2022/05/11
背景ダンボールワンがラクスルグループに加わり、データ分析基盤を整備したのでその事例紹介ラクスルグループの中で、はじめて dbt を導入してとても良かったので、その部分を中心に紹介整備前はサービスDBの Read Replica に Redash から接続してデータ分析していた Redash で SQL を書いて分析できるメンバーが限られるため、SQL を書けないビジネス側メンバーも自分で分析できる環境が欲しかった（利用者は30名程度）データ分析基盤構成 Data Warehouse Data Warehouse は BigQuery を採用ラクスルグループでは Snowflake を採用しているケースもあるが、今回は Googleスプレッドシートや Googleデータポータルといった BI環境との接続性を重視 BI BI環境は Googleスプレッドシートのコネクテッドシート
財務分析に欠かせない、XBRLを理解する Part1
- 9 users
- medium.com
- テクノロジー
- 2019/10/22
XBRLは、企業の決算報告などに使用されている文書フォーマットです。XMLに近いフォーマットのため、プログラムでアクセスし文書情報や財務数値などを取得することができます。上場企業であれば、EDINETで検索して実際のXBRLファイルを見てみることが可能です。 EDINETの検索画面(使いやすくはない)本記事では、XBRLがどんなフォーマットなのかを解説します。(今まで雰囲気で理解していたのですが、そうもいかなくなってきたことが背景にあります)。本記事の構成は以下のようになっています。 XBRLとはXBRLの仕組みPart1で仕組みを把握し、Part2でPythonを用い実際にXBRLを読んでいきます。 XBRLとはXBRLは”eXtensible Business Reporting Language”の略称です。名前の通り事業報告に特化した文書フォーマットで、XMLをベースにしています。
- 書籍
https://services.google.com/fh/files/blogs/esg_economic_validation_google_bigquery_vs_cloud-based-edws-september_2019.pdf
- 8 users
- services.google.com
- テクノロジー
- 2019/10/25
エンジニア向けのBIツール、QuaryをBigQueryに接続して使ってみた | DevelopersIO
- 8 users
- dev.classmethod.jp
- テクノロジー
- 2024/05/20
こんちには。データアナリティクス事業本部機械学習チームの中村(nokomoro3)です。 Quaryというエンジニア向けのBIツールが気になったので使ってみました。 GitHub - quarylabs/quary: Open-source BI for engineers VSCodeの拡張機能やCLIが準備されており、以下のことができます。データベースへの接続 dbtに類似した機能 sqlファイルとしてmodelを記述可能、schemaもyamlファイルで記述可能 schemaはGUIで操作もでき、リネージも表示可能また簡単なグラフなどもyamlファイルで管理可能対応ソースはBigQueryやSnowflakeなどとなっていますので、今回はBigQueryで試してみようと思います。 BigQuery側の準備前準備として、以下のページにある ml-latest-small.z
「Data Platform Meetup#1」を開催しました & 全発表レポート #DPM - Retty Tech Blog
- 8 users
- engineer.retty.me
- テクノロジー
- 2019/09/19
こんにちはRettyの二見です。9/5にRettyでData Platform Meetup #1を開催しましたので、イベントレポを考察を兼ねて書きたいと思います！ Data Platform Meetupは、自社のデータプラットフォームを設計/開発/利用している方がノウハウを発表したりカジュアルに情報交換できるイベントです。発表者は Retty 竹野 @takegue yuzutas0さん @yuzutas0 エウレカ鉄本さん @tamaki0506 メルカリ石田さん @shoei と各社から豪華な方々に来ていただきました！ 100名の募集に対して200名近くの応募があり、大盛り上がりのイベントとなりました。カルチャーとエンジニアリングを繋ぐデータプラットフォーム（Retty：竹野）データレイク構築後の四方山話（yuzutas0さん） DataPlatform構築プロジェクト推
BigQuery DataFramesを使ってみる | DevelopersIO
- 8 users
- dev.classmethod.jp
- テクノロジー
- 2023/09/19
このデータをBigQuery DataFramesで扱います。内容としては{project_id}.data_set_test.jp_weatherのデータを使ってPandasで行う一般的な分析操作を行います。コードは以下になります。 import os import bigframes.pandas as bpd bpd.options.bigquery.project = os.environ.get("GOOGLE_PROJECT_ID") bpd.options.bigquery.location = "asia-northeast1" df1 = bpd.read_gbq("{project_id}.data_set_test.jp_weather") # df1 = bpd.read_gbq("SELECT * FROM {project_id}.data_set_test.j
- pandas
- bigquery
- python
BigQuery ML の Matrix Factorization で映画の推薦を行ってみる
- 8 users
- techblog.nhn-techorus.com
- テクノロジー
- 2020/05/26
こんにちは。データサイエンスチームの t2sy です。 Google BigQuery は、Google が提供する高スケーラビリティでコスト効率に優れたサーバーレス型のクラウドデータウェアハウス (DWH) です。BigQuery ML を使用すると標準 SQL クエリを用いて機械学習モデルを作成・実行できます。 2020/4/17 に BigQuery ML の Matrix Factorization (Beta) がリリースされました。この記事では、 Using BigQuery ML to make recommendations from movie ratings のチュートリアルを参考に BigQuery ML の Matrix Factorization を MovieLens 20M Dataset に適用し、各ユーザへの映画の推薦を生成してみます。 BigQuer
- 機械学習
- search
Delta LakeとLakehouseプラットフォームによるデータウェアハウス設計 - every Tech Blog
- 8 users
- tech.every.tv
- テクノロジー
- 2021/04/13
Delta LakeとLakehouseプラットフォームによるデータウェアハウス設計こんにちは。ビッグデータ処理基盤の物理レイヤーから論理レイヤーの設計実装、データエンジニアやデータサイエンティストのタスク管理全般を担当している、Data/AI部門の何でも屋マネージャの @smdmts です。この記事は、弊社のデータ基盤の大部分を支えるDelta LakeとLakehouseプラットフォームによるデータウェアハウス設計の紹介です。 Databricks社が主体となり開発しているDelta Lakeをご存じでしょうか？ Delta Lakeは、Apache Sparkを利用したLakehouseプラットフォームを実装可能とするオープンソースです。 Lakehouseプラットフォームの詳細は、こちらの論文に記載されています。 Lakehouseプラットフォームとは、一つのデータレイクのプラ
Google Cloudの監査ログを理解する&長期間保存方法 - NRIネットコムBlog
- 8 users
- tech.nri-net.com
- テクノロジー
- 2021/09/05
こんにちは、上野です。前回に引き続き、Google Cloudのセキュリティ設定第２弾です。今回は監査ログ（Cloud Audit Logs）です。監査ログは「誰が、いつ、どこで、何をしたか」を残すログで、AWSだとCloudTrailですね。目的はAWSと同じなのですが、設定方法や見え方がけっこう異なるので、概要を掴みつつ追加の保存設定を見ていきます。 Google Cloudの監査ログ監査ログには、管理アクティビティ監査ログ、データアクセス監査ログ、システムイベント監査ログ、ポリシー拒否監査ログの4種類存在します。管理アクティビティ監査ログユーザーが VM インスタンスを作成したときや IAM権限を変更したときに記録されるログで、いわゆる一般的な監査ログです。デフォルト有効で、無効にできません。データアクセス監査ログ BigQueryやCloud Storageなど、データ
- security
「DWH・BIツールのこれまでとこれから」Data Engineering Study #1イベントレポート | trocco®(トロッコ)
- 7 users
- blog.trocco.io
- テクノロジー
- 2020/08/14
データ基盤人材への需要が年々増えていることからも、企業のデータ活用はより注目を集めています。しかしゆずたそ氏によると、そこには「そもそもどのような基盤を作ればいいのか分からない」「基盤を作ったのに全然使われない」という2つの落とし穴があるそうです。そこで、実際に使われるデータ基盤の構築について、「使われるデータ基盤」構築の勘所を学ぶことをゴールに「なぜ作るのか（Why）」「どんな要素が必要なのか（What）」「どのように実現するのか（How）」の3つに分けて語られました。ゆずたそ氏：「まずなぜ作るのか、この答えの1つは『お客様』のためです。特にレコメンドやAI活用が増えていく中でデータを活用すること自体が顧客の価値提供になっていきます。もう1つは『現場で働く人』のためです。しっかりとデータを見ながら現場の改善活動によって、業務が磨かれていきます。そして『経営』のためです。しっかり会社全体
BigQuery で統計処理を完結させる | MoT Lab (GO Inc. Engineering Blog)
- 7 users
- lab.mo-t.com
- テクノロジー
- 2021/08/11
はじめまして、AI技術開発部分析グループの浅見です。 Mobility Technologies（MoT）では、BigQuery上でログの保存やデータマート運用を行い、集計や分析をした上で、LookerやGoogleスプレッドシートで効果検証などをレポート化しています。BigQueryはとても強力なツールなのですが、統計処理を入れようとすると、PythonやRなどの別モジュールを構築する必要があり、メンテナンスコストが発生してしまいます。そんな時のため、BigQuery内で統計処理を完結させるちょっとしたTipsを紹介します。 UDFを最大限活用しましょう！本記事の基本的な発想としては、 BigQueryでは、統計処理を行う関数はそこまで充実していません。例えば、t分布の累積分布関数（CDF）さえ計算できれば、t検定のp値を得ることができるのですが、BigQueryの統計集計関数では
- BigQuery
- 統計
[論文紹介] Snowflake - NSDI '20 -
- 7 users
- zenn.dev/tzkoba
- テクノロジー
- 2020/10/23
Building An Elastic Query Engine on Disaggregated Storage 突然始まった、論文紹介シリーズである。データベースに関連する目に付いた論文をざっくりと解説していく。個人的な興味は分散DB、トランザクション、ストレージエンジン等なので、その辺りに偏ることはご容赦頂きたい。初回は「Building An Elastic Query Engine on Disaggregated Storage」（日本語訳：分散ストレージ上での弾力性の高いクエリエンジンの構築）、Snowflakeのアーキテクチャを解説した論文を読んでいく。 ※早速お詫びとなるが、Zennのタイトルで文字数制限があり、正式な論文名を当記事に冠することが出来ない。誤解を招くタイトルだったら申し訳ない。と思ったらこちらに論文の翻訳が発表されていた。英語は苦手だが全文読んで理
- Snowflake
- あとで読む
データ分析システムの全体像を理解する(3) データウェアハウスとスタースキーマ
- 7 users
- thinkit.co.jp
- テクノロジー
- 2021/11/25
はじめに前回は、データ分析の高度化ステップにおける第2ステップ「定型的な分析」と第3ステップ「非定型な分析」の違いを解説しました。「非定型な分析」で使用される分析手法である多次元分析を可能にするためには、データウェアハウス(DWH)と呼ばれる大規模データベースの構築が必要です。また、多次元分析で行われる軸の入れ替え、スライス、ドリルダウン＆ドリルアップといった操作を可能にするには、スタースキーマと呼ばれる特別なデータベース構造を持たせる必要があります。今回は、このデータウェアハウスとスタースキーマについて解説します。データウェアハウスのアーキテクチャデータウェアハウスとは、データ分析システムで利用可能とするデータを一元的に格納するデータベースのことです。データウェアハウスに格納されたデータは、BIツールを通じてさまざまな分析に利用されます(図1)。しかし、データウェアハウスは、単
- DWH
データマネジメント・データエンジニアリング特化の「技術顧問」サービスを提供開始
- 7 users
- prtimes.jp
- テクノロジー
- 2021/10/27
合同会社風音屋（本社：東京都中央区、代表社員：横山翔）は、データ活用やDX推進に関わる方々を対象に、データマネジメントやデータエンジニアリングに特化した「技術顧問」サービスの一般提供を開始します。 ■背景と目的データ活用やDXが注目されている一方で、実際にプロジェクトを進めようとすると「必要なデータが入力されていない」「用途を実現できるほどデータ品質が高くない」「具体的にどのようにデータを連携するのか分からない」といった課題が次々と浮上します。さらに、データ整備に投資をしても「コンサルティング会社や開発ベンダーに任せたがデータ更新が遅延してばかりで改善の兆しがない」「フリーランスのデータエンジニアにシステム構築をお願いしたが、作り逃げされてしまって、残されたシステムの運用に困っている」「内製エンジニア部隊を立ち上げたが、社内にスキルを評価できる管理職がいない」といった組織課題が次々と浮
ストリーミングインサートで重複レコードを削除しながら BigQuery にデータをロードしてみた | DevelopersIO
- 7 users
- dev.classmethod.jp
- テクノロジー
- 2020/06/25
こんにちは、みかみです。 BigQuery にデータをロードする場合、GCS や local のデータを BigQuery ジョブでロードするケースが多いと思いますが、他に tabledata.insertAll メソッドを使用してデータを１行ずつストリーミングインサートすることができます。 BigQuery ジョブの概要｜ BigQuery ドキュメント BigQuery へのデータのストリーミング｜ BigQuery ドキュメントやりたいことストリーミングインサート（ tabledata.insertAll ）の挙動を確認したいストリーミングインサートで insertId を指定した場合の挙動を確認したい insertId 指定で、本当に重複レコードが BigQuery に格納されなくなるか確認したい前提 BigQuery Python クライアントライブラリ（ inser
- bigquery
- python
Redshift から Snowflake に移行した話
- 7 users
- speakerdeck.com/dragontaro
- テクノロジー
- 2021/11/30
Snowflake 社主催の社内勉強会で発表した内容です。
- クラウド
- aws
BigQueryとDocumentAIを使ってスタバのレシートを読み取ってカロリー計算してみた話 - Qiita
- 7 users
- qiita.com/Lana2548_t
- テクノロジー
- 2024/01/29
これを元にフィールドを作成すると以下のようになります。ここでitemというラベルの配下にamount〜priceまでありますが、1つの親フィールドに対して、複数の子フィールドを関係付けることができます。これにより、データ項目をまとめて扱うことができるようです。 2. データセットの作成・アノテーション次にCloud Storageから画像をデータセットとして扱えるようにDocumentAI側にインポートします。今回はあらかじめ写真で撮っておいたレシートの画像をCloud Storageに配置してあります。 DocumentAIの左のタブの「ビルド」を押すと以下のような画面に遷移します。青ボタンの「ドキュメントをインポート」を押すとインポートする際の条件を指定することができます。事前に用意したバケットを指定します。この段階ではデータ分割（トレーニング用データかテスト用データか）の選
- 暮らし
- あとで読む
【Redshift】クエリパターンとパフォーマンスから学ぶCompound SortKeyとInterleaved SortKeyのユースケース | DevelopersIO
- 6 users
- dev.classmethod.jp
- テクノロジー
- 2019/08/21
実行時間はほぼ横ばい。コストはCOMPOUND SORT KEYが一番低く、ソートキーなしとINTERLEAVED SORT KEYは同じ結果に。 -- レコード数1億件未満のテーブル -- セカンダリキーでORDER BY SELECT eventid FROM sales ORDER BY eventid; -- EXPLAIN XN Merge (cost=1000000016724.67..1000000017155.81 rows=172456 width=4) Merge Key: eventid -> XN Network (cost=1000000016724.67..1000000017155.81 rows=172456 width=4) Send to leader -> XN Sort (cost=1000000016724.67..1000000017155.81
Microsoftがデータ分析基盤「Fabric」発表、DWH・AI・ストリーム分析を統合
- 6 users
- xtech.nikkei.com
- テクノロジー
- 2023/05/25
米Microsoft（マイクロソフト）は2023年5月23日（米国時間）、年次イベント「Microsoft Build」で新しいデータ分析プラットフォーム「Microsoft Fabric」を発表した。データレイク「OneLake」を使って一元的にデータを管理し、AI（人工知能）によるアシスト機能「Copilot」も利用できる。イベントに登壇したマイクロソフトのSatya Nadella（サティア・ナデラ）CEO（最高経営責任者）は「全てのAIアプリケーションはデータから始まる。（Fabricは）私たちが何年もかけて取り組んできた製品だ。マイクロソフトのデータ関連製品として、（データベース管理システムである）SQL Server以来、最大の発表になるだろう」と力を込めた。マネージドクラウドサービス「Azure Data Factory」、企業向けデータ分析サービス「Azure Syna
- Azure
- ai
- microsoft
クラシルでのSnowflakeデータパイプラインのお話＆活用Tips - dely Tech Blog
- 6 users
- tech.dely.jp
- テクノロジー
- 2021/12/09
はじめにはじめまして。クラシル開発部でデータエンジニアをしておりますharry(@gappy50)です。この記事は dely Advent Calendar 2021 および Snowflake Advent Calendar 2021の9日目の記事です。昨日はうっくんさんからのNotionでJiraを作ろう！というとても興味津々話でした！！やっぱりNotionは色々できるのでいいですね◎ それと私のお話で恐縮ですが、昨日はSnowflakeのイベントSnowdayにてクラシルでのSnowflakeを活用したニアリアルタイム分析の事例についてお話をさせていただきました。 www.snowflake.com 今回はSnowdayでお話した内容のデータエンジニア寄りな詳細と、どのようにSnowflake*1を活用しているかを紹介させていただきたいと思います！最近のクラシルデータ基盤
データ分析基盤の基本と構築のポイント - データデザイン（富士通クラウドテクノロジーズ）
- 6 users
- data.nifcloud.com
- 世の中
- 2020/07/17
こんにちは。データデザイン部の福本です。主にデータエンジニアとして、データ分析基盤の設計構築を行っています。データを有効に活用するためには、活用するために適切な環境を構築し、そこにデータを適切な形で流し込むことが重要です。今回はデータ分析基盤のベストプラクティスとされている構成と、そのメリットや構築ポイントについて整理します。データ分析基盤の構成データ分析基盤は三層のデータレイヤーで構成されることが多いです。それぞれデータレイク、データウェアハウス、データマートと呼び、持っているデータの性質が異なります。これらのデータベースを収集・整形・加工のプロセスで連携させることで、データ活用がしやすい環境を提供します。各データレイヤーの役割は以下のようになっています。データレイクデータソースとなるシステムやデータベースから収集してきたデータを保存しておく役割をもつのがデータレイク
- DWH
Redshiftの利用状況を可視化して不要なテーブルをお掃除した話 - LIVESENSE ENGINEER BLOG
- 6 users
- made.livesense.co.jp
- テクノロジー
- 2022/12/10
これは Livesense Advent Calendar 2022 DAY 10 の記事です。年末のお掃除捗っていますか？我が家では窓掃除にWV1が大活躍しています。データエンジニアの毛利です。サービス横断のデータ分析基盤であるLivesense Analytics（以降LA）の開発、運用を行っています。背景データ利用状況の可視化テーブルの利用状況 Redshiftユーザーの利用状況運用してみてわかったこと最後に背景データを提供したものの、気がつくとほとんど使われていない、というのはよくある話だと思います。 LAでも様々なデータを提供できるように機能追加してきた結果、日々データは増え続け、システムの保守コストも徐々に膨れ上がってきました。システムは拡張する一方で、人が運用できる範囲には限度があります。いくつか解決方法があるかと思いますが、今回はデータの整理にフォーカスし
- aws
ディメンショナルモデリング入門 / introduction-to-dimensional-modeling
- 6 users
- speakerdeck.com/pei0804
- テクノロジー
- 2023/08/31
Youtube https://www.youtube.com/watch?v=jRBFXbPh1bM イベントページ https://usergroups.snowflake.com/events/details/snowflake-japan-presents-minnanodetamoderujiang-zuo-jin-hua-bian-deimenshiyonarumoderinguru-men/ ディメショナル・モデリングとは https://zenn.dev/pei0804/articles/dimensional-modeling
- データ基盤
YOUTRUSTでdbtを導入した話｜ikki / Data Analyst / YOUTRUST
- 6 users
- note.com/ikki_mz
- テクノロジー
- 2022/09/14
初めまして。YOUTRUSTでデータアナリストをしている宮﨑(@ikki_mz)です。普段は、施策の効果見積もりや検証、ダッシュボード作成、KPI管理、分析基盤整備など、データにまつわる諸々の業務に携わっています。今回は、YOUTRUSTでこの半年ぐらい取り組んでいた、dbt導入とDWH（Data Ware House）整備について、だいぶ整備が進んできて知見も溜まってきたので、これまでやってきたことや、得られたメリットについて書いていきます。この記事は主に、次のような方に向けて書いています。（既にdbtを導入している方には当たり前の内容になっているかもしれません）・dbtを導入しようか迷っている人・DWHをどういう構造にすればいいのか迷っている人・YOUTRUSTのデータ分析環境に興味がある人何か少しでも参考になることがあれば幸いです！ YOUTRUSTの分析環境はじめ
- dbt
AWS DMS と Snowpipe を活用した Snowflake 用リアルタイムデータパイプラインの構築
- 6 users
- zenn.dev/dataheroes
- テクノロジー
- 2021/04/25
(画像は Snowflake 公式 Web サイトのものを流用) 概要データエンジニアとして働いていると RDB 上での変更をリアルタイムで近い形でデータウェアハウスに転送し、即座にデータ分析に利用できるようにしたいというニーズについて相談を受ける機会があります。筆者は、RDB からデータウェアハウスの間のリアルタイムデータパイプライン部分を OSS 中心とクラウドサービス中心の 2 つの構成で構築した経験があります。その際の経験を踏まえて、両者の簡単な比較について紹介します。（前職）OSS 中心のデータパイプライン RDB・・・AWS RDS Aurora (PostgreSQL) BigQuery データパイプライン・・・Kafka、Debezium コンテナオーケストレーション・・・データパイプラインを AWS EKS 上 k8s クラスタにデプロイ（現職）クラウドサービス中
- aws
- あとで読む
Dataformを使ってデータ分析基盤を構築した話 - Leverages データ戦略ブログ
- 6 users
- analytics.leverages.jp
- テクノロジー
- 2023/10/04
はじめにこんにちは。レバレジーズデータ戦略室の辰野です。前回の投稿からいつの間にか1年以上経過していました。引き続きデータマネジメントやデータガバナンスに関連する仕事をしていたのですが、今回は私が昨年度末に取り組んだ、Dataformを利用したデータ分析基盤の構築についてお話させていただきます。 Dataformとは Dataformとは、現在Google Cloudで利用できるデータモデリングツールの一つです。ELT（抽出、読み込み、変換）処理における、T（変換）の部分を管理できます。主な機能として、下記があります。 SQLワークフローを開発、実行できるテーブル同士の依存関係を管理できるテーブルの品質テストができるこれらの機能を利用することで、すべてのデータプロセスを管理することが可能です。（参考：Google Cloud,Dataform の概要） Dataformを導入
- *data
GCP版Dataformで冪等性を担保する設計ポイント3つ - TVer Tech Blog
- 6 users
- techblog.tver.co.jp
- テクノロジー
- 2024/01/05
データエンジニアの遠藤です。 TVer Advent Calendar 2023の24日目の記事になります。はじめに本年（2023年）、Google Cloudのビッグデータ基盤として展開されるBigQueryでは、データガバナンスツールであるDataformがGA（Generally Avaialble）になりました。 cloud.google.com このDataformの登場により、BigQuery上でデータを利活用しやすいように変換する（データマートを生成する）システムの構築が容易になりました。本記事では、Dataform上において、定常実行やリトライ実行を容易にするために、冪等性が担保される設計のテクニックを3点紹介します。（Dataformの基本的な使い方については触れませんのでご注意ください） 1. SQLX内のクエリに変数を用いる DataformはSQLXと呼ばれる
複数スタースキーマ
- 6 users
- zenn.dev/pei0804
- テクノロジー
- 2021/03/14
複数スタースキーマ(Multiple star schema) 1つのファクトで、全ての分析対象がカバー出来ることは稀である。ほとんどのケースで複数のファクトテーブルが必要になるだろう。本当に価値ある分析は複数のプロセスを横断した分析である。これを誤った方法で実現するとどうなるか？どうすれば良いのかを見ていく。スタースキーマの作り方に関しては、別の記事にまとめている。発生タイミングが異なるファクト 2つ以上のファクトがあったとする。それらは同時に発生しないファクトである場合、異なるファクトテーブルに配置するべきである。誤って単一ファクトテーブルにまとめられると、個々の分析が困難になる。もし分けていれば個々に分析が可能になる。ある営業部門で以下のような分析要件があったとする。日付、顧客、製品別注文数量の分析日付、顧客、製品別出荷量の分析ディメンションは日付と顧客。ファクトは製品
Snowflake 向けの DevOps の取り組みと現状の課題についてまとめてみた
- 6 users
- zenn.dev/dataheroes
- テクノロジー
- 2023/10/16
本記事の背景本記事は、某所で密かに行われていた Snowflake DevOps 情報交換会 Season 1 最終回の議論用に共有した内容です。本会は、 DevOps を中心に、また DevOps とは直接は関係ないテーマも含め、その時々において関心のあるテーマを取り扱っていましたが、今回は最終会ということで、本来のテーマである DevOps において、私個人が中心的テーマであると考える構成管理やデプロイの自動化について議論したいと思い、整理しました。中心的テーマを再び取り上げようと考えたきっかけの 1 つが Snowflake Data Superhero の Tomas が LinkedIn で EXECUTE IMMEDIATE FROM という新しい構文について紹介しているのを発見したことです。これはステージ上の SQL ファイルを直接実行できるという機能です。 Tomas
【みんなのデータモデル講座】進化編～ディメンショナルモデリング入門～
- 6 users
- www.youtube.com
- エンタメ
- 2023/09/01
Snowflakeを愛するユーザーたちの集い #SnowVillage の大人気企画『みんなのシリーズ』第三弾が登場！『みんなのデータモデル講座』、第二回はいよいよディメンショナルモデリング入門！その本質や考え方を学びながら、ビジネスプロセスのモデリングにチャレンジします。「実データを見てみたら、理想のデータと乖離がありすぎる…」「扱いにくいデータがあったときはどうすれば…？」適切なモデリングで、価値提供を加速させていきましょう！今回も、NTT DATA 渋谷さん、 CARTA HOLDINGS pei0804さん、 Snowflake株式会社グレースさんがお届けします。第一回【みんなのデータモデル講座】英雄編〜正規化・ERモデルの基礎〜はコチラ https://youtu.be/I2jxAkrolys シリーズ第一弾『みんなのSQL講座』はコチラ https
- DWH
- DB
- video
- design
- あとで読む
Redshift Federated Query for RDS/Aurora MySQL をつかったType-2 Slowly Changing Dimensionの実装 - KAYAC engineers' blog
- 6 users
- techblog.kayac.com
- テクノロジー
- 2021/10/05
こんにちは。技術部の自称データエンジニアの池田です。 Redshift Federated Query for RDS/Aurora MySQL(Federated Query for MySQL)がめでたくGAになりました。 Federated Query for MySQLを使うと、RedshiftからAurora MySQLにクエリを発行し、その結果をRedshift上で利用することができます。今回は、この機能を使ったType-2 Slowly Changing Dimension(SCD2) の実装の話をします。 aws.amazon.com TL;DR Change Data Capture（CDC）を実装・運用するほどじゃないけど、State Sourcingなテーブルの変更履歴を追跡したいときには、SCD2を使うと嬉しいです。 Federated Query for MyS
- redshift
- aws
データウェアハウスを BigQuery に移行するなら、Dataform による BigQuery UDF の単体テストを実施しましょう | Google Cloud 公式ブログ
- 5 users
- cloud.google.com
- テクノロジー
- 2021/10/21
データウェアハウスを BigQuery に移行するなら、Dataform による BigQuery UDF の単体テストを実施しましょう ※この投稿は米国時間 2021 年 10 月 8 日に、Google Cloud blog に投稿されたものの抄訳です。 BigQuery への移行時には、BigQuery ネイティブ関数の充実したライブラリを利用して分析ワークロードを強化できます。既存の関数は、独自のユーザー定義関数（UDF）で拡張することも可能です。人間誰しもミスをするものなので、単体テストを作成して UDF が正しく動作するかを検証することをおすすめします。Dataform のコマンドラインツールはこのニーズを満たし、すべての UDF の単体テストをプログラムで実行できるようにします。 2020 年に Google Cloud が買収した Dataform は、BigQuery
- あとで読む
AWSのDWH「Redshift」がサーバーレスに進化、10年で内部構造はこんなに変わった
- 5 users
- xtech.nikkei.com
- テクノロジー
- 2022/07/22
米Amazon Web Services（アマゾン・ウェブ・サービス、AWS）が2022年7月12日（米国時間）、データウエアハウス（DWH）をサーバーレス化した「Amazon Redshift Serverless」の一般提供を開始した。ユーザー企業は容量設計が一切不要でDWHを利用できる。サーバーレスと言っても、本当にサーバーがなくなったわけではない。これまでのAmazon Redshiftは使い始める際に、ユーザー企業はDWHクラスターで使用する仮想マシンのサイズなどを決める必要があった。仮想マシンの使用料金は1時間単位の従量課金で、クエリーを実行していない場合であっても料金が発生していた。それに対してAmazon Redshift Serverlessの場合は、ユーザー企業は仮想マシンのサイズなどを決める必要はない。クエリーの実行時に自動的にノードが起動して処理が始まり、処理が
- DWH
- AWS