並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 160 件 / 239件

新着順 人気順

DWHの検索結果121 - 160 件 / 239件

  • 「鮮度」と「精度」を両立させる広告データ基盤のつくり方 - pixiv inside

    はじめに アドプラットフォーム事業部でアナリティクスエンジニアをしているucchi-です。 ピクシブは、2022年11月24日に「pixiv Ads」という広告ネットワークをリリースしました。広告主は、pixivに広告を少額予算から簡単に出稿できます。 ads.pixiv.net pixiv Adsのデータ基盤では、大きく分けて以下の課題と向き合っています。 鮮度:広告の配信状況をリアルタイムに見たい クライアントは、ユーザーに広告を届けるため、常にお金を払い続けます。広告配信条件を誤ると、それだけお金を無駄にしてしまうため、少なくとも数十分以内に配信状況を確認できる必要があります 精度:広告の支払い金額は1円の誤差も許さない クライアントは、広告の配信ログから集計した配信実績に基づきお金を支払います。請求金額が絡むため、非常に高い精度のデータ品質が求められます これらの課題に対し、データ

      「鮮度」と「精度」を両立させる広告データ基盤のつくり方 - pixiv inside
    • Google AnalyticsのBigQuery Exportを使って検索ログデータ分析基盤を構築した - エムスリーテックブログ

      エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。 好きな言語はGo。仕事では主に検索周りを担当しています。 Overview 医師に質問ができるサービスであるAskDoctorsではユーザーが質問を検索できる機能があり、今回は検索改善タスクのために検索ログデータ分析基盤を構築したお話をします。これにより改善サイクルを回せるようになったり、検索ログを使った各種アルゴリズムが利用可能になりました。 データ基盤構築では他チームとの連携が必要不可欠であり、コミュニケーションで工夫した点などもお話できればと思います。 Overview なぜ検索ログデータ分析基盤が必要なのか 検索を監視して改善サイクルを回したい 各種アルゴリズムに利用できるデータを取得したい データ分析に利用したい データアーキテクチャを書き出す イベントとデー

        Google AnalyticsのBigQuery Exportを使って検索ログデータ分析基盤を構築した - エムスリーテックブログ
      • Apache Iceberg - Apache Iceberg

        What is Iceberg? Iceberg is a high-performance format for huge analytic tables. Iceberg brings the reliability and simplicity of SQL tables to big data, while making it possible for engines like Spark, Trino, Flink, Presto, Hive and Impala to safely work with the same tables, at the same time. Expressive SQL Iceberg supports flexible SQL commands to merge new data, update existing rows, and perfor

        • 「Databricks とは?何ができるか」新入社員が感じたイケてる機能10選 - Qiita

          目次 はじめに 背景と目的 Databricksとは何か 機能紹介 共通 データエンジニアリング 機械学習 Databricks SQL おわりに はじめに こんにちは。Databricks の新井です。Qiita 初投稿です。 2022年の7月よりソリューションアーキテクトとして働き始めました。 お客様に弊社製品を知っていただき、導入いただく際の技術サポートを行う役割です。 本記事では Databricks にご興味がある皆様に弊社プラットフォームを理解いただくために、新入社員の目線から便利だと感じた10個の機能をまとめました。 今後も記事執筆を継続するモチベーションに繋がりますので「いいね」や記事の保存、SNSで共有いただけると嬉しいです。宜しくお願いいたします! 背景と目的 皆様の中には Databricks という会社に馴染みがない方も多いと思います。 米国カリフォルニア州に本社が

            「Databricks とは?何ができるか」新入社員が感じたイケてる機能10選 - Qiita
          • ジモティーのデータ活用フローのご紹介 - ジモティー Tech Blog

            ジモティーiOSチーム所属のエンジニアの橋本です。 普段はiOSアプリの開発に従事していますが、 Webやネイティブアプリ(iOS/Android)の各種計測データの収集や社内への展開などの業務にも従事しています。 今回は、自分が担当しているデーター活用周りでの取り組みのご紹介をしたいと思います。 組織のコンディション判断と意思決定に利用されるデータ Webアプリやネイティブアプリ(iOS/Android)が生み出す様々なデータは 収集・蓄積・加工 ▶ 分析・活用 という過程を経るわけですが、その利用目的は大きくは2つです。 ジモティーというサービスの現状がどうなのか、 サービスのコンディションの善し悪しを判断するための利用 ユーザーの利用状況の傾向を把握し、次の打ち手を決める判断材料としての利用 この利用目的を達成するためにデータをどのように利用者に届けるかが重要となります。 エンジニア

              ジモティーのデータ活用フローのご紹介 - ジモティー Tech Blog
            • 【禁断の比較?】SnowflakeとTreasure Dataを比べてみました

              ここ最近「SnowflakeとTreasure Dataの違いを教えてほしい」 といった質問を頂くことが増えています。 どちらもクラウドDWH(データウェアハウス)や、 クラウドデータプラットフォームと呼ばれるように、競合するプロダクトですね。 クラウドのスケールメリットを活かしている点、 ユーザビリティの高いGUIが用意されている点など、共通点が多いです。 2011年に米国で日本人が創業し、 2013年から今日に至るまで日本国内での普及を着実に進めていったTreasure Data。 2012年に米国で元Oracle出身者が創業し、 グローバルでの評価を確固たるものとし、 満を持して2019年に日本法人を設立したSnowflake。 グローバルでの知名度は圧倒的にSnowflakeの方が高いのですが 日本国内での歴史はまだ浅く、 国内においてはTreasure Dataの方が知名度が高く

                【禁断の比較?】SnowflakeとTreasure Dataを比べてみました
              • スター スキーマと Power BI での重要性を理解する - Power BI

                このブラウザーはサポートされなくなりました。 Microsoft Edge にアップグレードすると、最新の機能、セキュリティ更新プログラム、およびテクニカル サポートを利用できます。 この記事は、Power BI Desktop データ モデラーを対象としています。 スター スキーマの設計と、パフォーマンスおよび使いやすさのために最適化された Power BI データ モデルの開発とのその関連性について説明します。 この記事は、スター スキーマの設計に関する完全な説明を提供するためのものではありません。 詳細については、Ralph Kimball その他による「The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling (2013 年第 3 版)」など、公開されているコンテンツを直接参照してください。 ス

                  スター スキーマと Power BI での重要性を理解する - Power BI
                • ダンボールワンのデータ分析基盤〜dbt導入してみた〜

                  背景 ダンボールワンがラクスルグループに加わり、データ分析基盤を整備したのでその事例紹介 ラクスルグループの中で、はじめて dbt を導入してとても良かったので、その部分を中心に紹介 整備前はサービスDBの Read Replica に Redash から接続してデータ分析していた Redash で SQL を書いて分析できるメンバーが限られるため、SQL を書けないビジネス側メンバーも自分で分析できる環境が欲しかった(利用者は30名程度) データ分析基盤構成 Data Warehouse Data Warehouse は BigQuery を採用 ラクスルグループでは Snowflake を採用しているケースもあるが、今回は Googleスプレッドシート や Googleデータポータル といった BI環境との接続性を重視 BI BI環境は Googleスプレッドシートのコネクテッドシート

                    ダンボールワンのデータ分析基盤〜dbt導入してみた〜
                  • 財務分析に欠かせない、XBRLを理解する Part1

                    XBRLは、企業の決算報告などに使用されている文書フォーマットです。XMLに近いフォーマットのため、プログラムでアクセスし文書情報や財務数値などを取得することができます。上場企業であれば、EDINETで検索して実際のXBRLファイルを見てみることが可能です。 EDINETの検索画面(使いやすくはない)本記事では、XBRLがどんなフォーマットなのかを解説します。(今まで雰囲気で理解していたのですが、そうもいかなくなってきたことが背景にあります)。本記事の構成は以下のようになっています。 XBRLとはXBRLの仕組みPart1で仕組みを把握し、Part2でPythonを用い実際にXBRLを読んでいきます。 XBRLとはXBRLは”eXtensible Business Reporting Language”の略称です。名前の通り事業報告に特化した文書フォーマットで、XMLをベースにしています。

                      財務分析に欠かせない、XBRLを理解する Part1
                    • https://services.google.com/fh/files/blogs/esg_economic_validation_google_bigquery_vs_cloud-based-edws-september_2019.pdf

                      • エンジニア向けのBIツール、QuaryをBigQueryに接続して使ってみた | DevelopersIO

                        こんちには。 データアナリティクス事業本部 機械学習チームの中村(nokomoro3)です。 Quaryというエンジニア向けのBIツールが気になったので使ってみました。 GitHub - quarylabs/quary: Open-source BI for engineers VSCodeの拡張機能やCLIが準備されており、以下のことができます。 データベースへの接続 dbtに類似した機能 sqlファイルとしてmodelを記述可能、schemaもyamlファイルで記述可能 schemaはGUIで操作もでき、リネージも表示可能 また簡単なグラフなどもyamlファイルで管理可能 対応ソースはBigQueryやSnowflakeなどとなっていますので、今回はBigQueryで試してみようと思います。 BigQuery側の準備 前準備として、以下のページにある ml-latest-small.z

                          エンジニア向けのBIツール、QuaryをBigQueryに接続して使ってみた | DevelopersIO
                        • 「Data Platform Meetup#1」を開催しました & 全発表レポート #DPM - Retty Tech Blog

                          こんにちはRettyの二見です。9/5にRettyでData Platform Meetup #1を開催しましたので、イベントレポを考察を兼ねて書きたいと思います! Data Platform Meetupは、自社のデータプラットフォームを設計/開発/利用している方がノウハウを発表したりカジュアルに情報交換できるイベントです。 発表者は Retty 竹野 @takegue yuzutas0さん @yuzutas0 エウレカ 鉄本さん @tamaki0506 メルカリ 石田さん @shoei と各社から豪華な方々に来ていただきました! 100名の募集に対して200名近くの応募があり、大盛り上がりのイベントとなりました。 カルチャーとエンジニアリングを繋ぐデータプラットフォーム(Retty:竹野) データレイク構築後の四方山話(yuzutas0さん) DataPlatform構築プロジェクト推

                            「Data Platform Meetup#1」を開催しました & 全発表レポート #DPM - Retty Tech Blog
                          • BigQuery DataFramesを使ってみる | DevelopersIO

                            このデータをBigQuery DataFramesで扱います。内容としては{project_id}.data_set_test.jp_weatherのデータを使ってPandasで行う一般的な分析操作を行います。コードは以下になります。 import os import bigframes.pandas as bpd bpd.options.bigquery.project = os.environ.get("GOOGLE_PROJECT_ID") bpd.options.bigquery.location = "asia-northeast1" df1 = bpd.read_gbq("{project_id}.data_set_test.jp_weather") # df1 = bpd.read_gbq("SELECT * FROM {project_id}.data_set_test.j

                              BigQuery DataFramesを使ってみる | DevelopersIO
                            • BigQuery ML の Matrix Factorization で映画の推薦を行ってみる

                              こんにちは。データサイエンスチームの t2sy です。 Google BigQuery は、Google が提供する高スケーラビリティでコスト効率に優れたサーバーレス型のクラウド データウェアハウス (DWH) です。BigQuery ML を使用すると標準 SQL クエリを用いて機械学習モデルを作成・実行できます。 2020/4/17 に BigQuery ML の Matrix Factorization (Beta) がリリースされました。 この記事では、 Using BigQuery ML to make recommendations from movie ratings のチュートリアルを参考に BigQuery ML の Matrix Factorization を MovieLens 20M Dataset に適用し、各ユーザへの映画の推薦を生成してみます。 BigQuer

                                BigQuery ML の Matrix Factorization で映画の推薦を行ってみる
                              • Delta LakeとLakehouseプラットフォームによるデータウェアハウス設計 - every Tech Blog

                                Delta LakeとLakehouseプラットフォームによるデータウェアハウス設計 こんにちは。ビッグデータ処理基盤の物理レイヤーから論理レイヤーの設計実装、データエンジニアやデータサイエンティストのタスク管理全般を担当している、Data/AI部門の何でも屋マネージャの @smdmts です。 この記事は、弊社のデータ基盤の大部分を支えるDelta LakeとLakehouseプラットフォームによるデータウェアハウス設計の紹介です。 Databricks社が主体となり開発しているDelta Lakeをご存じでしょうか? Delta Lakeは、Apache Sparkを利用したLakehouseプラットフォームを実装可能とするオープンソースです。 Lakehouseプラットフォームの詳細は、こちらの論文に記載されています。 Lakehouseプラットフォームとは、一つのデータレイクのプラ

                                  Delta LakeとLakehouseプラットフォームによるデータウェアハウス設計 - every Tech Blog
                                • Google Cloudの監査ログを理解する&長期間保存方法 - NRIネットコムBlog

                                  こんにちは、上野です。 前回に引き続き、Google Cloudのセキュリティ設定第2弾です。今回は監査ログ(Cloud Audit Logs)です。 監査ログは「誰が、いつ、どこで、何をしたか」を残すログで、AWSだとCloudTrailですね。目的はAWSと同じなのですが、設定方法や見え方がけっこう異なるので、概要を掴みつつ追加の保存設定を見ていきます。 Google Cloudの監査ログ 監査ログには、管理アクティビティ監査ログ、データアクセス監査ログ、システムイベント監査ログ、ポリシー拒否監査ログの4種類存在します。 管理アクティビティ監査ログ ユーザーが VM インスタンスを作成したときや IAM権限を変更したときに記録されるログで、いわゆる一般的な監査ログです。デフォルト有効で、無効にできません。 データアクセス監査ログ BigQueryやCloud Storageなど、データ

                                    Google Cloudの監査ログを理解する&長期間保存方法 - NRIネットコムBlog
                                  • 「DWH・BIツールのこれまでとこれから」Data Engineering Study #1イベントレポート | trocco®(トロッコ)

                                    データ基盤人材への需要が年々増えていることからも、企業のデータ活用はより注目を集めています。しかしゆずたそ氏によると、そこには「そもそもどのような基盤を作ればいいのか分からない」「基盤を作ったのに全然使われない」という2つの落とし穴があるそうです。そこで、実際に使われるデータ基盤の構築について、「使われるデータ基盤」構築の勘所を学ぶことをゴールに「なぜ作るのか(Why)」「どんな要素が必要なのか(What)」「どのように実現するのか(How)」の3つに分けて語られました。 ゆずたそ氏:「まずなぜ作るのか、この答えの1つは『お客様』のためです。特にレコメンドやAI活用が増えていく中でデータを活用すること自体が顧客の価値提供になっていきます。もう1つは『現場で働く人』のためです。しっかりとデータを見ながら現場の改善活動によって、業務が磨かれていきます。そして『経営』のためです。しっかり会社全体

                                      「DWH・BIツールのこれまでとこれから」Data Engineering Study #1イベントレポート | trocco®(トロッコ)
                                    • BigQuery で統計処理を完結させる | MoT Lab (GO Inc. Engineering Blog)

                                      はじめまして、AI技術開発部 分析グループ の浅見です。 Mobility Technologies(MoT)では、BigQuery上でログの保存やデータマート運用を行い、集計や分析をした上で、LookerやGoogleスプレッドシートで効果検証などをレポート化しています。BigQueryはとても強力なツールなのですが、統計処理を入れようとすると、PythonやRなどの別モジュールを構築する必要があり、メンテナンスコストが発生してしまいます。 そんな時のため、BigQuery内で統計処理を完結させるちょっとしたTipsを紹介します。 UDFを最大限活用しましょう!本記事の基本的な発想としては、 BigQueryでは、統計処理を行う関数はそこまで充実していません。例えば、t分布の累積分布関数(CDF)さえ計算できれば、t検定のp値を得ることができるのですが、BigQueryの統計集計関数では

                                        BigQuery で統計処理を完結させる | MoT Lab (GO Inc. Engineering Blog)
                                      • [論文紹介] Snowflake - NSDI '20 -

                                        Building An Elastic Query Engine on Disaggregated Storage 突然始まった、論文紹介シリーズである。 データベースに関連する目に付いた論文をざっくりと解説していく。個人的な興味は分散DB、トランザクション、ストレージエンジン等なので、その辺りに偏ることはご容赦頂きたい。 初回は「Building An Elastic Query Engine on Disaggregated Storage」(日本語訳:分散ストレージ上での弾力性の高いクエリエンジンの構築)、Snowflakeのアーキテクチャを解説した論文を読んでいく。 ※早速お詫びとなるが、Zennのタイトルで文字数制限があり、正式な論文名を当記事に冠することが出来ない。誤解を招くタイトルだったら申し訳ない。 と思ったら こちらに論文の翻訳が発表されていた。英語は苦手だが全文読んで理

                                          [論文紹介] Snowflake - NSDI '20 -
                                        • データ分析システムの全体像を理解する(3) データウェアハウスとスタースキーマ

                                          はじめに 前回は、データ分析の高度化ステップにおける第2ステップ「定型的な分析」と第3ステップ「非定型な分析」の違いを解説しました。 「非定型な分析」で使用される分析手法である多次元分析を可能にするためには、データウェアハウス(DWH)と呼ばれる大規模データベースの構築が必要です。また、多次元分析で行われる軸の入れ替え、スライス、ドリルダウン&ドリルアップといった操作を可能にするには、スタースキーマと呼ばれる特別なデータベース構造を持たせる必要があります。今回は、このデータウェアハウスとスタースキーマについて解説します。 データウェアハウスのアーキテクチャ データウェアハウスとは、データ分析システムで利用可能とするデータを一元的に格納するデータベースのことです。データウェアハウスに格納されたデータは、BIツールを通じてさまざまな分析に利用されます(図1)。 しかし、データウェアハウスは、単

                                            データ分析システムの全体像を理解する(3) データウェアハウスとスタースキーマ
                                          • データマネジメント・データエンジニアリング特化の「技術顧問」サービスを提供開始

                                            合同会社風音屋(本社:東京都中央区、代表社員:横山翔)は、データ活用やDX推進に関わる方々を対象に、データマネジメントやデータエンジニアリングに特化した「技術顧問」サービスの一般提供を開始します。 ■背景と目的 データ活用やDXが注目されている一方で、実際にプロジェクトを進めようとすると「必要なデータが入力されていない」「用途を実現できるほどデータ品質が高くない」「具体的にどのようにデータを連携するのか分からない」といった課題が次々と浮上します。 さらに、データ整備に投資をしても「コンサルティング会社や開発ベンダーに任せたがデータ更新が遅延してばかりで改善の兆しがない」「フリーランスのデータエンジニアにシステム構築をお願いしたが、作り逃げされてしまって、残されたシステムの運用に困っている」「内製エンジニア部隊を立ち上げたが、社内にスキルを評価できる管理職がいない」といった組織課題が次々と浮

                                              データマネジメント・データエンジニアリング特化の「技術顧問」サービスを提供開始
                                            • ストリーミングインサートで重複レコードを削除しながら BigQuery にデータをロードしてみた | DevelopersIO

                                              こんにちは、みかみです。 BigQuery にデータをロードする場合、GCS や local のデータを BigQuery ジョブでロードするケースが多いと思いますが、他に tabledata.insertAll メソッドを使用してデータを1行ずつストリーミングインサートすることができます。 BigQuery ジョブの概要 | BigQuery ドキュメント BigQuery へのデータのストリーミング | BigQuery ドキュメント やりたいこと ストリーミングインサート( tabledata.insertAll )の挙動を確認したい ストリーミングインサートで insertId を指定した場合の挙動を確認したい insertId 指定で、本当に重複レコードが BigQuery に格納されなくなるか確認したい 前提 BigQuery Python クライアントライブラリ( inser

                                                ストリーミングインサートで重複レコードを削除しながら BigQuery にデータをロードしてみた | DevelopersIO
                                              • Redshift から Snowflake に移行した話

                                                Snowflake 社主催の社内勉強会で発表した内容です。

                                                  Redshift から Snowflake に移行した話
                                                • BigQueryとDocumentAIを使ってスタバのレシートを読み取ってカロリー計算してみた話 - Qiita

                                                  これを元にフィールドを作成すると以下のようになります。 ここでitemというラベルの配下にamount〜priceまでありますが、1つの親フィールドに対して、複数の子フィールドを関係付けることができます。これにより、データ項目をまとめて扱うことができるようです。 2. データセットの作成・アノテーション 次にCloud Storageから画像をデータセットとして扱えるようにDocumentAI側にインポートします。 今回はあらかじめ写真で撮っておいたレシートの画像をCloud Storageに配置してあります。 DocumentAIの左のタブの「ビルド」を押すと以下のような画面に遷移します。 青ボタンの「ドキュメントをインポート」を押すとインポートする際の条件を指定することができます。 事前に用意したバケットを指定します。この段階ではデータ分割(トレーニング用データかテスト用データか)の選

                                                    BigQueryとDocumentAIを使ってスタバのレシートを読み取ってカロリー計算してみた話 - Qiita
                                                  • 【Redshift】クエリパターンとパフォーマンスから学ぶCompound SortKeyとInterleaved SortKeyのユースケース | DevelopersIO

                                                    実行時間はほぼ横ばい。コストはCOMPOUND SORT KEYが一番低く、ソートキーなしとINTERLEAVED SORT KEYは同じ結果に。 -- レコード数1億件未満のテーブル -- セカンダリキーでORDER BY SELECT eventid FROM sales ORDER BY eventid; -- EXPLAIN XN Merge (cost=1000000016724.67..1000000017155.81 rows=172456 width=4) Merge Key: eventid -> XN Network (cost=1000000016724.67..1000000017155.81 rows=172456 width=4) Send to leader -> XN Sort (cost=1000000016724.67..1000000017155.81

                                                      【Redshift】クエリパターンとパフォーマンスから学ぶCompound SortKeyとInterleaved SortKeyのユースケース | DevelopersIO
                                                    • Microsoftがデータ分析基盤「Fabric」発表、DWH・AI・ストリーム分析を統合

                                                      米Microsoft(マイクロソフト)は2023年5月23日(米国時間)、年次イベント「Microsoft Build」で新しいデータ分析プラットフォーム「Microsoft Fabric」を発表した。データレイク「OneLake」を使って一元的にデータを管理し、AI(人工知能)によるアシスト機能「Copilot」も利用できる。 イベントに登壇したマイクロソフトのSatya Nadella(サティア・ナデラ)CEO(最高経営責任者)は「全てのAIアプリケーションはデータから始まる。(Fabricは)私たちが何年もかけて取り組んできた製品だ。マイクロソフトのデータ関連製品として、(データベース管理システムである)SQL Server以来、最大の発表になるだろう」と力を込めた。 マネージドクラウドサービス「Azure Data Factory」、企業向けデータ分析サービス「Azure Syna

                                                        Microsoftがデータ分析基盤「Fabric」発表、DWH・AI・ストリーム分析を統合
                                                      • クラシルでのSnowflakeデータパイプラインのお話&活用Tips - dely Tech Blog

                                                        はじめに はじめまして。 クラシル開発部でデータエンジニアをしておりますharry(@gappy50)です。 この記事は dely Advent Calendar 2021 および Snowflake Advent Calendar 2021の9日目の記事です。 昨日はうっくんさんからのNotionでJiraを作ろう!というとても興味津々話でした!! やっぱりNotionは色々できるのでいいですね◎ それと私のお話で恐縮ですが、昨日はSnowflakeのイベントSnowdayにてクラシルでのSnowflakeを活用したニアリアルタイム分析の事例についてお話をさせていただきました。 www.snowflake.com 今回はSnowdayでお話した内容のデータエンジニア寄りな詳細と、どのようにSnowflake*1を活用しているかを紹介させていただきたいと思います! 最近のクラシルデータ基盤

                                                          クラシルでのSnowflakeデータパイプラインのお話&活用Tips - dely Tech Blog
                                                        • データ分析基盤の基本と構築のポイント - データデザイン(富士通クラウドテクノロジーズ)

                                                          こんにちは。データデザイン部の福本です。 主にデータエンジニアとして、データ分析基盤の設計構築を行っています。 データを有効に活用するためには、活用するために適切な環境を構築し、そこにデータを適切な形で流し込むことが重要です。 今回はデータ分析基盤のベストプラクティスとされている構成と、そのメリットや構築ポイントについて整理します。 データ分析基盤の構成 データ分析基盤は三層のデータレイヤーで構成されることが多いです。 それぞれデータレイク、データウェアハウス、データマートと呼び、持っているデータの性質が異なります。 これらのデータベースを収集・整形・加工のプロセスで連携させることで、データ活用がしやすい環境を提供します。 各データレイヤーの役割は以下のようになっています。 データレイク データソースとなるシステムやデータベースから収集してきたデータを保存しておく役割をもつのがデータレイク

                                                            データ分析基盤の基本と構築のポイント - データデザイン(富士通クラウドテクノロジーズ)
                                                          • Redshiftの利用状況を可視化して不要なテーブルをお掃除した話 - LIVESENSE ENGINEER BLOG

                                                            これは Livesense Advent Calendar 2022 DAY 10 の記事です。 年末のお掃除捗っていますか?我が家では窓掃除にWV1が大活躍しています。 データエンジニアの毛利です。サービス横断のデータ分析基盤であるLivesense Analytics(以降LA)の開発、運用を行っています。 背景 データ利用状況の可視化 テーブルの利用状況 Redshiftユーザーの利用状況 運用してみてわかったこと 最後に 背景 データを提供したものの、気がつくとほとんど使われていない、というのはよくある話だと思います。 LAでも様々なデータを提供できるように機能追加してきた結果、日々データは増え続け、システムの保守コストも徐々に膨れ上がってきました。システムは拡張する一方で、人が運用できる範囲には限度があります。いくつか解決方法があるかと思いますが、今回はデータの整理にフォーカスし

                                                              Redshiftの利用状況を可視化して不要なテーブルをお掃除した話 - LIVESENSE ENGINEER BLOG
                                                            • ディメンショナル モデリング入門 / introduction-to-dimensional-modeling

                                                              Youtube https://www.youtube.com/watch?v=jRBFXbPh1bM イベントページ https://usergroups.snowflake.com/events/details/snowflake-japan-presents-minnanodetamoderujiang-zuo-jin-hua-bian-deimenshiyonarumoderinguru-men/ ディメショナル・モデリングとは https://zenn.dev/pei0804/articles/dimensional-modeling

                                                                ディメンショナル モデリング入門 / introduction-to-dimensional-modeling
                                                              • YOUTRUSTでdbtを導入した話|ikki / Data Analyst / YOUTRUST

                                                                初めまして。YOUTRUSTでデータアナリストをしている宮﨑(@ikki_mz)です。 普段は、施策の効果見積もりや検証、ダッシュボード作成、KPI管理、分析基盤整備など、データにまつわる諸々の業務に携わっています。 今回は、YOUTRUSTでこの半年ぐらい取り組んでいた、dbt導入とDWH(Data Ware House)整備について、だいぶ整備が進んできて知見も溜まってきたので、これまでやってきたことや、得られたメリットについて書いていきます。 この記事は主に、次のような方に向けて書いています。 (既にdbtを導入している方には当たり前の内容になっているかもしれません) ・dbtを導入しようか迷っている人 ・DWHをどういう構造にすればいいのか迷っている人 ・YOUTRUSTのデータ分析環境に興味がある人 何か少しでも参考になることがあれば幸いです! YOUTRUSTの分析環境 はじめ

                                                                  YOUTRUSTでdbtを導入した話|ikki / Data Analyst / YOUTRUST
                                                                • AWS DMS と Snowpipe を活用した Snowflake 用リアルタイムデータパイプラインの構築

                                                                  (画像は Snowflake 公式 Web サイトのものを流用) 概要 データエンジニアとして働いていると RDB 上での変更をリアルタイムで近い形でデータウェアハウスに転送し、即座にデータ分析に利用できるようにしたいというニーズについて相談を受ける機会があります。 筆者は、RDB からデータウェアハウスの間のリアルタイムデータパイプライン部分を OSS 中心とクラウドサービス中心の 2 つの構成で構築した経験があります。その際の経験を踏まえて、両者の簡単な比較について紹介します。 (前職)OSS 中心のデータパイプライン RDB・・・AWS RDS Aurora (PostgreSQL) BigQuery データパイプライン・・・Kafka、Debezium コンテナオーケストレーション・・・データパイプラインを AWS EKS 上 k8s クラスタにデプロイ (現職)クラウドサービス中

                                                                    AWS DMS と Snowpipe を活用した Snowflake 用リアルタイムデータパイプラインの構築
                                                                  • Dataformを使ってデータ分析基盤を構築した話 - Leverages データ戦略ブログ

                                                                    はじめに こんにちは。レバレジーズ データ戦略室の辰野です。 前回の投稿からいつの間にか1年以上経過していました。引き続きデータマネジメントやデータガバナンスに関連する仕事をしていたのですが、今回は私が昨年度末に取り組んだ、Dataformを利用したデータ分析基盤の構築についてお話させていただきます。 Dataformとは Dataformとは、現在Google Cloudで利用できるデータモデリングツールの一つです。ELT(抽出、読み込み、変換)処理における、T(変換)の部分を管理できます。主な機能として、下記があります。 SQLワークフローを開発、実行できる テーブル同士の依存関係を管理できる テーブルの品質テストができる これらの機能を利用することで、すべてのデータプロセスを管理することが可能です。 (参考:Google Cloud,Dataform の概要) Dataformを導入

                                                                      Dataformを使ってデータ分析基盤を構築した話 - Leverages データ戦略ブログ
                                                                    • GCP版Dataformで冪等性を担保する設計ポイント3つ - TVer Tech Blog

                                                                      データエンジニアの遠藤です。 TVer Advent Calendar 2023の24日目の記事になります。 はじめに 本年(2023年)、Google Cloudのビッグデータ基盤として展開されるBigQueryでは、データガバナンスツールであるDataformがGA(Generally Avaialble)になりました。 cloud.google.com このDataformの登場により、BigQuery上でデータを利活用しやすいように変換する(データマートを生成する)システムの構築が容易になりました。 本記事では、Dataform上において、定常実行やリトライ実行を容易にするために、冪等性が担保される設計のテクニックを3点紹介します。(Dataformの基本的な使い方については触れませんのでご注意ください) 1. SQLX内のクエリに変数を用いる DataformはSQLXと呼ばれる

                                                                        GCP版Dataformで冪等性を担保する設計ポイント3つ - TVer Tech Blog
                                                                      • 複数スタースキーマ

                                                                        複数スタースキーマ(Multiple star schema) 1つのファクトで、全ての分析対象がカバー出来ることは稀である。ほとんどのケースで複数のファクトテーブルが必要になるだろう。本当に価値ある分析は複数のプロセスを横断した分析である。これを誤った方法で実現するとどうなるか?どうすれば良いのかを見ていく。 スタースキーマの作り方に関しては、別の記事にまとめている 。 発生タイミングが異なるファクト 2つ以上のファクトがあったとする。それらは同時に発生しないファクトである場合、異なるファクトテーブルに配置するべきである。誤って単一ファクトテーブルにまとめられると、個々の分析が困難になる。もし分けていれば個々に分析が可能になる。 ある営業部門で以下のような分析要件があったとする。 日付、顧客、製品別注文数量の分析 日付、顧客、製品別出荷量の分析 ディメンションは日付と顧客。ファクトは製品

                                                                          複数スタースキーマ
                                                                        • Snowflake 向けの DevOps の取り組みと現状の課題についてまとめてみた

                                                                          本記事の背景 本記事は、某所で密かに行われていた Snowflake DevOps 情報交換会 Season 1 最終回の議論用に共有した内容です。 本会は、 DevOps を中心に、また DevOps とは直接は関係ないテーマも含め、その時々において関心のあるテーマを取り扱っていましたが、今回は最終会ということで、本来のテーマである DevOps において、私個人が中心的テーマであると考える構成管理やデプロイの自動化について議論したいと思い、整理しました。 中心的テーマを再び取り上げようと考えたきっかけの 1 つが Snowflake Data Superhero の Tomas が LinkedIn で EXECUTE IMMEDIATE FROM という新しい構文について紹介しているのを発見したことです。これはステージ上の SQL ファイルを直接実行できるという機能です。 Tomas

                                                                            Snowflake 向けの DevOps の取り組みと現状の課題についてまとめてみた
                                                                          • 【みんなのデータモデル講座】進化編~ディメンショナルモデリング入門~

                                                                            Snowflakeを愛するユーザーたちの集い #SnowVillage の大人気企画 『みんなのシリーズ』第三弾が登場! 『みんなのデータモデル講座』、第二回はいよいよディメンショナルモデリング入門! その本質や考え方を学びながら、ビジネスプロセスのモデリングにチャレンジします。 「実データを見てみたら、理想のデータと乖離がありすぎる…」 「扱いにくいデータがあったときはどうすれば…?」 適切なモデリングで、価値提供を加速させていきましょう! 今回も、NTT DATA 渋谷さん、 CARTA HOLDINGS pei0804さん、 Snowflake株式会社 グレースさんがお届けします。 第一回【みんなのデータモデル講座】英雄編〜正規化・ERモデルの基礎〜はコチラ https://youtu.be/I2jxAkrolys シリーズ第一弾『みんなのSQL講座』はコチラ https

                                                                              【みんなのデータモデル講座】進化編~ディメンショナルモデリング入門~
                                                                            • Redshift Federated Query for RDS/Aurora MySQL をつかったType-2 Slowly Changing Dimensionの実装 - KAYAC engineers' blog

                                                                              こんにちは。技術部の自称データエンジニアの池田です。 Redshift Federated Query for RDS/Aurora MySQL(Federated Query for MySQL)がめでたくGAになりました。 Federated Query for MySQLを使うと、RedshiftからAurora MySQLにクエリを発行し、その結果をRedshift上で利用することができます。 今回は、この機能を使ったType-2 Slowly Changing Dimension(SCD2) の実装の話をします。 aws.amazon.com TL;DR Change Data Capture(CDC)を実装・運用するほどじゃないけど、State Sourcingなテーブルの変更履歴を追跡したいときには、SCD2を使うと嬉しいです。 Federated Query for MyS

                                                                                Redshift Federated Query for RDS/Aurora MySQL をつかったType-2 Slowly Changing Dimensionの実装 - KAYAC engineers' blog
                                                                              • データ ウェアハウスを BigQuery に移行するなら、Dataform による BigQuery UDF の単体テストを実施しましょう | Google Cloud 公式ブログ

                                                                                データ ウェアハウスを BigQuery に移行するなら、Dataform による BigQuery UDF の単体テストを実施しましょう ※この投稿は米国時間 2021 年 10 月 8 日に、Google Cloud blog に投稿されたものの抄訳です。 BigQuery への移行時には、BigQuery ネイティブ関数の充実したライブラリを利用して分析ワークロードを強化できます。既存の関数は、独自のユーザー定義関数(UDF)で拡張することも可能です。人間誰しもミスをするものなので、単体テストを作成して UDF が正しく動作するかを検証することをおすすめします。Dataform のコマンドライン ツールはこのニーズを満たし、すべての UDF の単体テストをプログラムで実行できるようにします。 2020 年に Google Cloud が買収した Dataform は、BigQuery

                                                                                  データ ウェアハウスを BigQuery に移行するなら、Dataform による BigQuery UDF の単体テストを実施しましょう | Google Cloud 公式ブログ
                                                                                • AWSのDWH「Redshift」がサーバーレスに進化、10年で内部構造はこんなに変わった

                                                                                  米Amazon Web Services(アマゾン・ウェブ・サービス、AWS)が2022年7月12日(米国時間)、データウエアハウス(DWH)をサーバーレス化した「Amazon Redshift Serverless」の一般提供を開始した。ユーザー企業は容量設計が一切不要でDWHを利用できる。 サーバーレスと言っても、本当にサーバーがなくなったわけではない。これまでのAmazon Redshiftは使い始める際に、ユーザー企業はDWHクラスターで使用する仮想マシンのサイズなどを決める必要があった。仮想マシンの使用料金は1時間単位の従量課金で、クエリーを実行していない場合であっても料金が発生していた。 それに対してAmazon Redshift Serverlessの場合は、ユーザー企業は仮想マシンのサイズなどを決める必要はない。クエリーの実行時に自動的にノードが起動して処理が始まり、処理が

                                                                                    AWSのDWH「Redshift」がサーバーレスに進化、10年で内部構造はこんなに変わった