並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 231件

新着順 人気順

DWHの検索結果41 - 80 件 / 231件

  • N予備校のデータ分析基盤構築に向けた取り組み - ドワンゴ教育サービス開発者ブログ

    はじめに 昨今Webに限らずあらゆる事業領域において、蓄積されたデータの活用は必要不可欠、やっていて当たり前なものになってきているかと思います。これまでこのブログではあまりそういう話題に触れてこなかったこともあり、本稿では改めてドワンゴ教育サービスにおけるデータの活用に関する取り組みについて、概要レベルにはなりますがご紹介したいと思います。 はじめに N予備校における従来のデータの取り扱い 現在の取り組み 本番環境のデータのBigQueryへの蓄積 データ活用のプロトタイピング そのほかのデータ活用に関連する取り組みや展望 N予備校のアーキテクチャ・パイプラインの検討 分析対象のデータ拡充 データの管理体制 機械学習技術等の活用 おわりに We are hiring! N予備校における従来のデータの取り扱い まず従来から行われているN予備校におけるデータ活用の取り組みについて紹介します。現

      N予備校のデータ分析基盤構築に向けた取り組み - ドワンゴ教育サービス開発者ブログ
    • DWHを活用した機械学習プロジェクト/ml-with-dwh

      Data Platform Meetup 【vol.2】 https://data-platform-meetup.connpass.com/event/155073/ での発表スライドです。 クックパッドにおける,DWHと密に連携した機械学習プロジェクトの話です。

        DWHを活用した機械学習プロジェクト/ml-with-dwh
      • Snowflake の Copilot が優秀すぎる件について

        マーケティングテクノロジーの情報やノウハウ・TIPS、エクスチュア社の情報を発信。【ブログネタ募集】ご興味のある分野を教えてください!ご要望の内容を記事に起こします!メニューの「ブログへの」リクエストよりお送りください。 menu こんにちは、喜田です。 いままでSnowflakeのライトユーザーで一部機能だけに特化して触っている状態でしたが、最近はData Superheroes 2024になったこともあり、いままで関わりの薄かった製品領域も調査したり、海外リージョンでしか出ていないプレビューを触ったりしています。 そのうちの一つがCopilotで、いまは北米など一部リージョンでのみパブリックプレビュー中の、Snowflakeコード開発が一段と捗るAIおしゃべり機能です。 この右側のパネルがCopilotとのチャット。出力が多くてチャットっぽくないですが、上から会話が続いております。 C

          Snowflake の Copilot が優秀すぎる件について
        • [動画公開] データ分析を支える技術 データモデリング再入門 #devio2022 | DevelopersIO

          データアナリティクス事業本部のコンサルティングチームの石川です。クラスメソッド主催のオンラインカンファレンス、Developers.IO 2022にて「データ分析を支える技術 データモデリング再入門」というテーマにてセッション動画と資料を公開いたしました。 セッション概要 「仏作って魂入れず」ということわざがありますが、データモデリングせずにDWHという「器」を導入しただけでは、データ分析は捗りません。 データモデリングを考えずに導入したデータ分析基盤は、データマートの乱立、もしくは、データが分かりにくく、分析に手間がかかるため、あまり使われなくなってしまったり、分析に適さないテーブル構造や構成による性能低下、オーバープロビジョニングによるコスト上昇などの問題が考えられます。 DWH(データウェアハウス)のデータモデリングとは何か、代表的なDWHのデータモデリング手法の紹介と、長所・短所、

            [動画公開] データ分析を支える技術 データモデリング再入門 #devio2022 | DevelopersIO
          • dbtを触ってみた感想 - yasuhisa's blog

            データエンジニア系の勉強会で最近dbtがぱらぱらと話題に出てくるようになった & 4連休ということで、夏休みの自由研究がてらdbtを触ってみました。書いてる人のバックグラウンドは以下の通り。 DWHやデータマートの構築のためのETLツールを模索中(特にTの部分) プライベートではDataformを使っている 前職でも仕事の一部で使っていた 開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog 定期バッチ処理はArgo Workflows on GKEでやっている 触ってみないと肌感とか自分で運用できるかのイメージが湧かないのでね。 Dataformとの比較 細かいノウハウ 手元や本番環境での動作 Argo Workflowとの連携 環境によってDWHの提供するバージョンを差し替える DWHやデータマートの外の情報をデータリネージに加える 既存

              dbtを触ってみた感想 - yasuhisa's blog
            • DWHにおけるデータモデル 定番から最新トレンドまで

              Kubernetesでアプリの安定稼働と高頻度のアップデートを両立するためのプラクティス / Best Practices for Applications on Kubernetes�to Achieve Both Frequent Updates and Stability

                DWHにおけるデータモデル 定番から最新トレンドまで
              • データカタログ特集 データ利活用に向けたアーキテクチャ6選 - Findy Tools

                整備したデータ基盤を、事業部や会社全体で活用に持っていく中で「データカタログ」の必要性が増々注目を集めています。 今回は、データカタログを導入し、データ利活用に挑んでいる6社に、アーキテクチャの工夫ポイントからデータカタログ導入によって得られた効果などを伺いました。 ◆目次 株式会社10X 株式会社ビットキー 株式会社エブリー 株式会社Luup Sansan株式会社 株式会社ZOZO 株式会社10X 事業内容 10Xでは「10xを創る」をミッションとし、小売向けECプラットフォーム「Stailer」の提供を通じて、スーパーやドラッグストア等のオンライン事業立ち上げ・運営支援を行っています。Stailerでは業務構築におけるコンサルティングから、必要な商品マスタやお客様アプリ・スタッフ向けのオペレーションシステム等の提供、配達システムの提供、販売促進の支援など、データを分析しながら一気通貫で

                  データカタログ特集 データ利活用に向けたアーキテクチャ6選 - Findy Tools
                • 書籍紹介:大規模データ管理(エンタープライズアーキテクチャのベストプラクティス) | フューチャー技術ブログ

                  最近読んだ書籍の中で非常に良質な内容でしたので紹介したいと思います。少しでも多くの方に興味を持ってもらえることを期待しています。 O’Reilly Japan はじめに私自身がデータ管理(データマネージメント)という観点でここ数年様々な検討を行ってきていますので前提としてその背景について簡単にまとめてみます。 かつてオンプレミスで運用を行っていた時は企業内のデータは完全に管理されていました。データウェアハウスを導入してデータの集約・加工は行われていましたが、専門チームがデータ仕様確認やデータ提供までもすべての責任を担っていました。品質は高いのですが利用者からの要望(新しいデータの提供、仕様の変更)の対応についてはスピード大きな制約がありました。また大規模なデータを扱うためには多大なコストが必要という制約もあります。 クラウド技術による「スモールスタートを可能とするインフラ」「大規模なデータ

                    書籍紹介:大規模データ管理(エンタープライズアーキテクチャのベストプラクティス) | フューチャー技術ブログ
                  • データウェアハウスのバージョン管理をどうやるか - yasuhisa's blog

                    というのをチームで議論する機会があったので、書いてみます。「うちではこうしている」とか「ここはこっちのほうがいいんじゃない?」とかあったらコメントで教えてください。 背景 / 前提 データウェアハウスのテーブルを社内に広く提供したい 初期の提供時期が過ぎてしばらくすると、要望を元にスキーマの変更や集計ロジックの変更が入る (事前にレビューはもちろんするが)SQLのミスなどで以前のバージョンに戻したいといったことがありえる 他の部門では新しいバージョンをすでに使っていて、気軽に戻せないこともある データウェアハウスのバージョンを場面に応じて複数提供できると都合がよい 一方で、大多数のデータウェアハウスのユーザーは最新バージョンの利用だけでよいはず SSOT(Single Source of Truth)になっていて欲しいわけなので... 複数バージョン見えていると「どのバージョンを使えばいい

                      データウェアハウスのバージョン管理をどうやるか - yasuhisa's blog
                    • 累計参加者8,500名! #DataEngineeringStudy の43スライドから学ぶ、データエンジニアリングの羅針盤 / 20220224

                      primeNumber主催イベント「01(zeroONE)」兼「DataEngineeringStudy番外編」の登壇資料です。掲載内容は収録時点の情報にもとづきます。 https://01.primenumber.co.jp/ https://forkwell.connpass.com/event/237704/

                        累計参加者8,500名! #DataEngineeringStudy の43スライドから学ぶ、データエンジニアリングの羅針盤 / 20220224
                      • 開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog

                        Dataformを初めて使ってみたので、雑に感想を書いておきます。結構よかった。 使ってみようとした背景 Dataformについて 試してみてどうだったか よかった まだまだこれからっぽいところ & 気になり 参考 使ってみようとした背景 今週、社内の開発合宿に参加していた。変更のリードタイムやデプロイ頻度などのFour Keysにあるような指標を計測できるデータ基盤を作るのが目標。様々なチームの開発のパフォーマンスをトラッキングしやすくして、うまくできているチームがなぜうまくいっているのかを明らかにしたり、改善施策を行なった結果指標も改善しているか定量的に確認できるようにして、開発効率を上げる土台を作るというのが目的。この辺の詳しいことは後々別のエントリで書かれると思う。 自分のチームは3人構成で、在宅のオンラインでやっていた。 id:shiba_yu36さん Mackerelチームでも

                          開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog
                        • BigQueryでSaaSのjsonデータを処理するSQLサンプル集 - 下町柚子黄昏記 by @yuzutas0

                          この記事の概要 SaaSのデータをBigQueryに統合することで業務改善を促進できる。 しかし、SaaSのデータの中身を見ると、BigQueryの関数では対応しにくい形式になっていることがある。 そこで、本稿では「こういうデータ形式だったらこういうSQLを書く」というサンプル集を掲載する。 目次 この記事の概要 目次 宣伝 実現したいこと SaaSデータの処理方法 SQLサンプル1: 純粋な配列だけのケース SQLサンプル2: 配列内にハッシュマップがあるケース SQLサンプル3: 配列宣言ナシでカンマ区切りのハッシュマップが突如始まるケース SQLサンプル4: 配列とハッシュが入り乱れるケース SQLサンプル5: JSONの中に親子構造があるケース SQLサンプル6: Objectを定義したくなるケース 最強のJSONパースの関数は作れるか jsonデータの処理をどこで行うか 最後に

                            BigQueryでSaaSのjsonデータを処理するSQLサンプル集 - 下町柚子黄昏記 by @yuzutas0
                          • dbtを使ったELTデータパイプライン構築と運用事例 - DataEngineeringStudy #13

                            DataEngineeringStudy #13に10Xの瀧本が登壇した際の資料です。

                              dbtを使ったELTデータパイプライン構築と運用事例 - DataEngineeringStudy #13
                            • タイミーデータ基盤のモデリング設計について - Timee Product Team Blog

                              はじめに こんにちはokodoonです タイミーのデータ基盤に対してデータモデリングを始めてしばらく経ったので、現状の全体構成を紹介したいと思います 全体構成 弊社のBigQueryは以下の4層にレイヤリングされています それぞれの役割は以下のような切り分けになっています レイヤー名 役割 データレイク層 複数ソースシステムのデータを未加工の状態でBigQueryにロードする宛先 dbt snapshotによるソースの履歴化 ステージング層 複数ソースシステムのデータを共通した処理でクレンジングする層 DWH層 ソースシステムのデータ形式を分析に適した形に変換する層 ディメンショナルモデリング/ログテーブルをイベント単位に分割/その他便利テーブル作成 データマート層 特定用途に対して1:1で作成されたテーブル群を格納する層 ダッシュボード用テーブル/Looker用テーブル/GoogleSh

                                タイミーデータ基盤のモデリング設計について - Timee Product Team Blog
                              • CI/CDのボトルネックを把握できていますか?BigQueryでビルド情報ダッシュボードを構築した話

                                https://event.cloudnativedays.jp/cicd2021/talks/1152 開発人数が多く、規模の大きいプロダクトでは最終的な成果物をビルドするだけで1時間以上かかってしまうことも珍しくありません。ですが最初からそれほど時間がかかっていたわけではなく、時間とともに巨大化するコードベース、追加されたステップなどによりいつの間にかどこかの処理がボトルネックとなっていることが多いでしょう。 CIサービスの多くは成功/失敗の情報、全体としてのビルド時間の情報は見やすく提供していますが、各ステップの時間やステップのエラー率などの細かい粒度の情報を時系列で確認する機能までは提供されていないことが多いです。そのため、ボトルネック箇所を特定するためには過去の生ビルドログを自分の目で確認するコストが高い作業が必要でした。 そこで、Jenkins, CircleCI, Githu

                                  CI/CDのボトルネックを把握できていますか?BigQueryでビルド情報ダッシュボードを構築した話
                                • AI活用やデータ分析をする前に知っておきたい!エンタープライズデータアーキテクチャ入門/ What You Need to Know Before Using AI and Analyzing Data! Introduction to Enterprise Data Architecture

                                  次のイベントの投影資料です。 https://studyco.connpass.com/event/251782/

                                    AI活用やデータ分析をする前に知っておきたい!エンタープライズデータアーキテクチャ入門/ What You Need to Know Before Using AI and Analyzing Data! Introduction to Enterprise Data Architecture
                                  • BigQueryで行う、 機械学習のための データ前処理

                                    知識と実践を紡ぐGenAI / Connecting Knowledge and experience with GenAI

                                      BigQueryで行う、 機械学習のための データ前処理
                                    • 入社4ヶ月でBigQueryの課金額を減らすために考えたこと - 弁護士ドットコム株式会社 Creators’ blog

                                      データ分析基盤室の otobe(𝕏@UC_DBengineer) です。 事業規模が拡大し、大規模なデータの管理が必要になるにつれて、SnowFlake や BigQuery のようなハイパワーな DWH サービスでデータを加工するケースは多いです。 その際、想定外な高額請求が起こる原因のひとつに、クエリが最適化されておらずスキャン量が増大しているケースがあります。 そのため、クエリのスキャン量を監視・管理することが課金額を減らすうえで有効な手段となることがあります。 本記事では、前半で BigQuery で課金されるスキャン量を監視・管理するまでのプロセスを振り返り、 後半で BigQuery の課金額を減らすために簡単にチェックできることについてお話しします。 BigQuery クエリにおけるスキャン量を監視・管理するに至った理由 BigQuery の課金額が想定より大幅に増加してい

                                        入社4ヶ月でBigQueryの課金額を減らすために考えたこと - 弁護士ドットコム株式会社 Creators’ blog
                                      • BigQueryで傾向スコア分析|Dentsu Digital Tech Blog|note

                                        電通デジタルで機械学習エンジニアをしている今井です。 本記事では、BigQueryで傾向スコア分析を行うための方法について紹介します。 広告効果ってあったの?広告効果とは、広告に接触した場合と接触していない場合とのその後のコンバージョン(例えば、購入金額や継続期間など)の差である、と言えます。 しかしながら、同一ユーザーにおいて、広告に接触した場合と接触していない場合とを同時に観測することはできません。 これを反実仮想(counterfactual)と呼びます。 そこで提案されたのが平均処置効果(average treatment effect, ATE)です。 広告に接触したユーザー群(𝑤=1)と接触していないユーザー群(𝑤=0)とのその後のコンバージョン(𝑦 )の差を広告効果とするものです。 ここで、介入(広告に接触する)の有無以外の条件が公平になるようにユーザー郡が分かれていれ

                                          BigQueryで傾向スコア分析|Dentsu Digital Tech Blog|note
                                        • DataWareHouse,DataMartを整備して分析がやりやすくなった話 - ANDPAD Tech Blog

                                          こんにちは、データ基盤チームの大洞です。 2021年4月にANDPADにジョインしてから、データ基盤やデータ分析にかかわってきました。 今回は、データ分析を効率的にするために、DataWareHouse、DataMartを整備した話を紹介したいと思います。 データ基盤の全体像 まずは、簡単にデータ基盤の全体像を紹介します。 左から順に説明していきます。 ① SaaS Data 実際に稼働しているANDPADのDBやSalesforceなどの業務で利用しているサービスです。ここからデータを出力し、S3に保存します。 ②ETL Stack 分析はBigQueryで行っているので、ここからGCSに移動させます。 ③Analytics Stack GCSに移動されたファイルをBigqueryにロードします。 ④Anatytics 用途に応じて、Jupyter、Metabase、スプレッドシートなど

                                            DataWareHouse,DataMartを整備して分析がやりやすくなった話 - ANDPAD Tech Blog
                                          • BigQuery で ROW_NUMBER(), RANK() を使うな!

                                            どういうことか たとえば created_at が最も新しいレコード 1 件だけ取ってきたいとか、成績のよいレコード上位 5 件を取ってきたいといったとき、よくある方法として RANK() や ROW_NUMBER() のような番号付け関数を使う方法が思い浮かぶと思いますが、BigQuery ではこれらの関数ではなく ARRAY_AGG() 集計分析関数を使うことが推奨されています。 先に結論を ARRAY_AGG() を使うことでクエリの計算を最適化でき、スロット使用量(計算量)が少なく済みます。スロット使用量の上限を定めている場合、非効率なクエリがいくつも実行されるとキューイングされる可能性があるため理由がなければ ARRAY_AGG() を使いましょう。 ドキュメントによれば ORDER BY 句が各 GROUP BY 句のトップレコードを除くすべてを捨てることができるため効率がいい

                                              BigQuery で ROW_NUMBER(), RANK() を使うな!
                                            • SQL で Matrix Factorization を実装しました - TVer Tech Blog

                                              こんにちは データを眺めている森藤です TVer ではたくさんのデータがあって、どこをほっくり返してもなんか有用な知見が出てくるので毎日楽しいです。 現状 さて、現状はまだまだこれからなのですが、レコメンドのアルゴリズムや実装について考えるのも仕事の一つです。 レコメンドといえば、いろいろな手法やベースとなる考え方、タイミングなど様々なものがありますが、そのうちの一つとして、協調フィルタリングというものがあります。 これは端的に言うと、「これを見ている人はこれも見ています」的なやつです。 ただ、協調フィルタリングは実世界において適用が難しく、TVer でも多分にもれずそのまま適用するには課題があります。 大きな課題が「ユーザは限られたコンテンツ(エピソード)しか閲覧しないため、これを見た人はこれも見ています」と適用することが難しい、というものです user_id series_id 1 3

                                                SQL で Matrix Factorization を実装しました - TVer Tech Blog
                                              • 統計ダッシュボード機能を BigQuery と BI Engine で実装する

                                                先日、統計ダッシュボード機能(β)をリリースしました。記事をひとつでも公開している場合、Zennにログインすればどなたでも統計情報を表示できます。執筆頻度の確認や閲覧回数の参考にお役立てください。 本稿ではどのように実現したかについて課題とともに記録します。 TL;DR 投稿ページの表示イベントは Google Analytics から BigQuery へ連携しており、イベントデータ(BigQuery)と記事データ(Cloud SQL)をどうJOINさせるかが課題 外部接続でBigQueryからCloud SQLつなぐことにした 統計データ読み出し時、BigQueryを直接使うとクエリ毎に課金されてしまうため、BigQuery BI Engine を使うことにした スケジュールクエリを使い、BI Engineの容量に収まるように集計データを最小限にまとめる チャートは Chart.js

                                                  統計ダッシュボード機能を BigQuery と BI Engine で実装する
                                                • Snowflakeがもたらした noteのデータ分析の進化

                                                  DATA CLOUD WORLD TOUR JAPAN Day 2 15:05-15:35 の発表のスライドです。

                                                    Snowflakeがもたらした noteのデータ分析の進化
                                                  • Dataformでデータ分析基盤を整備した話 - Adwaysエンジニアブログ

                                                    こんにちは佐藤です。 今回はサービスのデータ分析基盤を作成する際に使用したDataformについて紹介させていただきます。 背景 Dataformについて 導入して良かったこと 依存関係がわかりやすい クエリのテスト 工夫した点 フォルダの構成について データセット名、テーブル名について シャーディングテーブルの定義について 最後に 背景 現在、広告部署に所属する私たちのチームは自社のサービスデータと外部データを分析してユーザーの利用率向上につながる仮説検証をおこなうプロジェクトを進めています。 その中で様々なデータをTableauを用いて分析しており、データソースとして主にBigQueryを使用しているのですが、現状、分析データの加工、集計処理についてBigQueryのスケジュールされたクエリで作成したりtableau側のカスタムクエリで作成したりと対応方法がバラバラで管理自体ができてい

                                                      Dataformでデータ分析基盤を整備した話 - Adwaysエンジニアブログ
                                                    • 自社プロダクトのデータ基盤における BigQuery SQLテストシステムについて - Platinum Data Blog by BrainPad

                                                      「データ活用をより多くの人が、より効率的に実施できるようになる取り組み」をエンジニア観点から自発的に実施するカルチャーを持つ、自社開発プロダクト「Rtoaster(アールトースター)」のエンジニアチーム。今回は、データ基盤チームで作成した BigQuery でのテストシステムを紹介します! こんにちは、プロダクトビジネス本部開発部の柴内(データ基盤チーム)です。今回は、自社製品である「Rtoaster」プロダクトのデータ基盤チームで作成した BigQuery でのテストシステムについてご紹介します。 背景 データ基盤チームでは、 Rtoaster製品からリアルタイムに連携される、WebやアプリのトラッキングといったデータをGCSや BigQuery に蓄積するデータレイク データレイクにあるデータを BigQuery で加工・変換して利用しやすい形式にしたデータマートやデータウェアハウス

                                                        自社プロダクトのデータ基盤における BigQuery SQLテストシステムについて - Platinum Data Blog by BrainPad
                                                      • [動画公開] データ分析を支える技術 DWH再入門 #devio2020 | DevelopersIO

                                                        データアナリティクス事業本部の石川です。今週より開催しているクラスメソッド主催のオンラインカンファレンス、Developers.IO 2020 CONNECTにて「データ分析を支える技術 DWH再入門」というテーマにてセッション動画と資料を公開いたしました。 セッション概要 分かりそうで分からないDWH、何のために導入して、どのようにデータを管理・蓄積するのか、どうやって利用するのか、普通のDBと何が違って、アーキテクチャどうなっているかなど、コンサルの現場でよく尋ねられる疑問について解説します。 本セッションでは、DWHを理解するのに必要となる基礎的な用語について一通り網羅するように心がけました。DBは使ったことがあるけど、DWHはよく分からないという人には最適なセッションです。 DWH再入門 DWHの特性 ディメンジョナルデータモデル 分析データの利用 一般的なDBとDWHの相違点 D

                                                          [動画公開] データ分析を支える技術 DWH再入門 #devio2020 | DevelopersIO
                                                        • データマーケティングの強い味方!?BigQueryと大規模言語モデル(LLM)の統合で始める検索意図分析の事例|田口 信元

                                                          データマーケティングの強い味方!?BigQueryと大規模言語モデル(LLM)の統合で始める検索意図分析の事例 初めまして、Ubie Product Platformのグロースチームでエンジニアをしてる田口です。「健康が空気のように自然になる世界」を目指し、症状検索による発症から受診までのサポートするサービス症状検索エンジン「ユビ―」を提供しています。 さて、サービスを成長させる上で、ユーザーの行動を理解することが不可欠です。ユーザーが何を求め、どのようにサービスを利用しているのかを知ることで、サービスの満足度を向上させるための改善策が見えてきます。 しかし、大規模なウェブサイトの場合、分析すべき検索クエリが膨大になっているという課題がありました。 今回は、ML.GENERATE_TEXTを用いてプロンプトベースのデータパイプラインを作り、ユーザーの検索意図分析を行ってみた事例を紹介します

                                                            データマーケティングの強い味方!?BigQueryと大規模言語モデル(LLM)の統合で始める検索意図分析の事例|田口 信元
                                                          • 6,000スロットを使うBigQueryのリソース配分最適化への挑戦

                                                            BigQueryのリソース配分最適化のため、プロジェクトへのコミットメントの割り当てパターンや、スロット消費の多いクエリの見つけ方などについて調査した結果をまとめてみました

                                                              6,000スロットを使うBigQueryのリソース配分最適化への挑戦
                                                            • BigQueryのストレージ料金プランを変更して、年間数千万円を節約する - ZOZO TECH BLOG

                                                              こんにちは、最近気になるニュースはサザエの学名が数年前に初めて命名されたこと1な、MLデータ部データ基盤ブロックの塩崎です。BigQueryのストレージに関する新料金プランが先日発表されたので、その検証をしました。我々の環境では年間で数千万円という費用削減を達成できることが分かりましたので、BigQueryに多くのデータを蓄積している会社は是非お試しください。 ストレージ費用の悩み データ基盤を長期間運用していると、データ量の増加が問題になることがしばしばあります。特にユーザーの行動ログやスタースキーマにおけるファクト系テーブルなどはデータがどんどん蓄積されます。古いデータを削除することでデータ量の増加を緩和できますが、それでもサービスの成長に伴いデータ量は増加する傾向になります。 BigQueryはコンピューティングとストレージが高度に分離されているので、初期のAmazon Redshi

                                                                BigQueryのストレージ料金プランを変更して、年間数千万円を節約する - ZOZO TECH BLOG
                                                              • BigQuery MLにAutoML Tables、XGBoost、DNN、ARIMAが来たのでおさらい - Qiita

                                                                BigQuery MLにAutoML Tables、XGBoost、DNN、ARIMAが来たのでおさらいBigQueryDNNxgboostAutoMLBigqueryML はじめに 日本時間2020-06-17のリリースで、BigQuery MLにAutoML Tables、XGBoost、DNNが来ました。release-notes#June_16_2020 おさらいに、BigQuery MLで何ができるか再整理します。 追記: 日本時間2020-07-02のリリースで、BigQuery MLにARIMAも来ましたね。日本時間2020-06-28のリリースノートでエラーになってたのですが、リリース日がしれっと修正されてました。release-notes#July_01_2020 BigQuery MLでできること概要 BigQueryでStandard SQLを使って、機械学習モデルを

                                                                  BigQuery MLにAutoML Tables、XGBoost、DNN、ARIMAが来たのでおさらい - Qiita
                                                                • DWH改善に生かす! 入門elementary - yasuhisa's blog

                                                                  前提: これは何? dbtを使ったデータプロダクトを作っている社内のチームメンバー向けに書いた勉強会用のドキュメントです 社外に公開できるように少し抽象化して書いてます DWHに限らずdbtを使ったデータプロダクトで生かせる話ですが、分かりやすさのためにDWHを題材にしています 3行まとめ elementaryはdbtを利用しているデータパイプラインに対してData Observabilityを強化するツールであり、付属のリッチなレポートやSlachへのアラート通知が便利です しかし、実はelementaryが内部で生成している成果物はDWHの改善に役に立つものがたくさんあります 本エントリではelementaryの成果物や役に立つ実例を多めに紹介します 前提: これは何? 3行まとめ 背景: DWHとデータ品質 Observability / Data Observabilityについて

                                                                    DWH改善に生かす! 入門elementary - yasuhisa's blog
                                                                  • [レポート] モダンデータウェアハウスにおける「キンボール」〜残す価値のあるもの、ないもの #dbtcoalesce | DevelopersIO

                                                                    [レポート] モダンデータウェアハウスにおける「キンボール」〜残す価値のあるもの、ないもの #dbtcoalesce 大阪オフィスの玉井です。 2020年12月7日〜11日の間、Fishtown Analytics社がcoalesceというオンラインイベントを開催していました(SQLを触っている方はピンとくるイベント名ではないでしょうか)。 「Fishtown Analytics社って何やってる会社?」という感じですが、dbtというツールを開発しているベンダーです。dbtについては、下記をご覧ください。 今回は、その中からKimball in the context of the modern data warehouse: what's worth keeping, and what's notというセッションを受講したので、レポートを記します。 イベント概要 公式 Kimball in

                                                                      [レポート] モダンデータウェアハウスにおける「キンボール」〜残す価値のあるもの、ないもの #dbtcoalesce | DevelopersIO
                                                                    • BigQueryのテーブルのメタデータをCloud Data Catalogで管理する - yasuhisa's blog

                                                                      自分が使いたいと思ったBigQuery上のリソース(tableやview)、内容を事前に完全に把握できている、ということは結構少ないのではないかと思います。そういったときに手助けをしてくれるのがメタデータです。BigQueryのリソースに対するメタデータを、Cloud Data Catalogのタグとして付与する方法を紹介します。Cloud Data Catalogを使うことで、分析者が必要なリソースに素早く辿り付いたり、正確な分析をするためのサポートができます。 BigQuery関連のAudit logを元に、以下の情報をData Catalogのタグに入れた。 - 最後にクエリを投げた{日, 人} - クエリを投げられた回数 「あまり使われていないので、信用できないデータかも」「最後にXXXさんがクエリ投げてるから、詳細詳しいかも」みたいな用途を想定してる pic.twitter.co

                                                                        BigQueryのテーブルのメタデータをCloud Data Catalogで管理する - yasuhisa's blog
                                                                      • 日々変化するゆるふわフォーマットをBigQueryでおいしく料理する方法。Athenaユーザも必見だよ! - CARTA TECH BLOG

                                                                        3行まとめ 背景 データの流れ そのままコピーするだけのLambda 外部テーブルを使おう ゆるふわをゆるふわのまま扱う JSON Linesを1カラムのレコードとして取り込む 定期的に外部テーブルにクエリして結果を保存する まとめ 3行まとめ BigQueryはいいぞ 外部テーブルはすごいぞ Scheduled Queryも便利だぞ こんにちは。ひむ(@himu)です。 株式会社fluctでエンジニアとして働いていたり、ボルダリングしたりガチャを回したり健康で文化的な生活をしています。 fluctはインターネット広告プラットフォームのサービスなどを提供しており、毎日億単位の大量のイベントログが発生しています。 イベントログには、売上の計算に必要なデータから、アプリケーションを改善する上で必要なデータなど、様々なデータが入り混じっており、情報が追加されることも度々あります。 今回は、そんな

                                                                          日々変化するゆるふわフォーマットをBigQueryでおいしく料理する方法。Athenaユーザも必見だよ! - CARTA TECH BLOG
                                                                        • グーグルのHTAP対応PostgreSQL互換DB「AlloyDB」、データ分析性能は最大100倍

                                                                          米Google(グーグル)は2022年5月に開催した年次カンファレンス「Google I/O 2022」で、新しいデータベース(DB)サービスである「AlloyDB for PostgreSQL」を発表した。 グーグルが2022年5月12日(米国時間)に発表したAlloyDB for PostgreSQLは、同社が独自に開発したDBのサービスで、オープンソースソフトウエア(OSS)のリレーショナルDB(RDB)である「PostgreSQL」と互換性がある。ユーザーはPostgreSQL用のSQLクエリーや拡張機能がそのまま利用できる。 AlloyDB for PostgreSQLの特徴は、トランザクション処理(OLTP)性能とデータ分析(OLAP)性能を両立した点だ。グーグルによればAlloyDB for PostgreSQLは標準的なPostgreSQLに比べて、同じ数のCPUを使用する

                                                                            グーグルのHTAP対応PostgreSQL互換DB「AlloyDB」、データ分析性能は最大100倍
                                                                          • Databricks + BigQueryでSSOTを実現しようとしている話 - バイセル Tech Blog

                                                                            テクノロジー戦略本部データサイエンス部の近藤です。 バイセルはリユース事業を営む会社で急激な成長を遂げていますが、どちらかというと今まではテクノロジーにあまり頼ることなく成長してきました。 そんな中、テクノロジーをちゃんと導入していけばどこまで成長するのか試してみたく、2022年7月にバイセルに入社しました。 バイセルではSSOTの実現のために、RDBのデータをBigQueryにニアリアルタイムで同期する実装を進めていますが、 新たにDatabricksの導入を決めました。 バイセルにどういう課題があり、なぜDatabricksを導入するのかをお話しします。 SSOTとは バイセルの今の課題と未来 どうやって課題を解決するのか なぜApache Sparkなのか Databricksの利点 Databricks導入後の世界 データサイエンス部の野望 SSOTとは データマネジメントでは「S

                                                                              Databricks + BigQueryでSSOTを実現しようとしている話 - バイセル Tech Blog
                                                                            • DynamoDB から Redshift へデータ移送する話 (RedshiftのSUPER型の利用事例) - KAYAC engineers' blog

                                                                              こんにちは。技術部のSRE所属の池田です。 この記事では、昨年の2020年12月にPreviewが発表されたRedshiftの汎用データ型 SUPER の利用事例として、DynamoDBからRedshiftへデータ移送する話をします。 汎用データ型SUPERは、2020/12/9に 『Amazon Redshift が、ネイティブ JSON と半構造化データ処理のサポートを発表 (プレビュー) 』という記事が公開され、2021年04月時点でもPreview状態です。 このSUPER型は、ログやDynamoDBストリームに見られるJSONおよび半構造化データと非常に相性がよく、使い始めてみると【素晴らしい!】と言う感想を得るので、皆様も是非使ってみてください。 背景 2021年4月現在では、Tonamel という大会プラットフォームサービスのデータ基盤 構築業務・整備を行っております。 To

                                                                                DynamoDB から Redshift へデータ移送する話 (RedshiftのSUPER型の利用事例) - KAYAC engineers' blog
                                                                              • 【書評】データレイク構築・運用のノウハウを網羅的に学び始められる! 『AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門』 | DevelopersIO

                                                                                先日2020年07月09日、書籍『AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門』が発売されました!個人的に興味関心の強いテーマを取り上げた内容がてんこ盛りの書籍でしたので、簡単ではありますが書籍の内容について紹介させて頂きたいと思います。 「AWSではじめるデータレイク」がついに https://t.co/FvuHWrYlwH 上で予約可能になりました!7月9日発売予定です。どうかよろしくお願いいたします。 - https://t.co/do0ZeLrlrn #aws #datalake — Akira Shimosako (@simosako) June 23, 2020 テッキーメディア - BOOTH 【電子書籍版】AWSではじめるデータレイク - テッキーメディア - BOOTH AWSではじめるデータレイク - テッキーメディア - BOOTH 目

                                                                                  【書評】データレイク構築・運用のノウハウを網羅的に学び始められる! 『AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門』 | DevelopersIO
                                                                                • BigQuery で Vertex AI の LLM を使用して SQL のみで RAG を構築する

                                                                                  はじめに こんにちは、Google Cloud Partner Top Engineer 2024 を受賞いたしました、クラウドエース データソリューション部の松本です。 クラウドエース データソリューション部 について クラウドエースのITエンジニアリングを担う システム開発統括部 の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのが データソリューション部 です。 弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があれば エントリー をお待ちしております! 今回は、BigQuery で Vertex AI の LLM を使用して SQL のみで RAG を構築する方法についてご紹介します。 この記事はこんな人にオススメ BigQuery の SQL のみで LLM を使った問合せシステムを構築したい BigQue

                                                                                    BigQuery で Vertex AI の LLM を使用して SQL のみで RAG を構築する