並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 218件

新着順 人気順

DWHの検索結果41 - 80 件 / 218件

  • Snowflake の Copilot が優秀すぎる件について

    マーケティングテクノロジーの情報やノウハウ・TIPS、エクスチュア社の情報を発信。【ブログネタ募集】ご興味のある分野を教えてください!ご要望の内容を記事に起こします!メニューの「ブログへの」リクエストよりお送りください。 menu こんにちは、喜田です。 いままでSnowflakeのライトユーザーで一部機能だけに特化して触っている状態でしたが、最近はData Superheroes 2024になったこともあり、いままで関わりの薄かった製品領域も調査したり、海外リージョンでしか出ていないプレビューを触ったりしています。 そのうちの一つがCopilotで、いまは北米など一部リージョンでのみパブリックプレビュー中の、Snowflakeコード開発が一段と捗るAIおしゃべり機能です。 この右側のパネルがCopilotとのチャット。出力が多くてチャットっぽくないですが、上から会話が続いております。 C

      Snowflake の Copilot が優秀すぎる件について
    • dbtを触ってみた感想 - yasuhisa's blog

      データエンジニア系の勉強会で最近dbtがぱらぱらと話題に出てくるようになった & 4連休ということで、夏休みの自由研究がてらdbtを触ってみました。書いてる人のバックグラウンドは以下の通り。 DWHやデータマートの構築のためのETLツールを模索中(特にTの部分) プライベートではDataformを使っている 前職でも仕事の一部で使っていた 開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog 定期バッチ処理はArgo Workflows on GKEでやっている 触ってみないと肌感とか自分で運用できるかのイメージが湧かないのでね。 Dataformとの比較 細かいノウハウ 手元や本番環境での動作 Argo Workflowとの連携 環境によってDWHの提供するバージョンを差し替える DWHやデータマートの外の情報をデータリネージに加える 既存

        dbtを触ってみた感想 - yasuhisa's blog
      • DWHにおけるデータモデル 定番から最新トレンドまで

        Kubernetesでアプリの安定稼働と高頻度のアップデートを両立するためのプラクティス / Best Practices for Applications on Kubernetes�to Achieve Both Frequent Updates and Stability

          DWHにおけるデータモデル 定番から最新トレンドまで
        • データカタログ特集 データ利活用に向けたアーキテクチャ6選 - Findy Tools

          整備したデータ基盤を、事業部や会社全体で活用に持っていく中で「データカタログ」の必要性が増々注目を集めています。 今回は、データカタログを導入し、データ利活用に挑んでいる6社に、アーキテクチャの工夫ポイントからデータカタログ導入によって得られた効果などを伺いました。 ◆目次 株式会社10X 株式会社ビットキー 株式会社エブリー 株式会社Luup Sansan株式会社 株式会社ZOZO 株式会社10X 事業内容 10Xでは「10xを創る」をミッションとし、小売向けECプラットフォーム「Stailer」の提供を通じて、スーパーやドラッグストア等のオンライン事業立ち上げ・運営支援を行っています。Stailerでは業務構築におけるコンサルティングから、必要な商品マスタやお客様アプリ・スタッフ向けのオペレーションシステム等の提供、配達システムの提供、販売促進の支援など、データを分析しながら一気通貫で

            データカタログ特集 データ利活用に向けたアーキテクチャ6選 - Findy Tools
          • [動画公開] データ分析を支える技術 データモデリング再入門 #devio2022 | DevelopersIO

            データアナリティクス事業本部のコンサルティングチームの石川です。クラスメソッド主催のオンラインカンファレンス、Developers.IO 2022にて「データ分析を支える技術 データモデリング再入門」というテーマにてセッション動画と資料を公開いたしました。 セッション概要 「仏作って魂入れず」ということわざがありますが、データモデリングせずにDWHという「器」を導入しただけでは、データ分析は捗りません。 データモデリングを考えずに導入したデータ分析基盤は、データマートの乱立、もしくは、データが分かりにくく、分析に手間がかかるため、あまり使われなくなってしまったり、分析に適さないテーブル構造や構成による性能低下、オーバープロビジョニングによるコスト上昇などの問題が考えられます。 DWH(データウェアハウス)のデータモデリングとは何か、代表的なDWHのデータモデリング手法の紹介と、長所・短所、

              [動画公開] データ分析を支える技術 データモデリング再入門 #devio2022 | DevelopersIO
            • 書籍紹介:大規模データ管理(エンタープライズアーキテクチャのベストプラクティス) | フューチャー技術ブログ

              最近読んだ書籍の中で非常に良質な内容でしたので紹介したいと思います。少しでも多くの方に興味を持ってもらえることを期待しています。 O’Reilly Japan はじめに私自身がデータ管理(データマネージメント)という観点でここ数年様々な検討を行ってきていますので前提としてその背景について簡単にまとめてみます。 かつてオンプレミスで運用を行っていた時は企業内のデータは完全に管理されていました。データウェアハウスを導入してデータの集約・加工は行われていましたが、専門チームがデータ仕様確認やデータ提供までもすべての責任を担っていました。品質は高いのですが利用者からの要望(新しいデータの提供、仕様の変更)の対応についてはスピード大きな制約がありました。また大規模なデータを扱うためには多大なコストが必要という制約もあります。 クラウド技術による「スモールスタートを可能とするインフラ」「大規模なデータ

                書籍紹介:大規模データ管理(エンタープライズアーキテクチャのベストプラクティス) | フューチャー技術ブログ
              • データウェアハウスのバージョン管理をどうやるか - yasuhisa's blog

                というのをチームで議論する機会があったので、書いてみます。「うちではこうしている」とか「ここはこっちのほうがいいんじゃない?」とかあったらコメントで教えてください。 背景 / 前提 データウェアハウスのテーブルを社内に広く提供したい 初期の提供時期が過ぎてしばらくすると、要望を元にスキーマの変更や集計ロジックの変更が入る (事前にレビューはもちろんするが)SQLのミスなどで以前のバージョンに戻したいといったことがありえる 他の部門では新しいバージョンをすでに使っていて、気軽に戻せないこともある データウェアハウスのバージョンを場面に応じて複数提供できると都合がよい 一方で、大多数のデータウェアハウスのユーザーは最新バージョンの利用だけでよいはず SSOT(Single Source of Truth)になっていて欲しいわけなので... 複数バージョン見えていると「どのバージョンを使えばいい

                  データウェアハウスのバージョン管理をどうやるか - yasuhisa's blog
                • 累計参加者8,500名! #DataEngineeringStudy の43スライドから学ぶ、データエンジニアリングの羅針盤 / 20220224

                  primeNumber主催イベント「01(zeroONE)」兼「DataEngineeringStudy番外編」の登壇資料です。掲載内容は収録時点の情報にもとづきます。 https://01.primenumber.co.jp/ https://forkwell.connpass.com/event/237704/

                    累計参加者8,500名! #DataEngineeringStudy の43スライドから学ぶ、データエンジニアリングの羅針盤 / 20220224
                  • 開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog

                    Dataformを初めて使ってみたので、雑に感想を書いておきます。結構よかった。 使ってみようとした背景 Dataformについて 試してみてどうだったか よかった まだまだこれからっぽいところ & 気になり 参考 使ってみようとした背景 今週、社内の開発合宿に参加していた。変更のリードタイムやデプロイ頻度などのFour Keysにあるような指標を計測できるデータ基盤を作るのが目標。様々なチームの開発のパフォーマンスをトラッキングしやすくして、うまくできているチームがなぜうまくいっているのかを明らかにしたり、改善施策を行なった結果指標も改善しているか定量的に確認できるようにして、開発効率を上げる土台を作るというのが目的。この辺の詳しいことは後々別のエントリで書かれると思う。 自分のチームは3人構成で、在宅のオンラインでやっていた。 id:shiba_yu36さん Mackerelチームでも

                      開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog
                    • BigQueryでSaaSのjsonデータを処理するSQLサンプル集 - 下町柚子黄昏記 by @yuzutas0

                      この記事の概要 SaaSのデータをBigQueryに統合することで業務改善を促進できる。 しかし、SaaSのデータの中身を見ると、BigQueryの関数では対応しにくい形式になっていることがある。 そこで、本稿では「こういうデータ形式だったらこういうSQLを書く」というサンプル集を掲載する。 目次 この記事の概要 目次 宣伝 実現したいこと SaaSデータの処理方法 SQLサンプル1: 純粋な配列だけのケース SQLサンプル2: 配列内にハッシュマップがあるケース SQLサンプル3: 配列宣言ナシでカンマ区切りのハッシュマップが突如始まるケース SQLサンプル4: 配列とハッシュが入り乱れるケース SQLサンプル5: JSONの中に親子構造があるケース SQLサンプル6: Objectを定義したくなるケース 最強のJSONパースの関数は作れるか jsonデータの処理をどこで行うか 最後に

                        BigQueryでSaaSのjsonデータを処理するSQLサンプル集 - 下町柚子黄昏記 by @yuzutas0
                      • dbtを使ったELTデータパイプライン構築と運用事例 - DataEngineeringStudy #13

                        DataEngineeringStudy #13に10Xの瀧本が登壇した際の資料です。

                          dbtを使ったELTデータパイプライン構築と運用事例 - DataEngineeringStudy #13
                        • タイミーデータ基盤のモデリング設計について - Timee Product Team Blog

                          はじめに こんにちはokodoonです タイミーのデータ基盤に対してデータモデリングを始めてしばらく経ったので、現状の全体構成を紹介したいと思います 全体構成 弊社のBigQueryは以下の4層にレイヤリングされています それぞれの役割は以下のような切り分けになっています レイヤー名 役割 データレイク層 複数ソースシステムのデータを未加工の状態でBigQueryにロードする宛先 dbt snapshotによるソースの履歴化 ステージング層 複数ソースシステムのデータを共通した処理でクレンジングする層 DWH層 ソースシステムのデータ形式を分析に適した形に変換する層 ディメンショナルモデリング/ログテーブルをイベント単位に分割/その他便利テーブル作成 データマート層 特定用途に対して1:1で作成されたテーブル群を格納する層 ダッシュボード用テーブル/Looker用テーブル/GoogleSh

                            タイミーデータ基盤のモデリング設計について - Timee Product Team Blog
                          • CI/CDのボトルネックを把握できていますか?BigQueryでビルド情報ダッシュボードを構築した話

                            https://event.cloudnativedays.jp/cicd2021/talks/1152 開発人数が多く、規模の大きいプロダクトでは最終的な成果物をビルドするだけで1時間以上かかってしまうことも珍しくありません。ですが最初からそれほど時間がかかっていたわけではなく、時間とともに巨大化するコードベース、追加されたステップなどによりいつの間にかどこかの処理がボトルネックとなっていることが多いでしょう。 CIサービスの多くは成功/失敗の情報、全体としてのビルド時間の情報は見やすく提供していますが、各ステップの時間やステップのエラー率などの細かい粒度の情報を時系列で確認する機能までは提供されていないことが多いです。そのため、ボトルネック箇所を特定するためには過去の生ビルドログを自分の目で確認するコストが高い作業が必要でした。 そこで、Jenkins, CircleCI, Githu

                              CI/CDのボトルネックを把握できていますか?BigQueryでビルド情報ダッシュボードを構築した話
                            • AI活用やデータ分析をする前に知っておきたい!エンタープライズデータアーキテクチャ入門/ What You Need to Know Before Using AI and Analyzing Data! Introduction to Enterprise Data Architecture

                              次のイベントの投影資料です。 https://studyco.connpass.com/event/251782/

                                AI活用やデータ分析をする前に知っておきたい!エンタープライズデータアーキテクチャ入門/ What You Need to Know Before Using AI and Analyzing Data! Introduction to Enterprise Data Architecture
                              • 入社4ヶ月でBigQueryの課金額を減らすために考えたこと - 弁護士ドットコム株式会社 Creators’ blog

                                データ分析基盤室の otobe(𝕏@UC_DBengineer) です。 事業規模が拡大し、大規模なデータの管理が必要になるにつれて、SnowFlake や BigQuery のようなハイパワーな DWH サービスでデータを加工するケースは多いです。 その際、想定外な高額請求が起こる原因のひとつに、クエリが最適化されておらずスキャン量が増大しているケースがあります。 そのため、クエリのスキャン量を監視・管理することが課金額を減らすうえで有効な手段となることがあります。 本記事では、前半で BigQuery で課金されるスキャン量を監視・管理するまでのプロセスを振り返り、 後半で BigQuery の課金額を減らすために簡単にチェックできることについてお話しします。 BigQuery クエリにおけるスキャン量を監視・管理するに至った理由 BigQuery の課金額が想定より大幅に増加してい

                                  入社4ヶ月でBigQueryの課金額を減らすために考えたこと - 弁護士ドットコム株式会社 Creators’ blog
                                • BigQueryで傾向スコア分析|Dentsu Digital Tech Blog|note

                                  電通デジタルで機械学習エンジニアをしている今井です。 本記事では、BigQueryで傾向スコア分析を行うための方法について紹介します。 広告効果ってあったの?広告効果とは、広告に接触した場合と接触していない場合とのその後のコンバージョン(例えば、購入金額や継続期間など)の差である、と言えます。 しかしながら、同一ユーザーにおいて、広告に接触した場合と接触していない場合とを同時に観測することはできません。 これを反実仮想(counterfactual)と呼びます。 そこで提案されたのが平均処置効果(average treatment effect, ATE)です。 広告に接触したユーザー群(𝑤=1)と接触していないユーザー群(𝑤=0)とのその後のコンバージョン(𝑦 )の差を広告効果とするものです。 ここで、介入(広告に接触する)の有無以外の条件が公平になるようにユーザー郡が分かれていれ

                                    BigQueryで傾向スコア分析|Dentsu Digital Tech Blog|note
                                  • DataWareHouse,DataMartを整備して分析がやりやすくなった話 - ANDPAD Tech Blog

                                    こんにちは、データ基盤チームの大洞です。 2021年4月にANDPADにジョインしてから、データ基盤やデータ分析にかかわってきました。 今回は、データ分析を効率的にするために、DataWareHouse、DataMartを整備した話を紹介したいと思います。 データ基盤の全体像 まずは、簡単にデータ基盤の全体像を紹介します。 左から順に説明していきます。 ① SaaS Data 実際に稼働しているANDPADのDBやSalesforceなどの業務で利用しているサービスです。ここからデータを出力し、S3に保存します。 ②ETL Stack 分析はBigQueryで行っているので、ここからGCSに移動させます。 ③Analytics Stack GCSに移動されたファイルをBigqueryにロードします。 ④Anatytics 用途に応じて、Jupyter、Metabase、スプレッドシートなど

                                      DataWareHouse,DataMartを整備して分析がやりやすくなった話 - ANDPAD Tech Blog
                                    • BigQuery で ROW_NUMBER(), RANK() を使うな!

                                      どういうことか たとえば created_at が最も新しいレコード 1 件だけ取ってきたいとか、成績のよいレコード上位 5 件を取ってきたいといったとき、よくある方法として RANK() や ROW_NUMBER() のような番号付け関数を使う方法が思い浮かぶと思いますが、BigQuery ではこれらの関数ではなく ARRAY_AGG() 集計分析関数を使うことが推奨されています。 先に結論を ARRAY_AGG() を使うことでクエリの計算を最適化でき、スロット使用量(計算量)が少なく済みます。スロット使用量の上限を定めている場合、非効率なクエリがいくつも実行されるとキューイングされる可能性があるため理由がなければ ARRAY_AGG() を使いましょう。 ドキュメントによれば ORDER BY 句が各 GROUP BY 句のトップレコードを除くすべてを捨てることができるため効率がいい

                                        BigQuery で ROW_NUMBER(), RANK() を使うな!
                                      • 統計ダッシュボード機能を BigQuery と BI Engine で実装する

                                        先日、統計ダッシュボード機能(β)をリリースしました。記事をひとつでも公開している場合、Zennにログインすればどなたでも統計情報を表示できます。執筆頻度の確認や閲覧回数の参考にお役立てください。 本稿ではどのように実現したかについて課題とともに記録します。 TL;DR 投稿ページの表示イベントは Google Analytics から BigQuery へ連携しており、イベントデータ(BigQuery)と記事データ(Cloud SQL)をどうJOINさせるかが課題 外部接続でBigQueryからCloud SQLつなぐことにした 統計データ読み出し時、BigQueryを直接使うとクエリ毎に課金されてしまうため、BigQuery BI Engine を使うことにした スケジュールクエリを使い、BI Engineの容量に収まるように集計データを最小限にまとめる チャートは Chart.js

                                          統計ダッシュボード機能を BigQuery と BI Engine で実装する
                                        • [動画公開] データ分析を支える技術 DWH再入門 #devio2020 | DevelopersIO

                                          データアナリティクス事業本部の石川です。今週より開催しているクラスメソッド主催のオンラインカンファレンス、Developers.IO 2020 CONNECTにて「データ分析を支える技術 DWH再入門」というテーマにてセッション動画と資料を公開いたしました。 セッション概要 分かりそうで分からないDWH、何のために導入して、どのようにデータを管理・蓄積するのか、どうやって利用するのか、普通のDBと何が違って、アーキテクチャどうなっているかなど、コンサルの現場でよく尋ねられる疑問について解説します。 本セッションでは、DWHを理解するのに必要となる基礎的な用語について一通り網羅するように心がけました。DBは使ったことがあるけど、DWHはよく分からないという人には最適なセッションです。 DWH再入門 DWHの特性 ディメンジョナルデータモデル 分析データの利用 一般的なDBとDWHの相違点 D

                                            [動画公開] データ分析を支える技術 DWH再入門 #devio2020 | DevelopersIO
                                          • データマーケティングの強い味方!?BigQueryと大規模言語モデル(LLM)の統合で始める検索意図分析の事例|田口 信元

                                            データマーケティングの強い味方!?BigQueryと大規模言語モデル(LLM)の統合で始める検索意図分析の事例 初めまして、Ubie Product Platformのグロースチームでエンジニアをしてる田口です。「健康が空気のように自然になる世界」を目指し、症状検索による発症から受診までのサポートするサービス症状検索エンジン「ユビ―」を提供しています。 さて、サービスを成長させる上で、ユーザーの行動を理解することが不可欠です。ユーザーが何を求め、どのようにサービスを利用しているのかを知ることで、サービスの満足度を向上させるための改善策が見えてきます。 しかし、大規模なウェブサイトの場合、分析すべき検索クエリが膨大になっているという課題がありました。 今回は、ML.GENERATE_TEXTを用いてプロンプトベースのデータパイプラインを作り、ユーザーの検索意図分析を行ってみた事例を紹介します

                                              データマーケティングの強い味方!?BigQueryと大規模言語モデル(LLM)の統合で始める検索意図分析の事例|田口 信元
                                            • 6,000スロットを使うBigQueryのリソース配分最適化への挑戦

                                              BigQueryのリソース配分最適化のため、プロジェクトへのコミットメントの割り当てパターンや、スロット消費の多いクエリの見つけ方などについて調査した結果をまとめてみました

                                                6,000スロットを使うBigQueryのリソース配分最適化への挑戦
                                              • BigQueryのストレージ料金プランを変更して、年間数千万円を節約する - ZOZO TECH BLOG

                                                こんにちは、最近気になるニュースはサザエの学名が数年前に初めて命名されたこと1な、MLデータ部データ基盤ブロックの塩崎です。BigQueryのストレージに関する新料金プランが先日発表されたので、その検証をしました。我々の環境では年間で数千万円という費用削減を達成できることが分かりましたので、BigQueryに多くのデータを蓄積している会社は是非お試しください。 ストレージ費用の悩み データ基盤を長期間運用していると、データ量の増加が問題になることがしばしばあります。特にユーザーの行動ログやスタースキーマにおけるファクト系テーブルなどはデータがどんどん蓄積されます。古いデータを削除することでデータ量の増加を緩和できますが、それでもサービスの成長に伴いデータ量は増加する傾向になります。 BigQueryはコンピューティングとストレージが高度に分離されているので、初期のAmazon Redshi

                                                  BigQueryのストレージ料金プランを変更して、年間数千万円を節約する - ZOZO TECH BLOG
                                                • BigQuery MLにAutoML Tables、XGBoost、DNN、ARIMAが来たのでおさらい - Qiita

                                                  BigQuery MLにAutoML Tables、XGBoost、DNN、ARIMAが来たのでおさらいBigQueryDNNxgboostAutoMLBigqueryML はじめに 日本時間2020-06-17のリリースで、BigQuery MLにAutoML Tables、XGBoost、DNNが来ました。release-notes#June_16_2020 おさらいに、BigQuery MLで何ができるか再整理します。 追記: 日本時間2020-07-02のリリースで、BigQuery MLにARIMAも来ましたね。日本時間2020-06-28のリリースノートでエラーになってたのですが、リリース日がしれっと修正されてました。release-notes#July_01_2020 BigQuery MLでできること概要 BigQueryでStandard SQLを使って、機械学習モデルを

                                                    BigQuery MLにAutoML Tables、XGBoost、DNN、ARIMAが来たのでおさらい - Qiita
                                                  • DWH改善に生かす! 入門elementary - yasuhisa's blog

                                                    前提: これは何? dbtを使ったデータプロダクトを作っている社内のチームメンバー向けに書いた勉強会用のドキュメントです 社外に公開できるように少し抽象化して書いてます DWHに限らずdbtを使ったデータプロダクトで生かせる話ですが、分かりやすさのためにDWHを題材にしています 3行まとめ elementaryはdbtを利用しているデータパイプラインに対してData Observabilityを強化するツールであり、付属のリッチなレポートやSlachへのアラート通知が便利です しかし、実はelementaryが内部で生成している成果物はDWHの改善に役に立つものがたくさんあります 本エントリではelementaryの成果物や役に立つ実例を多めに紹介します 前提: これは何? 3行まとめ 背景: DWHとデータ品質 Observability / Data Observabilityについて

                                                      DWH改善に生かす! 入門elementary - yasuhisa's blog
                                                    • [レポート] モダンデータウェアハウスにおける「キンボール」〜残す価値のあるもの、ないもの #dbtcoalesce | DevelopersIO

                                                      [レポート] モダンデータウェアハウスにおける「キンボール」〜残す価値のあるもの、ないもの #dbtcoalesce 大阪オフィスの玉井です。 2020年12月7日〜11日の間、Fishtown Analytics社がcoalesceというオンラインイベントを開催していました(SQLを触っている方はピンとくるイベント名ではないでしょうか)。 「Fishtown Analytics社って何やってる会社?」という感じですが、dbtというツールを開発しているベンダーです。dbtについては、下記をご覧ください。 今回は、その中からKimball in the context of the modern data warehouse: what's worth keeping, and what's notというセッションを受講したので、レポートを記します。 イベント概要 公式 Kimball in

                                                        [レポート] モダンデータウェアハウスにおける「キンボール」〜残す価値のあるもの、ないもの #dbtcoalesce | DevelopersIO
                                                      • BigQueryのテーブルのメタデータをCloud Data Catalogで管理する - yasuhisa's blog

                                                        自分が使いたいと思ったBigQuery上のリソース(tableやview)、内容を事前に完全に把握できている、ということは結構少ないのではないかと思います。そういったときに手助けをしてくれるのがメタデータです。BigQueryのリソースに対するメタデータを、Cloud Data Catalogのタグとして付与する方法を紹介します。Cloud Data Catalogを使うことで、分析者が必要なリソースに素早く辿り付いたり、正確な分析をするためのサポートができます。 BigQuery関連のAudit logを元に、以下の情報をData Catalogのタグに入れた。 - 最後にクエリを投げた{日, 人} - クエリを投げられた回数 「あまり使われていないので、信用できないデータかも」「最後にXXXさんがクエリ投げてるから、詳細詳しいかも」みたいな用途を想定してる pic.twitter.co

                                                          BigQueryのテーブルのメタデータをCloud Data Catalogで管理する - yasuhisa's blog
                                                        • 日々変化するゆるふわフォーマットをBigQueryでおいしく料理する方法。Athenaユーザも必見だよ! - CARTA TECH BLOG

                                                          3行まとめ 背景 データの流れ そのままコピーするだけのLambda 外部テーブルを使おう ゆるふわをゆるふわのまま扱う JSON Linesを1カラムのレコードとして取り込む 定期的に外部テーブルにクエリして結果を保存する まとめ 3行まとめ BigQueryはいいぞ 外部テーブルはすごいぞ Scheduled Queryも便利だぞ こんにちは。ひむ(@himu)です。 株式会社fluctでエンジニアとして働いていたり、ボルダリングしたりガチャを回したり健康で文化的な生活をしています。 fluctはインターネット広告プラットフォームのサービスなどを提供しており、毎日億単位の大量のイベントログが発生しています。 イベントログには、売上の計算に必要なデータから、アプリケーションを改善する上で必要なデータなど、様々なデータが入り混じっており、情報が追加されることも度々あります。 今回は、そんな

                                                            日々変化するゆるふわフォーマットをBigQueryでおいしく料理する方法。Athenaユーザも必見だよ! - CARTA TECH BLOG
                                                          • グーグルのHTAP対応PostgreSQL互換DB「AlloyDB」、データ分析性能は最大100倍

                                                            米Google(グーグル)は2022年5月に開催した年次カンファレンス「Google I/O 2022」で、新しいデータベース(DB)サービスである「AlloyDB for PostgreSQL」を発表した。 グーグルが2022年5月12日(米国時間)に発表したAlloyDB for PostgreSQLは、同社が独自に開発したDBのサービスで、オープンソースソフトウエア(OSS)のリレーショナルDB(RDB)である「PostgreSQL」と互換性がある。ユーザーはPostgreSQL用のSQLクエリーや拡張機能がそのまま利用できる。 AlloyDB for PostgreSQLの特徴は、トランザクション処理(OLTP)性能とデータ分析(OLAP)性能を両立した点だ。グーグルによればAlloyDB for PostgreSQLは標準的なPostgreSQLに比べて、同じ数のCPUを使用する

                                                              グーグルのHTAP対応PostgreSQL互換DB「AlloyDB」、データ分析性能は最大100倍
                                                            • DynamoDB から Redshift へデータ移送する話 (RedshiftのSUPER型の利用事例) - KAYAC engineers' blog

                                                              こんにちは。技術部のSRE所属の池田です。 この記事では、昨年の2020年12月にPreviewが発表されたRedshiftの汎用データ型 SUPER の利用事例として、DynamoDBからRedshiftへデータ移送する話をします。 汎用データ型SUPERは、2020/12/9に 『Amazon Redshift が、ネイティブ JSON と半構造化データ処理のサポートを発表 (プレビュー) 』という記事が公開され、2021年04月時点でもPreview状態です。 このSUPER型は、ログやDynamoDBストリームに見られるJSONおよび半構造化データと非常に相性がよく、使い始めてみると【素晴らしい!】と言う感想を得るので、皆様も是非使ってみてください。 背景 2021年4月現在では、Tonamel という大会プラットフォームサービスのデータ基盤 構築業務・整備を行っております。 To

                                                                DynamoDB から Redshift へデータ移送する話 (RedshiftのSUPER型の利用事例) - KAYAC engineers' blog
                                                              • 【書評】データレイク構築・運用のノウハウを網羅的に学び始められる! 『AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門』 | DevelopersIO

                                                                先日2020年07月09日、書籍『AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門』が発売されました!個人的に興味関心の強いテーマを取り上げた内容がてんこ盛りの書籍でしたので、簡単ではありますが書籍の内容について紹介させて頂きたいと思います。 「AWSではじめるデータレイク」がついに https://t.co/FvuHWrYlwH 上で予約可能になりました!7月9日発売予定です。どうかよろしくお願いいたします。 - https://t.co/do0ZeLrlrn #aws #datalake — Akira Shimosako (@simosako) June 23, 2020 テッキーメディア - BOOTH 【電子書籍版】AWSではじめるデータレイク - テッキーメディア - BOOTH AWSではじめるデータレイク - テッキーメディア - BOOTH 目

                                                                  【書評】データレイク構築・運用のノウハウを網羅的に学び始められる! 『AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門』 | DevelopersIO
                                                                • BigQuery で Vertex AI の LLM を使用して SQL のみで RAG を構築する

                                                                  はじめに こんにちは、Google Cloud Partner Top Engineer 2024 を受賞いたしました、クラウドエース データソリューション部の松本です。 クラウドエース データソリューション部 について クラウドエースのITエンジニアリングを担う システム開発統括部 の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのが データソリューション部 です。 弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があれば エントリー をお待ちしております! 今回は、BigQuery で Vertex AI の LLM を使用して SQL のみで RAG を構築する方法についてご紹介します。 この記事はこんな人にオススメ BigQuery の SQL のみで LLM を使った問合せシステムを構築したい BigQue

                                                                    BigQuery で Vertex AI の LLM を使用して SQL のみで RAG を構築する
                                                                  • 分析者や予算承認者の視点に立ちつつ、BigQuery Flex Slotsの適切なスロット数を定量的に決定する方法を紹介します - MonotaRO Tech Blog

                                                                    こんにちは、データ基盤グループの吉本と吉田(id:syou6162)です。モノタロウでは基本的にはBigQueryを定額料金で利用していますが、利用者の多い時間帯はFlex Slotsも併用しています。本エントリでは、Flex Slotsの適切なスロット数を定量的に決めるために行なった試行錯誤について紹介します。 モノタロウでのBigQueryの利用状況 課題感 課題感1: 適切なFlex Slotsのスロット数をどう決めるか 課題感2: 過去の期間との実行時間は単純には比較できない 解決策 解決策1: 同一のクエリを定期的に動かし、実行時間をCloud Monitoringで計測 解決策2: 計測用オンデマンドのGCPプロジェクトでもクエリを実行し、理想状態との相対実行時間を知る まとめ モノタロウでのBigQueryの利用状況 モノタロウでは様々な意思決定の場面でデータ活用が行なわれて

                                                                      分析者や予算承認者の視点に立ちつつ、BigQuery Flex Slotsの適切なスロット数を定量的に決定する方法を紹介します - MonotaRO Tech Blog
                                                                    • オラクル、MySQLにOLAP用の独自インメモリデータベースエンジンを搭載、「MySQL Analytics Engine」をOracle Cloud上で提供開始

                                                                      米オラクルは、Oracle Cloud上での新しいデータベースサービス「Oracle MySQL Database Service Analytics Engine」(以下、MySQL Analytics Engine)を発表しました。 オラクルは今年の9月に、最新のOracle Cloud基盤に最適化したMySQLのマネージドサービスとして「Oracle MySQL Database Service」を発表しています。 今回発表されたMySQL Analytics Engineは、このMySQL Database Serviceに大規模データ分析機能を追加するものです。 通常のデータベースエンジンであるInnoDBに対して最大で400倍高速にOLAPのクエリを実行できます。 具体的にはオラクルが独自に開発したカラム型の分散インメモリデータベースエンジンをMySQL Database Se

                                                                        オラクル、MySQLにOLAP用の独自インメモリデータベースエンジンを搭載、「MySQL Analytics Engine」をOracle Cloud上で提供開始
                                                                      • 複数の AWS アカウントの AWS Security Hub 検出結果を Google BigQuery と Google DataPortal(DataStudio) により可視化した話 - Adwaysエンジニアブログ

                                                                        こんにちは、インフラの天津です。今日は 複数アカウントの AWS Security Hub 検出結果の可視化についてお話したいと思います。 前提 モチベーション AWS Security Hub とは 構想 ツール・サービスの選定 検出結果データのエクスポートについて 可視化用データベース(またはクエリサービス)と可視化ツールについて 構築 全体像 検出結果データエクスポート 検出結果データの S3 -> GCS への転送と BigQuery へのインポート Security Hub からエクスポートしたデータには BigQuery のカラム名に使用できない文字(以下禁則文字)が使用されている件 自動判別で生成されたスキーマでインポートした際に INTEGER 型のカラムに STRING 型のデータが入ってくることがありインポートエラーが発生する件 AWS アカウントデータの S3 ->

                                                                          複数の AWS アカウントの AWS Security Hub 検出結果を Google BigQuery と Google DataPortal(DataStudio) により可視化した話 - Adwaysエンジニアブログ
                                                                        • AI・機械学習チームでのインターンでBigQueryのローカルテスト基盤を作った話 - エムスリーテックブログ

                                                                          こんにちは、10月後半の2週間、エムスリーのAI・機械学習チームでインターンをしていた後藤です。 今回は私の行ったタスクと、インターン生からみてエムスリーはどのような会社なのかについて書いていこうと思います。 他の学生の方々のインターン選びやBigQueryのテスト手法に悩んでいるエンジニアの方々の参考になれば幸いです。 BigQueryのローカルテスト基盤を作った話 背景 BigQuery Emulatorの登場 bqemulatormanagerの作成 スキーマの自動取得 並列処理への対応 テストコードの導入 BigQuery Emulatorを使用する際に気をつけるべきポイント インターンの話 進め方について AI・機械学習チームについて 終わりに BigQueryのローカルテスト基盤を作った話 背景 AI・機械学習チームでは、BigQueryに日々蓄積されている大規模データから所望

                                                                            AI・機械学習チームでのインターンでBigQueryのローカルテスト基盤を作った話 - エムスリーテックブログ
                                                                          • 一週間で構築できる! お手軽データウェアハウス

                                                                            Legalscape (リーガルスケープ) アドベントカレンダー 2021 の 12/16 (木) のエントリです。 本日のエントリは、突貫工事的に一週間程度1で構築したデータウェアハウスについてお送りいたします。 データウェアハウス構築前夜 2021 年 6 月に予定をしている Legalscape 正式版リリースが刻々と迫り、みなが慌ただしく仕事をしている 5 月下旬、ビジネス上の様々な理由からユーザのアクティビティログを保持して分析・集計するデータ基盤、すなわちデータウェアハウスが必要になりました。 Legalscape ではそれまで、プロダクト上でのユーザの行動に伴って発生するアクティビティログはすべて (書籍の全文検索に用いているものと同じ) Elasticsearch クラスタにインデックスしていました。アクティビティログを利用する際は、このインデックスに対して Kibana

                                                                              一週間で構築できる! お手軽データウェアハウス
                                                                            • Amazon Redshift Serverless が新機能を備えて一般公開開始 | Amazon Web Services

                                                                              Amazon Web Services ブログ Amazon Redshift Serverless が新機能を備えて一般公開開始 昨年の re:Invent で、Amazon Redshift Serverless のプレビュー版を紹介しました。これは、データウェアハウスのインフラを管理しなくても、自由にデータを分析できるAmazon Redshift のサーバーレスオプションです。データを読み込んでクエリを実行するだけで利用でき、料金は使用した分だけです。これにより、利用頻度が少ない分析処理や夜間のみ実行されるワークロードなど、データウェアハウスを常時利用しないユースケースの場合に、より多くの企業がモダンデータ戦略を構築することができます。また、データ利用ユーザーが拡大している新しい部門において、データウェアハウスインフラストラクチャを所有せずに分析を実行したいというニーズにも適用でき

                                                                                Amazon Redshift Serverless が新機能を備えて一般公開開始 | Amazon Web Services
                                                                              • BigQuery MLでスロット使用量が急増しているプロジェクトやユーザーを異常検知する - yasuhisa's blog

                                                                                背景 どうやって異常を検知するか BigQuery MLでの異常検知 検知できるモデルの種類 共通設定 データの前準備 モデルの学習 モデルを元にスロット使用量が異常に増加していないか予測する 所感 背景 BigQueryはオンデマンドとフラットレート(定額料金)がある オンデマンドはスキャン量がお金に直結するため、INFORMATION_SCHEMA.JOBS_BY_*などを使ってクエリ警察をしている方も多いはず INFORMATION_SCHEMAに代表されるデータ管理に役に立つ現場のノウハウを最近会社のTech Blogに書いたので、そちらも見てね 一方で、フラットレートに関しては定額使いたい放題のプランであるため、オンデマンドよりはクエリ警察をしていない場合もある 見れるなら見たいが、どうしても支出に直結するオンデマンドを優先して見てしまいがち。工数も限られている が、あまりに自由

                                                                                  BigQuery MLでスロット使用量が急増しているプロジェクトやユーザーを異常検知する - yasuhisa's blog
                                                                                • TechCrunch | Startup and Technology News

                                                                                  Hello, friends, and welcome to Week in Review, TechCrunch’s regular digest of the top tech news over the past several days. Sign up here to get it in your inbox every Saturday. It’s where

                                                                                    TechCrunch | Startup and Technology News