並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 218件

新着順 人気順

DWHの検索結果1 - 40 件 / 218件

  • Snowflake の Copilot が優秀すぎる件について

    マーケティングテクノロジーの情報やノウハウ・TIPS、エクスチュア社の情報を発信。【ブログネタ募集】ご興味のある分野を教えてください!ご要望の内容を記事に起こします!メニューの「ブログへの」リクエストよりお送りください。 menu こんにちは、喜田です。 いままでSnowflakeのライトユーザーで一部機能だけに特化して触っている状態でしたが、最近はData Superheroes 2024になったこともあり、いままで関わりの薄かった製品領域も調査したり、海外リージョンでしか出ていないプレビューを触ったりしています。 そのうちの一つがCopilotで、いまは北米など一部リージョンでのみパブリックプレビュー中の、Snowflakeコード開発が一段と捗るAIおしゃべり機能です。 この右側のパネルがCopilotとのチャット。出力が多くてチャットっぽくないですが、上から会話が続いております。 C

      Snowflake の Copilot が優秀すぎる件について
    • Dataformでコンパイル変数を使ってみた | DevelopersIO

      WorkflowsからDataformの起動方法を検証してみました。Dataformタグ指定、コンパイル変数のWorkflowsからの上書きができるか、もあわせて検証してみました。 データアナリティクス事業本部の根本です。Dataformを使っていて、呼び出しもと(Workflowsとか)から動的に値を変えてDataformを呼び出すことができたらいいなと思い調べてみたらコンパイル変数を用いたらできたので記事にしてみました。 この記事の対象者 Dataformでコンパイル変数を使ってみたいひと 前提条件 Dataformのワークスペースやリポジトリが存在する、使えること 検証の全体像 コンパイル変数をdataform.jsonで指定して動作するか確認 APIでDataformを実行するときにコンパイル変数の値を上書きして動作するか確認 上記2つの検証をしていきます。 やってみる それでは早

        Dataformでコンパイル変数を使ってみた | DevelopersIO
      • 入社4ヶ月でBigQueryの課金額を減らすために考えたこと - 弁護士ドットコム株式会社 Creators’ blog

        データ分析基盤室の otobe(𝕏@UC_DBengineer) です。 事業規模が拡大し、大規模なデータの管理が必要になるにつれて、SnowFlake や BigQuery のようなハイパワーな DWH サービスでデータを加工するケースは多いです。 その際、想定外な高額請求が起こる原因のひとつに、クエリが最適化されておらずスキャン量が増大しているケースがあります。 そのため、クエリのスキャン量を監視・管理することが課金額を減らすうえで有効な手段となることがあります。 本記事では、前半で BigQuery で課金されるスキャン量を監視・管理するまでのプロセスを振り返り、 後半で BigQuery の課金額を減らすために簡単にチェックできることについてお話しします。 BigQuery クエリにおけるスキャン量を監視・管理するに至った理由 BigQuery の課金額が想定より大幅に増加してい

          入社4ヶ月でBigQueryの課金額を減らすために考えたこと - 弁護士ドットコム株式会社 Creators’ blog
        • SnowflakeからClaude3(Bedrock)を呼び出して、文章作成や画像認識させてみた。 - Qiita

          SnowflakeからClaude3を呼び出して、文章作成やさせてみる 今回はSnowflakeのUDFでClaude3(Amazon Bedrock)を呼び出して、文章作成や画像認識させる方法について紹介したいと思います。 最初は文章作成させる方法だけで記事を作成しようと思ったのですが、クイックスタートをなぞるだけの記事になりそうだし、もうSnowflake Cortexでも出来ることなので、ステージ上の画像ファイルを認識する機能も追加してみました。 ちなみに、以下はステージに配置したとある画像をClaude3に説明させた結果です。何だと思いますか。Snowflakeヘビーユーザにはお馴染みのあいつです。 この画像には、可愛らしい白いぬいぐるみのクマが写っています。クマの体はふわふわと柔らかそうに見え、青いニットのマフラーを巻いて寒さから身を守っているように見えます。クマの顔は丸く優しい

            SnowflakeからClaude3(Bedrock)を呼び出して、文章作成や画像認識させてみた。 - Qiita
          • Google Cloud Next’24で発表されたBigQueryのアップデート情報をまとめました | DevelopersIO

            Google CLoudデータエンジニアのはんざわです。 Google Cloud Next'24において、各サービスで多数のアップデート情報が紹介されました。 この記事では、BigQueryのアップデート情報、特にデータエンジニア向けの情報をまとめて紹介したいと思います! 新機能が発表されたセッションとその内容を簡単に紹介していきます! 気になる内容があった方は是非、YouTubeの動画を確認してみてください。 注意点 本記事の内容にBigQuery ML関連のサービスは含まれていません。 不足している情報があれば随時更新します... 2024年4月13日時点では、Google Cloud Next'24で発表された機能のほとんどがリリースノートやドキュメントに反映されていません。そのため今後変更される可能性がありますので注意してください。 Build a unified, open,

              Google Cloud Next’24で発表されたBigQueryのアップデート情報をまとめました | DevelopersIO
            • 【新機能】BigQuery data canvasを早速触ってみた #GoogleCloudNext | DevelopersIO

              Google Cloudデータエンジニアのはんざわです。 現在開催中のGoogle Cloud Next'24でBigQuery data canvasという新機能が追加されました。 本記事では早速この新機能を触ってみたいと思います! BigQuery data canvas とは? BigQuery data canvasは、データソースの選択、クエリの実行、可視化をDAGで操作できる分析用のインターフェイスです。 また、Geminiのサポートにより、自然言語を使用したデータの検索やSQLの作成、グラフの生成も行うことが可能です。 BigQuery data canvasの公式ドキュメント それでは早速触ってみたいと思います! 注意 2024年4月10日時点でBigQuery data canvasはprivate プレビューで、使用するためにはRequest BigQuery data

                【新機能】BigQuery data canvasを早速触ってみた #GoogleCloudNext | DevelopersIO
              • Amazon DataZone 初期導入から Amazon Redshift 統合の新機能まで解説する! | DevelopersIO

                Amazon DataZone 初期導入から Amazon Redshift 統合の新機能まで解説する! はじめに クラスメソッドの石川です。Amazon DataZoneは、クラウドサービス間の連携を活かし、Amazon Redshift統合の機能強化により、従来よりも簡単な操作で環境設定ができるようになりました。データガバナンス系のツールは設定が多くなりがちなので、この利便性は多くのユーザーにとって気になるところでしょう。 今回は、Amazon Redshiftのサンプルデータの作成からAmazon DataZoneの初期導入とAmazon Redshift 統合まで解説します。 すでに、Amazon Redshift 導入済みの方は、「Amazon DataZoneの準備」から、Amazon Redshift 統合の機能強化のみご覧いただきたい方は「環境プロファイルを作成」から読み進

                  Amazon DataZone 初期導入から Amazon Redshift 統合の新機能まで解説する! | DevelopersIO
                • データカタログ特集 データ利活用に向けたアーキテクチャ6選 - Findy Tools

                  整備したデータ基盤を、事業部や会社全体で活用に持っていく中で「データカタログ」の必要性が増々注目を集めています。 今回は、データカタログを導入し、データ利活用に挑んでいる6社に、アーキテクチャの工夫ポイントからデータカタログ導入によって得られた効果などを伺いました。 ◆目次 株式会社10X 株式会社ビットキー 株式会社エブリー 株式会社Luup Sansan株式会社 株式会社ZOZO 株式会社10X 事業内容 10Xでは「10xを創る」をミッションとし、小売向けECプラットフォーム「Stailer」の提供を通じて、スーパーやドラッグストア等のオンライン事業立ち上げ・運営支援を行っています。Stailerでは業務構築におけるコンサルティングから、必要な商品マスタやお客様アプリ・スタッフ向けのオペレーションシステム等の提供、配達システムの提供、販売促進の支援など、データを分析しながら一気通貫で

                    データカタログ特集 データ利活用に向けたアーキテクチャ6選 - Findy Tools
                  • [レポート] データウェアハウスを製品として捉える〜設計から実現までの一貫した流れ #dbtCoalesce #Coalesce23 | DevelopersIO

                    [レポート] データウェアハウスを製品として捉える〜設計から実現までの一貫した流れ #dbtCoalesce #Coalesce23 大阪オフィスの玉井です。 米国時間2023年10月16日〜19日、イベント『Coalesce 2023』が開催されました。主催はdbt labs社です。 本記事は、その中で発表されたData warehouse as a product: Design to delivery(データウェアハウスを製品として捉える:設計から実現までの一貫した流れ)というセッションについて、レポートをお届け致します。 セッション概要 登壇者 Lance Witheridge, Data Modernisation Lead, Trade Me 超概要 社内のデータ分析基盤をクラウド化しようとしたが、うまくいかず、抜本的な再設計を行った話です。その際、DWH(のデータ)を製品・プ

                      [レポート] データウェアハウスを製品として捉える〜設計から実現までの一貫した流れ #dbtCoalesce #Coalesce23 | DevelopersIO
                    • データウェアハウスのデータモデリングを整理してみた - Qiita

                      概要 スタースキーマからスノーフレーク、ギャラクシー、そしてデータボールトやアンカーモデリングまで、各スキーマの特徴、利点、そして適用シナリオを掘り下げます。 スタースキーマ スタースキーマを元に整理します。 スタースキーマ または 星型スキーマ はデータウェアハウスに利用される最も単純なスキーマである。スタースキーマには唯1つもしくは少数のファクト表と複数のディメンション表が含まれる。スタースキーマはスノーフレークスキーマの一種であるが、多くの用途で利用されている。 DWHに利用される最も単純なスキーマ 唯一または少数のファクトテーブルと、複数のディメンションテーブルが含まれる スノーフレークスキーマの一種 モデル ファクト表はデータウェアハウスでの解析で利用され、複数の異なるディメンションに区分される。ファクト表は主要なデータを持つ一方、ディメンション表は相対的にサイズが小さくディメン

                        データウェアハウスのデータモデリングを整理してみた - Qiita
                      • 次世代データ基盤:データレイクハウスを Google Cloud で実現する

                        はじめに こんにちは、クラウドエース データソリューション部の松本です。 普段はデータ基盤や MLOps の構築をしたり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。また、昨年は Google Cloud Partner Top Engineer 2024 に選出されました。今年も Goodle Cloud 界隈を盛り上げていけるよう頑張っていきたいと思います。 クラウドエース データソリューション部 について クラウドエースのITエンジニアリングを担う システム開発統括部 の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのが データソリューション部 です。 弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があれば エントリー をお待ちしております! 今回は、次世代データ基盤であるデ

                          次世代データ基盤:データレイクハウスを Google Cloud で実現する
                        • アナリティクスエンジニアのキャリアとデータモデリング 〜資料「30分でわかるデータモデリング」を読む前に知ってほしいこと〜 / 20240116

                          株式会社リクルート様の社内勉強会で用いた資料となります。 関係者の許諾を得て公開しています。 <採用・カジュアル面談> https://kazaneya.com/recruit <サービス提供> https://kazaneya.com/service

                            アナリティクスエンジニアのキャリアとデータモデリング 〜資料「30分でわかるデータモデリング」を読む前に知ってほしいこと〜 / 20240116
                          • dbtで見やすいER図を生成する - yasuhisa's blog

                            背景: dbtを使っていてもER図は欲しい! どうやってER図を生成するか どうやってER図を見やすくするか まとめ 背景: dbtを使っていてもER図は欲しい! dbtはモデル間のリネージなど可視化が得意なツールではありますが、万能なわけではありません。モデルの生成過程などはリネージで担保できますが、分析時に「どれとどのモデルがJOINできて、JOINする際のキーはこれを使って」というER図で扱うような可視化はディフォルトではできません。 DWHを作っている側からすると「このテーブルはあの辺のテーブルと一緒に使うと便利で、いつもあのキーでJOINして」というのが頭の中に入っていることが多いため、ER図がなくてもどうにかなることも多いでしょう。しかし、分析に慣れていない人や分析に慣れている人であっても、普段と異なるドメインのテーブルを触るときはER図が提供してくれる情報は有用です。ちなみに

                              dbtで見やすいER図を生成する - yasuhisa's blog
                            • DWHにおけるデータモデリングで大事にしている考え方

                              こんにちは。データエンジニアリングの支援を行っているstable株式会社の代表の宮﨑(@ikki_mz)です。弊社では、クライアント社内のデータウェアハウス(DWH)におけるデータモデリングをサポート...

                                DWHにおけるデータモデリングで大事にしている考え方 
                              • DWH改善に生かす! 入門elementary - yasuhisa's blog

                                前提: これは何? dbtを使ったデータプロダクトを作っている社内のチームメンバー向けに書いた勉強会用のドキュメントです 社外に公開できるように少し抽象化して書いてます DWHに限らずdbtを使ったデータプロダクトで生かせる話ですが、分かりやすさのためにDWHを題材にしています 3行まとめ elementaryはdbtを利用しているデータパイプラインに対してData Observabilityを強化するツールであり、付属のリッチなレポートやSlachへのアラート通知が便利です しかし、実はelementaryが内部で生成している成果物はDWHの改善に役に立つものがたくさんあります 本エントリではelementaryの成果物や役に立つ実例を多めに紹介します 前提: これは何? 3行まとめ 背景: DWHとデータ品質 Observability / Data Observabilityについて

                                  DWH改善に生かす! 入門elementary - yasuhisa's blog
                                • BigQueryでクエリ一撃で29万円溶かしたけど助かった人の顔

                                  SolanaのPublic DataをBigQueryで取得したかった# えー、お笑いを一席. ブロックチェーンSolanaのデータがGoogle Cloud BigQueryで使えるようになったというニュースをたまたまネット推薦記事でみかけた1. おや, 面白そうだ. ちょっとやってみようかな… BigQueryはさわるのが1年以上つかってないかも, どうやるんだっけ… とりあえずカラムとかサンプルでちょっとデータをみたいよな, こんな感じだっけか? とりあえず動かしてみよう, ポチッとな. … 5秒でレスポンスが帰ってくる. おー、速い. えーっと, あれ課金データ309TB?! いちげきひっさつ、ハサンギロチン2. BigQueryでクエリ一撃5 秒で29万円溶かした人の顔# 話題の画像生成AI, DALL・Eをつかって BigQueryでお金溶かした人の顔を表現してもらった3. あ

                                  • ディメンショナルモデリングに入門しよう!Snowflakeとdbt Cloudで「Building a Kimball dimensional model with dbt」をやってみた | DevelopersIO

                                    ディメンショナルモデリングに入門しよう!Snowflakeとdbt Cloudで「Building a Kimball dimensional model with dbt」をやってみた さがらです。 ここ2年ほどの間にdbtが日本でも急速に拡大し、様々な情報が日本語の記事でも見かけられるようになってきました。 dbtを採用してある程度活用を進めていくと、「より効率よくガバナンスを持ってデータを管理するにはどうすればいいんだろうか」といったデータの管理方法に悩む場面が出てくると思います。 そんなときに色々調べていくと、データを効率よく管理する手法として「データモデリング」が必要だとわかり、ディメンショナルモデリングやData Vaultなどの手法に行き着くのではないでしょうか。 そしてこれらのデータモデリングの手法の内、ディメンショナルモデリングについてdbtを用いて実践された記事がありま

                                      ディメンショナルモデリングに入門しよう!Snowflakeとdbt Cloudで「Building a Kimball dimensional model with dbt」をやってみた | DevelopersIO
                                    • BigQuery で Vertex AI の LLM を使用して SQL のみで RAG を構築する

                                      はじめに こんにちは、Google Cloud Partner Top Engineer 2024 を受賞いたしました、クラウドエース データソリューション部の松本です。 クラウドエース データソリューション部 について クラウドエースのITエンジニアリングを担う システム開発統括部 の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのが データソリューション部 です。 弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があれば エントリー をお待ちしております! 今回は、BigQuery で Vertex AI の LLM を使用して SQL のみで RAG を構築する方法についてご紹介します。 この記事はこんな人にオススメ BigQuery の SQL のみで LLM を使った問合せシステムを構築したい BigQue

                                        BigQuery で Vertex AI の LLM を使用して SQL のみで RAG を構築する
                                      • Databricksで築く未来のデータメッシュ組織/The Datamesh Organization Built with Databricks

                                        Databricksで築く未来のデータメッシュ組織/The Datamesh Organization Built with Databricks

                                          Databricksで築く未来のデータメッシュ組織/The Datamesh Organization Built with Databricks
                                        • GCP版Dataformで冪等性を担保する設計ポイント3つ - TVer Tech Blog

                                          データエンジニアの遠藤です。 TVer Advent Calendar 2023の24日目の記事になります。 はじめに 本年(2023年)、Google Cloudのビッグデータ基盤として展開されるBigQueryでは、データガバナンスツールであるDataformがGA(Generally Avaialble)になりました。 cloud.google.com このDataformの登場により、BigQuery上でデータを利活用しやすいように変換する(データマートを生成する)システムの構築が容易になりました。 本記事では、Dataform上において、定常実行やリトライ実行を容易にするために、冪等性が担保される設計のテクニックを3点紹介します。(Dataformの基本的な使い方については触れませんのでご注意ください) 1. SQLX内のクエリに変数を用いる DataformはSQLXと呼ばれる

                                            GCP版Dataformで冪等性を担保する設計ポイント3つ - TVer Tech Blog
                                          • Icebergテーブルの内部構造について - やっさんメモ

                                            この記事は MicroAd Advent Calendar 2023 と Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2023 の1日目の記事です。 qiita.com qiita.com 今年もアドカレの季節がやってきました🎄 今回は、ここ数年でデータ界隈で盛り上がっているOpen Table FormatのIcebergテーブルについて書いていきます。 Hiveテーブルとの比較とか、Icebergテーブルの特徴(Time Travel や Rollback、Hidden Partitioning、Full Schema Evolution等)については、あっちこっちで大分こすられてます。 そこで、Icebergテーブルの特徴がなぜ実現できているのかについて知るために、内部構造がどうな

                                              Icebergテーブルの内部構造について - やっさんメモ
                                            • RDBMSをデータウエアハウスに使う際の性能劣化、OLTP用途との違いを理解

                                              第11回 RDBMSをデータウエアハウスに使う際の性能劣化、OLTP用途との違いを理解 データウエアハウスにまつわるトラブル 今回はデータウエアハウス(DWH)導入時のトラブル事例を紹介します。DWHとは、組織内の様々なシステムから得られる大量の構造化データや半構造化データを集積し、保存するデータ処理システムです。保存されたデータはBI(ビジネスインテリジェンス)やデータ分析に活用されます。 現代のビジネス環境では、AI(人工知能)を活用した機械翻訳、質問応答、画像認識、機械学習などの技術が急速に進化しています。同様にBIツールを通じてビジネスデータを収集・整理・分析し、視覚的に理解しやすくする技術も進歩しています。蓄積されるデータの量は飛躍的に増加しています。データ管理と分析の重要性が高まる中で、膨大なデータの活用は企業や組織にとって欠かせなくなっています。 DWHの主な特徴は、データを

                                                RDBMSをデータウエアハウスに使う際の性能劣化、OLTP用途との違いを理解
                                              • タイミーデータ基盤のモデリング設計について - Timee Product Team Blog

                                                はじめに こんにちはokodoonです タイミーのデータ基盤に対してデータモデリングを始めてしばらく経ったので、現状の全体構成を紹介したいと思います 全体構成 弊社のBigQueryは以下の4層にレイヤリングされています それぞれの役割は以下のような切り分けになっています レイヤー名 役割 データレイク層 複数ソースシステムのデータを未加工の状態でBigQueryにロードする宛先 dbt snapshotによるソースの履歴化 ステージング層 複数ソースシステムのデータを共通した処理でクレンジングする層 DWH層 ソースシステムのデータ形式を分析に適した形に変換する層 ディメンショナルモデリング/ログテーブルをイベント単位に分割/その他便利テーブル作成 データマート層 特定用途に対して1:1で作成されたテーブル群を格納する層 ダッシュボード用テーブル/Looker用テーブル/GoogleSh

                                                  タイミーデータ基盤のモデリング設計について - Timee Product Team Blog
                                                • Snowflake 向けの DevOps の取り組みと現状の課題についてまとめてみた

                                                  本記事の背景 本記事は、某所で密かに行われていた Snowflake DevOps 情報交換会 Season 1 最終回の議論用に共有した内容です。 本会は、 DevOps を中心に、また DevOps とは直接は関係ないテーマも含め、その時々において関心のあるテーマを取り扱っていましたが、今回は最終会ということで、本来のテーマである DevOps において、私個人が中心的テーマであると考える構成管理やデプロイの自動化について議論したいと思い、整理しました。 中心的テーマを再び取り上げようと考えたきっかけの 1 つが Snowflake Data Superhero の Tomas が LinkedIn で EXECUTE IMMEDIATE FROM という新しい構文について紹介しているのを発見したことです。これはステージ上の SQL ファイルを直接実行できるという機能です。 Tomas

                                                    Snowflake 向けの DevOps の取り組みと現状の課題についてまとめてみた
                                                  • OpenMetadataでRedshiftのクエリログからリネージュを作成する | DevelopersIO

                                                    OpenMetadataではデータリネージュ(データの流れ)を可視化できます。 Redshiftではクエリのログを読み込むことでそこから自動的にリネージュ情報を作ることができます。 その流れをやっていこうと思います。 Redshiftのユーザについて OpenMetadataを利用する際はスーパーユーザではないユーザを利用するべきです。 OpenMetadataはデータカタログなので原則Redshift内の実データ書き換えは発生しません。 発生してしまったらかなり怖いです。 よってスーパーユーザの権限はそもそも必要なく、 また、もしも想定外に書き換えがあった時にはきちんと禁止されるように一般のリードオンリーユーザを作成して行います。 また別の理由として、スーパーユーザでは全てのデータにアクセスができてしまい、 Redshift Spectrumを利用するテーブルに対してもクエリをかけること

                                                      OpenMetadataでRedshiftのクエリログからリネージュを作成する | DevelopersIO
                                                    • Dataformを使ってデータ分析基盤を構築した話 - Leverages データ戦略ブログ

                                                      はじめに こんにちは。レバレジーズ データ戦略室の辰野です。 前回の投稿からいつの間にか1年以上経過していました。引き続きデータマネジメントやデータガバナンスに関連する仕事をしていたのですが、今回は私が昨年度末に取り組んだ、Dataformを利用したデータ分析基盤の構築についてお話させていただきます。 Dataformとは Dataformとは、現在Google Cloudで利用できるデータモデリングツールの一つです。ELT(抽出、読み込み、変換)処理における、T(変換)の部分を管理できます。主な機能として、下記があります。 SQLワークフローを開発、実行できる テーブル同士の依存関係を管理できる テーブルの品質テストができる これらの機能を利用することで、すべてのデータプロセスを管理することが可能です。 (参考:Google Cloud,Dataform の概要) Dataformを導入

                                                        Dataformを使ってデータ分析基盤を構築した話 - Leverages データ戦略ブログ
                                                      • Apache Iceberg とは何か - 流沙河鎮

                                                        はじめに 概要 Apache Iceberg(アイスバーグ)とは [重要] Icebergの本質はTable Specである Table Spec バージョン Icebergハンズオン Icebergの特徴 同時書き込み時の整合性担保 読み取り一貫性、Time Travelクエリ、Rollback Schema Evolution Hidden Partitioning Hidden Partitioningの種類 時間 truncate[W] bucket[N] Partition Evolution Sort Order Evolution クエリ性能の最適化 ユースケース Icebergのアーキテクチャ Iceberg Catalog Iceberg Catalogの選択肢 metadata layer metadata files manifest lists manifest f

                                                          Apache Iceberg とは何か - 流沙河鎮
                                                        • BigQuery DataFramesを使ってみる | DevelopersIO

                                                          このデータをBigQuery DataFramesで扱います。内容としては{project_id}.data_set_test.jp_weatherのデータを使ってPandasで行う一般的な分析操作を行います。コードは以下になります。 import os import bigframes.pandas as bpd bpd.options.bigquery.project = os.environ.get("GOOGLE_PROJECT_ID") bpd.options.bigquery.location = "asia-northeast1" df1 = bpd.read_gbq("{project_id}.data_set_test.jp_weather") # df1 = bpd.read_gbq("SELECT * FROM {project_id}.data_set_test.j

                                                            BigQuery DataFramesを使ってみる | DevelopersIO
                                                          • 【みんなのデータモデル講座】進化編~ディメンショナルモデリング入門~

                                                            Snowflakeを愛するユーザーたちの集い #SnowVillage の大人気企画 『みんなのシリーズ』第三弾が登場! 『みんなのデータモデル講座』、第二回はいよいよディメンショナルモデリング入門! その本質や考え方を学びながら、ビジネスプロセスのモデリングにチャレンジします。 「実データを見てみたら、理想のデータと乖離がありすぎる…」 「扱いにくいデータがあったときはどうすれば…?」 適切なモデリングで、価値提供を加速させていきましょう! 今回も、NTT DATA 渋谷さん、 CARTA HOLDINGS pei0804さん、 Snowflake株式会社 グレースさんがお届けします。 第一回【みんなのデータモデル講座】英雄編〜正規化・ERモデルの基礎〜はコチラ https://youtu.be/I2jxAkrolys シリーズ第一弾『みんなのSQL講座』はコチラ https

                                                              【みんなのデータモデル講座】進化編~ディメンショナルモデリング入門~
                                                            • ディメンショナル モデリング入門 / introduction-to-dimensional-modeling

                                                              Youtube https://www.youtube.com/watch?v=jRBFXbPh1bM イベントページ https://usergroups.snowflake.com/events/details/snowflake-japan-presents-minnanodetamoderujiang-zuo-jin-hua-bian-deimenshiyonarumoderinguru-men/ ディメショナル・モデリングとは https://zenn.dev/pei0804/articles/dimensional-modeling

                                                                ディメンショナル モデリング入門 / introduction-to-dimensional-modeling
                                                              • データマーケティングの強い味方!?BigQueryと大規模言語モデル(LLM)の統合で始める検索意図分析の事例|田口 信元

                                                                データマーケティングの強い味方!?BigQueryと大規模言語モデル(LLM)の統合で始める検索意図分析の事例 初めまして、Ubie Product Platformのグロースチームでエンジニアをしてる田口です。「健康が空気のように自然になる世界」を目指し、症状検索による発症から受診までのサポートするサービス症状検索エンジン「ユビ―」を提供しています。 さて、サービスを成長させる上で、ユーザーの行動を理解することが不可欠です。ユーザーが何を求め、どのようにサービスを利用しているのかを知ることで、サービスの満足度を向上させるための改善策が見えてきます。 しかし、大規模なウェブサイトの場合、分析すべき検索クエリが膨大になっているという課題がありました。 今回は、ML.GENERATE_TEXTを用いてプロンプトベースのデータパイプラインを作り、ユーザーの検索意図分析を行ってみた事例を紹介します

                                                                  データマーケティングの強い味方!?BigQueryと大規模言語モデル(LLM)の統合で始める検索意図分析の事例|田口 信元
                                                                • 【コスト最適化】BigQuery Editions などの解説と見積もり方法

                                                                  2023 年度の Google Data Cloud & AI Summit にて BigQuery に対する超有益なアップデートが発表されました! 価格体系の変更について、有効的に活用すればコストの最適化ができるものになります。 ヘビーユーザーは当然のこと、ライトユーザーやこれから検証のために少し触ってみたいような方々に向け、おさらいも交えながら説明をさせていただきたいと思います。また、弊社内で実際に利用している BigQuery のデータセットに対し、この変更でコストがどのように最適化できるのかも紹介させていただきます。 価格体系の変更 まずは、おさらいとして BigQuery の価格体系を解説します。 BigQuery のアーキテクチャはストレージとコンピューティングに分離されています。伴って、BigQuery の料金は、Storage pricing (ストレージ料金)と呼ばれるス

                                                                    【コスト最適化】BigQuery Editions などの解説と見積もり方法
                                                                  • dbtからSnowflake Dynamic Tablesを作成してリアルタイムデータパイプラインを構築してみる

                                                                    これは何? こんにちは。 dely株式会社でデータエンジニアをしておりますharry(@gappy50)です。 この記事は、昨年書いた以下の記事の続きの記事になります。 SnowflakeではDynamic TablesのPuPrが開始されており、宣言的なデータパイプラインの全貌徐々に見え隠れしております。 また、これに追従する形でdbt1.6でもMaterialized View(SnowflakeではDynamic Table)をサポートしはじめました。 このDynamic Tablesのメリットとして一番わかりやすいのは、ニアリアルタイムなストリーミングパイプラインをクエリを書くだけで実現が可能になる面だと思います。 これまではモデルを作成したあとのワークロードの実行は dbt build を実行するタイミングとなってしまうため、リアルタイムなデータパイプラインの構築が難しい側面があ

                                                                      dbtからSnowflake Dynamic Tablesを作成してリアルタイムデータパイプラインを構築してみる
                                                                    • Snowflake Summit 2023 で感じた新たな時代の盛り上がり - RAKSUL TechBlog

                                                                      こんにちは。ラクスルグループのノバセル株式会社にてデータエンジニアをやっている、@yamnakuです。 今回は、6月末にラスベガスにて開催された Snowflake Summit 2023 に参加してきたので、その参加報告をしたいと思います。 Snowflake については、以下の記事にて紹介しています。 参加に至るまでの経緯 弊社では、ビジョンである「マーケティングの民主化」を実現するため、お客様のマーケティング施策の定量評価を通じ、より効果的なマーケティング活動の実現を支援しています。 その中で、定量評価に用いるさまざまなデータの集計や分析を行うにあたり、"データクラウド"である Snowflake を中心としたシステムの構築を行なっています。 私自身も、データエンジニアとして2年ほど Snowflake を利用したデータパイプラインの構築や運用を行なってきました。 また、日本において

                                                                        Snowflake Summit 2023 で感じた新たな時代の盛り上がり - RAKSUL TechBlog
                                                                      • DWHをCDPのように使える!?Hightouchの「Customer Studio」でGUI操作でセグメンテーションしてみた | DevelopersIO

                                                                        DWHをCDPのように使える!?Hightouchの「Customer Studio」でGUI操作でセグメンテーションしてみた さがらです。 HightouchはDWH⇨各種アプリケーションへのデータ転送に使える「ReverseETL」のサービスですが、Customer StudioというDWHをCDP(Customer Data Platform)のように扱ってCRM・MAのツールと連携してマーケティング活動に伴うセグメンテーション・分析を行える機能があります。※Customer StudioはBussinessプラン以上でのみ使用可能のためご注意ください。 今回はCustomer Studioの基本機能として、ドキュメントのImplementation stepsに沿って、Hightouch上でGUIベースでセグメンテーションを行ってみます。 事前準備 SourceとDestinati

                                                                          DWHをCDPのように使える!?Hightouchの「Customer Studio」でGUI操作でセグメンテーションしてみた | DevelopersIO
                                                                        • 統計ダッシュボード機能を BigQuery と BI Engine で実装する

                                                                          先日、統計ダッシュボード機能(β)をリリースしました。記事をひとつでも公開している場合、Zennにログインすればどなたでも統計情報を表示できます。執筆頻度の確認や閲覧回数の参考にお役立てください。 本稿ではどのように実現したかについて課題とともに記録します。 TL;DR 投稿ページの表示イベントは Google Analytics から BigQuery へ連携しており、イベントデータ(BigQuery)と記事データ(Cloud SQL)をどうJOINさせるかが課題 外部接続でBigQueryからCloud SQLつなぐことにした 統計データ読み出し時、BigQueryを直接使うとクエリ毎に課金されてしまうため、BigQuery BI Engine を使うことにした スケジュールクエリを使い、BI Engineの容量に収まるように集計データを最小限にまとめる チャートは Chart.js

                                                                            統計ダッシュボード機能を BigQuery と BI Engine で実装する
                                                                          • Snowflakeで感情分析を試してみようとして失敗した話 - Qiita

                                                                            はじめに 最近急激に暑くなってきましたね... この記事を書いている前の週にSnowflake Summit 2023が開催され、DWH×AIがさらに加速するような内容がさまざま発表され、私もすっかりSnowflakeに御熱なわけですが、SnowflakeでAIモデルを動かしてみたいと思い、いろいろ試行錯誤をした内容をまとめておこう!ということで、この記事を書いていこうと思います。 初めてのQiitaでの記事投稿でかなり緊張しており、拙い部分が多いと思いますが、Snowflakeの特徴的な部分をお伝えできればと思います! この記事の対象者 Snowflake×AIに興味がある方 Snowflakeで感情分析をやってみたい方 ONNXをSnowflakeで使うにはどうすればいいのかわからない方 この記事の内容 完成図の確認 利用する技術の説明 感情分析をSnowflakeで行うための準備 や

                                                                              Snowflakeで感情分析を試してみようとして失敗した話 - Qiita
                                                                            • オープンデータレイクハウスとは Clouderaが企業向けプライベート生成AIの実装を見据えた新発表

                                                                              Clouderaはがセキュリティと信頼性に優れた責任あるAIを大規模に利用して、企業が利益を得るためのプロセスとそのソリューション群を発表した。セキュリティとガバナンスを確保しつつ、独自のデータや自社特有の文脈に対応させた生成AIの利用が可能になるとしている。 Clouderaは2023年6月6日(米国時間)、セキュリティと信頼性に優れた責任あるAIを大規模に利用して、企業が利益を得るためのプロセスを発表した。大規模言語モデル(LLM)を活用するための新たなプランを即座に取り入れられる。ユーザーはセキュリティとガバナンスを確保しつつ、独自のデータや自社特有の文脈に対応させた生成AIの利用が可能になるとしている。 Clouderaのオープンデータレイクハウスは、データウェアハウスとデータレイクの機能を統合し、ビジネスインテリジェンスやAIソリューションを強化する。これらの機能はプライベートク

                                                                                オープンデータレイクハウスとは Clouderaが企業向けプライベート生成AIの実装を見据えた新発表
                                                                              • 書籍紹介:大規模データ管理(エンタープライズアーキテクチャのベストプラクティス) | フューチャー技術ブログ

                                                                                最近読んだ書籍の中で非常に良質な内容でしたので紹介したいと思います。少しでも多くの方に興味を持ってもらえることを期待しています。 O’Reilly Japan はじめに私自身がデータ管理(データマネージメント)という観点でここ数年様々な検討を行ってきていますので前提としてその背景について簡単にまとめてみます。 かつてオンプレミスで運用を行っていた時は企業内のデータは完全に管理されていました。データウェアハウスを導入してデータの集約・加工は行われていましたが、専門チームがデータ仕様確認やデータ提供までもすべての責任を担っていました。品質は高いのですが利用者からの要望(新しいデータの提供、仕様の変更)の対応についてはスピード大きな制約がありました。また大規模なデータを扱うためには多大なコストが必要という制約もあります。 クラウド技術による「スモールスタートを可能とするインフラ」「大規模なデータ

                                                                                  書籍紹介:大規模データ管理(エンタープライズアーキテクチャのベストプラクティス) | フューチャー技術ブログ
                                                                                • Microsoftがデータ分析基盤「Fabric」発表、DWH・AI・ストリーム分析を統合

                                                                                  米Microsoft(マイクロソフト)は2023年5月23日(米国時間)、年次イベント「Microsoft Build」で新しいデータ分析プラットフォーム「Microsoft Fabric」を発表した。データレイク「OneLake」を使って一元的にデータを管理し、AI(人工知能)によるアシスト機能「Copilot」も利用できる。 イベントに登壇したマイクロソフトのSatya Nadella(サティア・ナデラ)CEO(最高経営責任者)は「全てのAIアプリケーションはデータから始まる。(Fabricは)私たちが何年もかけて取り組んできた製品だ。マイクロソフトのデータ関連製品として、(データベース管理システムである)SQL Server以来、最大の発表になるだろう」と力を込めた。 マネージドクラウドサービス「Azure Data Factory」、企業向けデータ分析サービス「Azure Syna

                                                                                    Microsoftがデータ分析基盤「Fabric」発表、DWH・AI・ストリーム分析を統合