並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 40件

新着順 人気順

dwhの検索結果1 - 40 件 / 40件

  • BigQueryでクエリ一撃で29万円溶かしたけど助かった人の顔

    SolanaのPublic DataをBigQueryで取得したかった# えー、お笑いを一席. ブロックチェーンSolanaのデータがGoogle Cloud BigQueryで使えるようになったというニュースをたまたまネット推薦記事でみかけた1. おや, 面白そうだ. ちょっとやってみようかな… BigQueryはさわるのが1年以上つかってないかも, どうやるんだっけ… とりあえずカラムとかサンプルでちょっとデータをみたいよな, こんな感じだっけか? とりあえず動かしてみよう, ポチッとな. … 5秒でレスポンスが帰ってくる. おー、速い. えーっと, あれ課金データ309TB?! いちげきひっさつ、ハサンギロチン2. BigQueryでクエリ一撃5 秒で29万円溶かした人の顔# 話題の画像生成AI, DALL・Eをつかって BigQueryでお金溶かした人の顔を表現してもらった3. あ

    • Apache Iceberg とは何か - 流沙河鎮

      はじめに 概要 Apache Iceberg(アイスバーグ)とは [重要] Icebergの本質はTable Specである Table Spec バージョン Icebergハンズオン Icebergの特徴 同時書き込み時の整合性担保 読み取り一貫性、Time Travelクエリ、Rollback Schema Evolution Hidden Partitioning Hidden Partitioningの種類 時間 truncate[W] bucket[N] Partition Evolution Sort Order Evolution クエリ性能の最適化 ユースケース Icebergのアーキテクチャ Iceberg Catalog Iceberg Catalogの選択肢 metadata layer metadata files manifest lists manifest f

        Apache Iceberg とは何か - 流沙河鎮
      • 次世代データ基盤:データレイクハウスを Google Cloud で実現する

        はじめに こんにちは、クラウドエース データソリューション部の松本です。 普段はデータ基盤や MLOps の構築をしたり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。また、昨年は Google Cloud Partner Top Engineer 2024 に選出されました。今年も Goodle Cloud 界隈を盛り上げていけるよう頑張っていきたいと思います。 クラウドエース データソリューション部 について クラウドエースのITエンジニアリングを担う システム開発統括部 の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのが データソリューション部 です。 弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があれば エントリー をお待ちしております! 今回は、次世代データ基盤であるデ

          次世代データ基盤:データレイクハウスを Google Cloud で実現する
        • Snowflake の Copilot が優秀すぎる件について

          マーケティングテクノロジーの情報やノウハウ・TIPS、エクスチュア社の情報を発信。【ブログネタ募集】ご興味のある分野を教えてください!ご要望の内容を記事に起こします!メニューの「ブログへの」リクエストよりお送りください。 menu こんにちは、喜田です。 いままでSnowflakeのライトユーザーで一部機能だけに特化して触っている状態でしたが、最近はData Superheroes 2024になったこともあり、いままで関わりの薄かった製品領域も調査したり、海外リージョンでしか出ていないプレビューを触ったりしています。 そのうちの一つがCopilotで、いまは北米など一部リージョンでのみパブリックプレビュー中の、Snowflakeコード開発が一段と捗るAIおしゃべり機能です。 この右側のパネルがCopilotとのチャット。出力が多くてチャットっぽくないですが、上から会話が続いております。 C

            Snowflake の Copilot が優秀すぎる件について
          • データカタログ特集 データ利活用に向けたアーキテクチャ6選 - Findy Tools

            整備したデータ基盤を、事業部や会社全体で活用に持っていく中で「データカタログ」の必要性が増々注目を集めています。 今回は、データカタログを導入し、データ利活用に挑んでいる6社に、アーキテクチャの工夫ポイントからデータカタログ導入によって得られた効果などを伺いました。 ◆目次 株式会社10X 株式会社ビットキー 株式会社エブリー 株式会社Luup Sansan株式会社 株式会社ZOZO 株式会社10X 事業内容 10Xでは「10xを創る」をミッションとし、小売向けECプラットフォーム「Stailer」の提供を通じて、スーパーやドラッグストア等のオンライン事業立ち上げ・運営支援を行っています。Stailerでは業務構築におけるコンサルティングから、必要な商品マスタやお客様アプリ・スタッフ向けのオペレーションシステム等の提供、配達システムの提供、販売促進の支援など、データを分析しながら一気通貫で

              データカタログ特集 データ利活用に向けたアーキテクチャ6選 - Findy Tools
            • タイミーデータ基盤のモデリング設計について - Timee Product Team Blog

              はじめに こんにちはokodoonです タイミーのデータ基盤に対してデータモデリングを始めてしばらく経ったので、現状の全体構成を紹介したいと思います 全体構成 弊社のBigQueryは以下の4層にレイヤリングされています それぞれの役割は以下のような切り分けになっています レイヤー名 役割 データレイク層 複数ソースシステムのデータを未加工の状態でBigQueryにロードする宛先 dbt snapshotによるソースの履歴化 ステージング層 複数ソースシステムのデータを共通した処理でクレンジングする層 DWH層 ソースシステムのデータ形式を分析に適した形に変換する層 ディメンショナルモデリング/ログテーブルをイベント単位に分割/その他便利テーブル作成 データマート層 特定用途に対して1:1で作成されたテーブル群を格納する層 ダッシュボード用テーブル/Looker用テーブル/GoogleSh

                タイミーデータ基盤のモデリング設計について - Timee Product Team Blog
              • 入社4ヶ月でBigQueryの課金額を減らすために考えたこと - 弁護士ドットコム株式会社 Creators’ blog

                データ分析基盤室の otobe(𝕏@UC_DBengineer) です。 事業規模が拡大し、大規模なデータの管理が必要になるにつれて、SnowFlake や BigQuery のようなハイパワーな DWH サービスでデータを加工するケースは多いです。 その際、想定外な高額請求が起こる原因のひとつに、クエリが最適化されておらずスキャン量が増大しているケースがあります。 そのため、クエリのスキャン量を監視・管理することが課金額を減らすうえで有効な手段となることがあります。 本記事では、前半で BigQuery で課金されるスキャン量を監視・管理するまでのプロセスを振り返り、 後半で BigQuery の課金額を減らすために簡単にチェックできることについてお話しします。 BigQuery クエリにおけるスキャン量を監視・管理するに至った理由 BigQuery の課金額が想定より大幅に増加してい

                  入社4ヶ月でBigQueryの課金額を減らすために考えたこと - 弁護士ドットコム株式会社 Creators’ blog
                • 統計ダッシュボード機能を BigQuery と BI Engine で実装する

                  先日、統計ダッシュボード機能(β)をリリースしました。記事をひとつでも公開している場合、Zennにログインすればどなたでも統計情報を表示できます。執筆頻度の確認や閲覧回数の参考にお役立てください。 本稿ではどのように実現したかについて課題とともに記録します。 TL;DR 投稿ページの表示イベントは Google Analytics から BigQuery へ連携しており、イベントデータ(BigQuery)と記事データ(Cloud SQL)をどうJOINさせるかが課題 外部接続でBigQueryからCloud SQLつなぐことにした 統計データ読み出し時、BigQueryを直接使うとクエリ毎に課金されてしまうため、BigQuery BI Engine を使うことにした スケジュールクエリを使い、BI Engineの容量に収まるように集計データを最小限にまとめる チャートは Chart.js

                    統計ダッシュボード機能を BigQuery と BI Engine で実装する
                  • データマーケティングの強い味方!?BigQueryと大規模言語モデル(LLM)の統合で始める検索意図分析の事例|田口 信元

                    データマーケティングの強い味方!?BigQueryと大規模言語モデル(LLM)の統合で始める検索意図分析の事例 初めまして、Ubie Product Platformのグロースチームでエンジニアをしてる田口です。「健康が空気のように自然になる世界」を目指し、症状検索による発症から受診までのサポートするサービス症状検索エンジン「ユビ―」を提供しています。 さて、サービスを成長させる上で、ユーザーの行動を理解することが不可欠です。ユーザーが何を求め、どのようにサービスを利用しているのかを知ることで、サービスの満足度を向上させるための改善策が見えてきます。 しかし、大規模なウェブサイトの場合、分析すべき検索クエリが膨大になっているという課題がありました。 今回は、ML.GENERATE_TEXTを用いてプロンプトベースのデータパイプラインを作り、ユーザーの検索意図分析を行ってみた事例を紹介します

                      データマーケティングの強い味方!?BigQueryと大規模言語モデル(LLM)の統合で始める検索意図分析の事例|田口 信元
                    • DWH改善に生かす! 入門elementary - yasuhisa's blog

                      前提: これは何? dbtを使ったデータプロダクトを作っている社内のチームメンバー向けに書いた勉強会用のドキュメントです 社外に公開できるように少し抽象化して書いてます DWHに限らずdbtを使ったデータプロダクトで生かせる話ですが、分かりやすさのためにDWHを題材にしています 3行まとめ elementaryはdbtを利用しているデータパイプラインに対してData Observabilityを強化するツールであり、付属のリッチなレポートやSlachへのアラート通知が便利です しかし、実はelementaryが内部で生成している成果物はDWHの改善に役に立つものがたくさんあります 本エントリではelementaryの成果物や役に立つ実例を多めに紹介します 前提: これは何? 3行まとめ 背景: DWHとデータ品質 Observability / Data Observabilityについて

                        DWH改善に生かす! 入門elementary - yasuhisa's blog
                      • BigQuery で Vertex AI の LLM を使用して SQL のみで RAG を構築する

                        はじめに こんにちは、Google Cloud Partner Top Engineer 2024 を受賞いたしました、クラウドエース データソリューション部の松本です。 クラウドエース データソリューション部 について クラウドエースのITエンジニアリングを担う システム開発統括部 の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのが データソリューション部 です。 弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があれば エントリー をお待ちしております! 今回は、BigQuery で Vertex AI の LLM を使用して SQL のみで RAG を構築する方法についてご紹介します。 この記事はこんな人にオススメ BigQuery の SQL のみで LLM を使った問合せシステムを構築したい BigQue

                          BigQuery で Vertex AI の LLM を使用して SQL のみで RAG を構築する
                        • OLAPデータベースにおける高速化の技術 - PLAID engineer blog

                          こんにちは、エンジニアのkomukomoです。フリーランスとしてプレイドでお仕事させていただいています。これは社内勉強会をブログ化したものです。この記事では、OLAPデータベースにおいて分析クエリを高速化するために使われている技術について説明します。 また、データベース使用者がどう使うかというよりはデータベース自体の内部の話にフォーカスしています。 -----------------------

                            OLAPデータベースにおける高速化の技術 - PLAID engineer blog
                          • BigQuery データ キャンバスでデータモデリングしてみた / I tried data modeling with BigQuery Data Canvas

                            ■イベント #bq_sushi #19 https://bq-sushi.connpass.com/event/317348/ ■発表者 技術本部 研究開発部 Architectグループ 中根 洋平 ■研究開発職 採用情報 https://media.sansan-engineering.com/randd ■Sansan Tech Blog https://buildersbox.corp-sansan.com/

                              BigQuery データ キャンバスでデータモデリングしてみた / I tried data modeling with BigQuery Data Canvas
                            • GitHub - chdb-io/chdb: chDB is an embedded OLAP SQL Engine 🚀 powered by ClickHouse

                              You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                GitHub - chdb-io/chdb: chDB is an embedded OLAP SQL Engine 🚀 powered by ClickHouse
                              • Databricksで築く未来のデータメッシュ組織/The Datamesh Organization Built with Databricks

                                Databricksで築く未来のデータメッシュ組織/The Datamesh Organization Built with Databricks

                                  Databricksで築く未来のデータメッシュ組織/The Datamesh Organization Built with Databricks
                                • Google Cloud Next’24で発表されたBigQueryのアップデート情報をまとめました | DevelopersIO

                                  Google CLoudデータエンジニアのはんざわです。 Google Cloud Next'24において、各サービスで多数のアップデート情報が紹介されました。 この記事では、BigQueryのアップデート情報、特にデータエンジニア向けの情報をまとめて紹介したいと思います! 新機能が発表されたセッションとその内容を簡単に紹介していきます! 気になる内容があった方は是非、YouTubeの動画を確認してみてください。 注意点 本記事の内容にBigQuery ML関連のサービスは含まれていません。 不足している情報があれば随時更新します... 2024年4月13日時点では、Google Cloud Next'24で発表された機能のほとんどがリリースノートやドキュメントに反映されていません。そのため今後変更される可能性がありますので注意してください。 Build a unified, open,

                                    Google Cloud Next’24で発表されたBigQueryのアップデート情報をまとめました | DevelopersIO
                                  • dbt exposureによるデータ基盤アウトプットの登録を自動化しました - Timee Product Team Blog

                                    はじめに 課題感・背景 使用しているBIツールについて BIツールの使用ボリューム感について やったこと:概要 やったこと:詳細 referenced tableにテーブル名ではなくdbtモデル名が入るようにしたことについて 各種アウトプットの公開設定をmeta情報として付与する方針としたことについて tagを追加してexposureの検索性を向上させたこと exposureのnameにシートとダッシュボードのタイトルを反映する方針にしたこと 今後の発展 保守運用の設計 カラムレベルリネージュ ✖️ exposure おわりに We're Hiring!! はじめに こんにちは。okodooonです!! データ基盤を参照したアウトプットが社内に溢れかえっていませんか? 弊社は追いきれていないLookerStudioやConnectedSheetがめちゃくちゃ溢れかえっていました。 そんな折

                                      dbt exposureによるデータ基盤アウトプットの登録を自動化しました - Timee Product Team Blog
                                    • BigQueryをオンデマンド料金モデルからBigQuery Editionsへ移行した話 - BOOK☆WALKER inside

                                      こんにちは、メディアサービス開発部サービス分析課の佐藤です。ブックウォーカー社で全社横断のデータ基盤を構築しています。 今年の3月末にBigQueryの新料金体系、BigQuery Editionsが発表されました。これに伴い来月の7月5日より従来の定額モデルが終了し、オンデマンド料金モデルも25%の値上げとなります。 cloud.google.com これまでブックウォーカー社ではスキャンサイズのバーストを防ぐためにGoogle Cloud(GCP)の「割り当てと上限」を利用し、BigQueryにおいてプロジェクト全体のスキャンサイズとユーザーごとのスキャンサイズを制限していました。これはプロジェクト全体、あるいはユーザーが設定したスキャンサイズを上回るとそれ以上の処理を停止させるという制限です。 Webサービス開発に関わる分析業務ではGoogleAnalyticsのエクスポートログやW

                                        BigQueryをオンデマンド料金モデルからBigQuery Editionsへ移行した話 - BOOK☆WALKER inside
                                      • エンジニア向けのBIツール、QuaryをBigQueryに接続して使ってみた | DevelopersIO

                                        こんちには。 データアナリティクス事業本部 機械学習チームの中村(nokomoro3)です。 Quaryというエンジニア向けのBIツールが気になったので使ってみました。 GitHub - quarylabs/quary: Open-source BI for engineers VSCodeの拡張機能やCLIが準備されており、以下のことができます。 データベースへの接続 dbtに類似した機能 sqlファイルとしてmodelを記述可能、schemaもyamlファイルで記述可能 schemaはGUIで操作もでき、リネージも表示可能 また簡単なグラフなどもyamlファイルで管理可能 対応ソースはBigQueryやSnowflakeなどとなっていますので、今回はBigQueryで試してみようと思います。 BigQuery側の準備 前準備として、以下のページにある ml-latest-small.z

                                          エンジニア向けのBIツール、QuaryをBigQueryに接続して使ってみた | DevelopersIO
                                        • BigQuery DataFramesを使ってみる | DevelopersIO

                                          このデータをBigQuery DataFramesで扱います。内容としては{project_id}.data_set_test.jp_weatherのデータを使ってPandasで行う一般的な分析操作を行います。コードは以下になります。 import os import bigframes.pandas as bpd bpd.options.bigquery.project = os.environ.get("GOOGLE_PROJECT_ID") bpd.options.bigquery.location = "asia-northeast1" df1 = bpd.read_gbq("{project_id}.data_set_test.jp_weather") # df1 = bpd.read_gbq("SELECT * FROM {project_id}.data_set_test.j

                                            BigQuery DataFramesを使ってみる | DevelopersIO
                                          • Dataformを使ってデータ分析基盤を構築した話 - Leverages データ戦略ブログ

                                            はじめに こんにちは。レバレジーズ データ戦略室の辰野です。 前回の投稿からいつの間にか1年以上経過していました。引き続きデータマネジメントやデータガバナンスに関連する仕事をしていたのですが、今回は私が昨年度末に取り組んだ、Dataformを利用したデータ分析基盤の構築についてお話させていただきます。 Dataformとは Dataformとは、現在Google Cloudで利用できるデータモデリングツールの一つです。ELT(抽出、読み込み、変換)処理における、T(変換)の部分を管理できます。主な機能として、下記があります。 SQLワークフローを開発、実行できる テーブル同士の依存関係を管理できる テーブルの品質テストができる これらの機能を利用することで、すべてのデータプロセスを管理することが可能です。 (参考:Google Cloud,Dataform の概要) Dataformを導入

                                              Dataformを使ってデータ分析基盤を構築した話 - Leverages データ戦略ブログ
                                            • GCP版Dataformで冪等性を担保する設計ポイント3つ - TVer Tech Blog

                                              データエンジニアの遠藤です。 TVer Advent Calendar 2023の24日目の記事になります。 はじめに 本年(2023年)、Google Cloudのビッグデータ基盤として展開されるBigQueryでは、データガバナンスツールであるDataformがGA(Generally Avaialble)になりました。 cloud.google.com このDataformの登場により、BigQuery上でデータを利活用しやすいように変換する(データマートを生成する)システムの構築が容易になりました。 本記事では、Dataform上において、定常実行やリトライ実行を容易にするために、冪等性が担保される設計のテクニックを3点紹介します。(Dataformの基本的な使い方については触れませんのでご注意ください) 1. SQLX内のクエリに変数を用いる DataformはSQLXと呼ばれる

                                                GCP版Dataformで冪等性を担保する設計ポイント3つ - TVer Tech Blog
                                              • Snowflake 向けの DevOps の取り組みと現状の課題についてまとめてみた

                                                本記事の背景 本記事は、某所で密かに行われていた Snowflake DevOps 情報交換会 Season 1 最終回の議論用に共有した内容です。 本会は、 DevOps を中心に、また DevOps とは直接は関係ないテーマも含め、その時々において関心のあるテーマを取り扱っていましたが、今回は最終会ということで、本来のテーマである DevOps において、私個人が中心的テーマであると考える構成管理やデプロイの自動化について議論したいと思い、整理しました。 中心的テーマを再び取り上げようと考えたきっかけの 1 つが Snowflake Data Superhero の Tomas が LinkedIn で EXECUTE IMMEDIATE FROM という新しい構文について紹介しているのを発見したことです。これはステージ上の SQL ファイルを直接実行できるという機能です。 Tomas

                                                  Snowflake 向けの DevOps の取り組みと現状の課題についてまとめてみた
                                                • 【みんなのデータモデル講座】進化編~ディメンショナルモデリング入門~

                                                  Snowflakeを愛するユーザーたちの集い #SnowVillage の大人気企画 『みんなのシリーズ』第三弾が登場! 『みんなのデータモデル講座』、第二回はいよいよディメンショナルモデリング入門! その本質や考え方を学びながら、ビジネスプロセスのモデリングにチャレンジします。 「実データを見てみたら、理想のデータと乖離がありすぎる…」 「扱いにくいデータがあったときはどうすれば…?」 適切なモデリングで、価値提供を加速させていきましょう! 今回も、NTT DATA 渋谷さん、 CARTA HOLDINGS pei0804さん、 Snowflake株式会社 グレースさんがお届けします。 第一回【みんなのデータモデル講座】英雄編〜正規化・ERモデルの基礎〜はコチラ https://youtu.be/I2jxAkrolys シリーズ第一弾『みんなのSQL講座』はコチラ https

                                                    【みんなのデータモデル講座】進化編~ディメンショナルモデリング入門~
                                                  • Snowflakeで感情分析を試してみようとして失敗した話 - Qiita

                                                    はじめに 最近急激に暑くなってきましたね... この記事を書いている前の週にSnowflake Summit 2023が開催され、DWH×AIがさらに加速するような内容がさまざま発表され、私もすっかりSnowflakeに御熱なわけですが、SnowflakeでAIモデルを動かしてみたいと思い、いろいろ試行錯誤をした内容をまとめておこう!ということで、この記事を書いていこうと思います。 初めてのQiitaでの記事投稿でかなり緊張しており、拙い部分が多いと思いますが、Snowflakeの特徴的な部分をお伝えできればと思います! この記事の対象者 Snowflake×AIに興味がある方 Snowflakeで感情分析をやってみたい方 ONNXをSnowflakeで使うにはどうすればいいのかわからない方 この記事の内容 完成図の確認 利用する技術の説明 感情分析をSnowflakeで行うための準備 や

                                                      Snowflakeで感情分析を試してみようとして失敗した話 - Qiita
                                                    • 【新機能】BigQuery data canvasを早速触ってみた #GoogleCloudNext | DevelopersIO

                                                      Google Cloudデータエンジニアのはんざわです。 現在開催中のGoogle Cloud Next'24でBigQuery data canvasという新機能が追加されました。 本記事では早速この新機能を触ってみたいと思います! BigQuery data canvas とは? BigQuery data canvasは、データソースの選択、クエリの実行、可視化をDAGで操作できる分析用のインターフェイスです。 また、Geminiのサポートにより、自然言語を使用したデータの検索やSQLの作成、グラフの生成も行うことが可能です。 BigQuery data canvasの公式ドキュメント それでは早速触ってみたいと思います! 注意 2024年4月10日時点でBigQuery data canvasはprivate プレビューで、使用するためにはRequest BigQuery data

                                                        【新機能】BigQuery data canvasを早速触ってみた #GoogleCloudNext | DevelopersIO
                                                      • 【コスト最適化】BigQuery Editions などの解説と見積もり方法

                                                        2023 年度の Google Data Cloud & AI Summit にて BigQuery に対する超有益なアップデートが発表されました! 価格体系の変更について、有効的に活用すればコストの最適化ができるものになります。 ヘビーユーザーは当然のこと、ライトユーザーやこれから検証のために少し触ってみたいような方々に向け、おさらいも交えながら説明をさせていただきたいと思います。また、弊社内で実際に利用している BigQuery のデータセットに対し、この変更でコストがどのように最適化できるのかも紹介させていただきます。 価格体系の変更 まずは、おさらいとして BigQuery の価格体系を解説します。 BigQuery のアーキテクチャはストレージとコンピューティングに分離されています。伴って、BigQuery の料金は、Storage pricing (ストレージ料金)と呼ばれるス

                                                          【コスト最適化】BigQuery Editions などの解説と見積もり方法
                                                        • OpenMetadataでRedshiftのクエリログからリネージュを作成する | DevelopersIO

                                                          OpenMetadataではデータリネージュ(データの流れ)を可視化できます。 Redshiftではクエリのログを読み込むことでそこから自動的にリネージュ情報を作ることができます。 その流れをやっていこうと思います。 Redshiftのユーザについて OpenMetadataを利用する際はスーパーユーザではないユーザを利用するべきです。 OpenMetadataはデータカタログなので原則Redshift内の実データ書き換えは発生しません。 発生してしまったらかなり怖いです。 よってスーパーユーザの権限はそもそも必要なく、 また、もしも想定外に書き換えがあった時にはきちんと禁止されるように一般のリードオンリーユーザを作成して行います。 また別の理由として、スーパーユーザでは全てのデータにアクセスができてしまい、 Redshift Spectrumを利用するテーブルに対してもクエリをかけること

                                                            OpenMetadataでRedshiftのクエリログからリネージュを作成する | DevelopersIO
                                                          • Dataformでコンパイル変数を使ってみた | DevelopersIO

                                                            WorkflowsからDataformの起動方法を検証してみました。Dataformタグ指定、コンパイル変数のWorkflowsからの上書きができるか、もあわせて検証してみました。 データアナリティクス事業本部の根本です。Dataformを使っていて、呼び出しもと(Workflowsとか)から動的に値を変えてDataformを呼び出すことができたらいいなと思い調べてみたらコンパイル変数を用いたらできたので記事にしてみました。 この記事の対象者 Dataformでコンパイル変数を使ってみたいひと 前提条件 Dataformのワークスペースやリポジトリが存在する、使えること 検証の全体像 コンパイル変数をdataform.jsonで指定して動作するか確認 APIでDataformを実行するときにコンパイル変数の値を上書きして動作するか確認 上記2つの検証をしていきます。 やってみる それでは早

                                                              Dataformでコンパイル変数を使ってみた | DevelopersIO
                                                            • [レポート] データウェアハウスを製品として捉える〜設計から実現までの一貫した流れ #dbtCoalesce #Coalesce23 | DevelopersIO

                                                              [レポート] データウェアハウスを製品として捉える〜設計から実現までの一貫した流れ #dbtCoalesce #Coalesce23 大阪オフィスの玉井です。 米国時間2023年10月16日〜19日、イベント『Coalesce 2023』が開催されました。主催はdbt labs社です。 本記事は、その中で発表されたData warehouse as a product: Design to delivery(データウェアハウスを製品として捉える:設計から実現までの一貫した流れ)というセッションについて、レポートをお届け致します。 セッション概要 登壇者 Lance Witheridge, Data Modernisation Lead, Trade Me 超概要 社内のデータ分析基盤をクラウド化しようとしたが、うまくいかず、抜本的な再設計を行った話です。その際、DWH(のデータ)を製品・プ

                                                                [レポート] データウェアハウスを製品として捉える〜設計から実現までの一貫した流れ #dbtCoalesce #Coalesce23 | DevelopersIO
                                                              • RDBMSをデータウエアハウスに使う際の性能劣化、OLTP用途との違いを理解

                                                                第11回 RDBMSをデータウエアハウスに使う際の性能劣化、OLTP用途との違いを理解 データウエアハウスにまつわるトラブル 今回はデータウエアハウス(DWH)導入時のトラブル事例を紹介します。DWHとは、組織内の様々なシステムから得られる大量の構造化データや半構造化データを集積し、保存するデータ処理システムです。保存されたデータはBI(ビジネスインテリジェンス)やデータ分析に活用されます。 現代のビジネス環境では、AI(人工知能)を活用した機械翻訳、質問応答、画像認識、機械学習などの技術が急速に進化しています。同様にBIツールを通じてビジネスデータを収集・整理・分析し、視覚的に理解しやすくする技術も進歩しています。蓄積されるデータの量は飛躍的に増加しています。データ管理と分析の重要性が高まる中で、膨大なデータの活用は企業や組織にとって欠かせなくなっています。 DWHの主な特徴は、データを

                                                                  RDBMSをデータウエアハウスに使う際の性能劣化、OLTP用途との違いを理解
                                                                • オープンデータレイクハウスとは Clouderaが企業向けプライベート生成AIの実装を見据えた新発表

                                                                  Clouderaはがセキュリティと信頼性に優れた責任あるAIを大規模に利用して、企業が利益を得るためのプロセスとそのソリューション群を発表した。セキュリティとガバナンスを確保しつつ、独自のデータや自社特有の文脈に対応させた生成AIの利用が可能になるとしている。 Clouderaは2023年6月6日(米国時間)、セキュリティと信頼性に優れた責任あるAIを大規模に利用して、企業が利益を得るためのプロセスを発表した。大規模言語モデル(LLM)を活用するための新たなプランを即座に取り入れられる。ユーザーはセキュリティとガバナンスを確保しつつ、独自のデータや自社特有の文脈に対応させた生成AIの利用が可能になるとしている。 Clouderaのオープンデータレイクハウスは、データウェアハウスとデータレイクの機能を統合し、ビジネスインテリジェンスやAIソリューションを強化する。これらの機能はプライベートク

                                                                    オープンデータレイクハウスとは Clouderaが企業向けプライベート生成AIの実装を見据えた新発表
                                                                  • dbtからSnowflake Dynamic Tablesを作成してリアルタイムデータパイプラインを構築してみる

                                                                    これは何? こんにちは。 dely株式会社でデータエンジニアをしておりますharry(@gappy50)です。 この記事は、昨年書いた以下の記事の続きの記事になります。 SnowflakeではDynamic TablesのPuPrが開始されており、宣言的なデータパイプラインの全貌徐々に見え隠れしております。 また、これに追従する形でdbt1.6でもMaterialized View(SnowflakeではDynamic Table)をサポートしはじめました。 このDynamic Tablesのメリットとして一番わかりやすいのは、ニアリアルタイムなストリーミングパイプラインをクエリを書くだけで実現が可能になる面だと思います。 これまではモデルを作成したあとのワークロードの実行は dbt build を実行するタイミングとなってしまうため、リアルタイムなデータパイプラインの構築が難しい側面があ

                                                                      dbtからSnowflake Dynamic Tablesを作成してリアルタイムデータパイプラインを構築してみる
                                                                    • Icebergテーブルの内部構造について - やっさんメモ

                                                                      この記事は MicroAd Advent Calendar 2023 と Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2023 の1日目の記事です。 qiita.com qiita.com 今年もアドカレの季節がやってきました🎄 今回は、ここ数年でデータ界隈で盛り上がっているOpen Table FormatのIcebergテーブルについて書いていきます。 Hiveテーブルとの比較とか、Icebergテーブルの特徴(Time Travel や Rollback、Hidden Partitioning、Full Schema Evolution等)については、あっちこっちで大分こすられてます。 そこで、Icebergテーブルの特徴がなぜ実現できているのかについて知るために、内部構造がどうな

                                                                        Icebergテーブルの内部構造について - やっさんメモ
                                                                      • DWHをCDPのように使える!?Hightouchの「Customer Studio」でGUI操作でセグメンテーションしてみた | DevelopersIO

                                                                        DWHをCDPのように使える!?Hightouchの「Customer Studio」でGUI操作でセグメンテーションしてみた さがらです。 HightouchはDWH⇨各種アプリケーションへのデータ転送に使える「ReverseETL」のサービスですが、Customer StudioというDWHをCDP(Customer Data Platform)のように扱ってCRM・MAのツールと連携してマーケティング活動に伴うセグメンテーション・分析を行える機能があります。※Customer StudioはBussinessプラン以上でのみ使用可能のためご注意ください。 今回はCustomer Studioの基本機能として、ドキュメントのImplementation stepsに沿って、Hightouch上でGUIベースでセグメンテーションを行ってみます。 事前準備 SourceとDestinati

                                                                          DWHをCDPのように使える!?Hightouchの「Customer Studio」でGUI操作でセグメンテーションしてみた | DevelopersIO
                                                                        • BigQueryの分散処理の仕組みを深掘りする_プレイドエンジニアブログ

                                                                          BigQueryを題材にし、大規模なデータベースでの分散処理の仕組みについて紹介します。

                                                                            BigQueryの分散処理の仕組みを深掘りする_プレイドエンジニアブログ
                                                                          • Amazon DataZone 初期導入から Amazon Redshift 統合の新機能まで解説する! | DevelopersIO

                                                                            Amazon DataZone 初期導入から Amazon Redshift 統合の新機能まで解説する! はじめに クラスメソッドの石川です。Amazon DataZoneは、クラウドサービス間の連携を活かし、Amazon Redshift統合の機能強化により、従来よりも簡単な操作で環境設定ができるようになりました。データガバナンス系のツールは設定が多くなりがちなので、この利便性は多くのユーザーにとって気になるところでしょう。 今回は、Amazon Redshiftのサンプルデータの作成からAmazon DataZoneの初期導入とAmazon Redshift 統合まで解説します。 すでに、Amazon Redshift 導入済みの方は、「Amazon DataZoneの準備」から、Amazon Redshift 統合の機能強化のみご覧いただきたい方は「環境プロファイルを作成」から読み進

                                                                              Amazon DataZone 初期導入から Amazon Redshift 統合の新機能まで解説する! | DevelopersIO
                                                                            • dbtを導入した話、そしてClassiのデータ基盤「ソクラテス」の現在地 - Classi開発者ブログ

                                                                              こんにちは、データプラットフォームチームの鳥山(@to_lz1)です。 Classiでは、2019年ごろからデータ基盤に「ソクラテス」の愛称をつけて運用を続けています。初期の構成は2021年に書かれたエントリ*1にも詳しいですが、数年の間に進化したことも増えてきました。 大きな変化の一例として、最近、私たちのチームではdbt*2を導入してジョブ間の依存管理やメタデータの管理を改善しました。 本記事ではこの取り組みをピックアップして紹介します。また、進化したソクラテスの構成図をアップデートするとともに、Classiデータプラットフォームチームの最新版の雰囲気もお伝えできればと思います。 dbt移行前の構成 ジョブ間の依存管理がつらい メタデータの管理がつらい 過去との差分と、移行への機運 周辺ツールのエコシステムが整った エンジニア以外のメンバーがPull Requestを出すことが減った

                                                                                dbtを導入した話、そしてClassiのデータ基盤「ソクラテス」の現在地 - Classi開発者ブログ
                                                                              • Snowflake Summit 2023 で感じた新たな時代の盛り上がり - RAKSUL TechBlog

                                                                                こんにちは。ラクスルグループのノバセル株式会社にてデータエンジニアをやっている、@yamnakuです。 今回は、6月末にラスベガスにて開催された Snowflake Summit 2023 に参加してきたので、その参加報告をしたいと思います。 Snowflake については、以下の記事にて紹介しています。 参加に至るまでの経緯 弊社では、ビジョンである「マーケティングの民主化」を実現するため、お客様のマーケティング施策の定量評価を通じ、より効果的なマーケティング活動の実現を支援しています。 その中で、定量評価に用いるさまざまなデータの集計や分析を行うにあたり、"データクラウド"である Snowflake を中心としたシステムの構築を行なっています。 私自身も、データエンジニアとして2年ほど Snowflake を利用したデータパイプラインの構築や運用を行なってきました。 また、日本において

                                                                                  Snowflake Summit 2023 で感じた新たな時代の盛り上がり - RAKSUL TechBlog
                                                                                • SnowflakeからClaude3(Bedrock)を呼び出して、文章作成や画像認識させてみた。 - Qiita

                                                                                  SnowflakeからClaude3を呼び出して、文章作成やさせてみる 今回はSnowflakeのUDFでClaude3(Amazon Bedrock)を呼び出して、文章作成や画像認識させる方法について紹介したいと思います。 最初は文章作成させる方法だけで記事を作成しようと思ったのですが、クイックスタートをなぞるだけの記事になりそうだし、もうSnowflake Cortexでも出来ることなので、ステージ上の画像ファイルを認識する機能も追加してみました。 ちなみに、以下はステージに配置したとある画像をClaude3に説明させた結果です。何だと思いますか。Snowflakeヘビーユーザにはお馴染みのあいつです。 この画像には、可愛らしい白いぬいぐるみのクマが写っています。クマの体はふわふわと柔らかそうに見え、青いニットのマフラーを巻いて寒さから身を守っているように見えます。クマの顔は丸く優しい

                                                                                    SnowflakeからClaude3(Bedrock)を呼び出して、文章作成や画像認識させてみた。 - Qiita
                                                                                  1