dwhの人気記事 40件 - はてなブックマーク

1 - 40 件 / 40件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

dwhの検索結果1 - 40 件 / 40件

BigQueryでクエリ一撃で29万円溶かしたけど助かった人の顔
- 252 users
- futurismo.biz
- テクノロジー
- 2024/01/29
SolanaのPublic DataをBigQueryで取得したかった# えー、お笑いを一席. ブロックチェーンSolanaのデータがGoogle Cloud BigQueryで使えるようになったというニュースをたまたまネット推薦記事でみかけた1. おや, 面白そうだ. ちょっとやってみようかな… BigQueryはさわるのが１年以上つかってないかも, どうやるんだっけ… とりあえずカラムとかサンプルでちょっとデータをみたいよな, こんな感じだっけか？とりあえず動かしてみよう, ポチッとな. … 5秒でレスポンスが帰ってくる. おー、速い. えーっと, あれ課金データ309TB？！いちげきひっさつ、ハサンギロチン2. BigQueryでクエリ一撃5 秒で29万円溶かした人の顔# 話題の画像生成AI, DALL･Eをつかって BigQueryでお金溶かした人の顔を表現してもらった3. あ
- bigquery
- あとで読む
- google
- SQL
- コスト
- cloud
- データ
- GCP
Apache Iceberg とは何か - 流沙河鎮
- 161 users
- bering.hatenadiary.com
- テクノロジー
- 2023/09/24
はじめに概要 Apache Iceberg(アイスバーグ)とは [重要] Icebergの本質はTable Specである Table Spec バージョン Icebergハンズオン Icebergの特徴同時書き込み時の整合性担保読み取り一貫性、Time Travelクエリ、Rollback Schema Evolution Hidden Partitioning Hidden Partitioningの種類時間 truncate[W] bucket[N] Partition Evolution Sort Order Evolution クエリ性能の最適化ユースケース Icebergのアーキテクチャ Iceberg Catalog Iceberg Catalogの選択肢 metadata layer metadata files manifest lists manifest f
- Iceberg
- あとで読む
- apache
- データベース
- DB
- data
- データ
- database
次世代データ基盤：データレイクハウスを Google Cloud で実現する
- 150 users
- zenn.dev/cloud_ace
- テクノロジー
- 2024/02/22
はじめにこんにちは、クラウドエースデータソリューション部の松本です。普段はデータ基盤や MLOps の構築をしたり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。また、昨年は Google Cloud Partner Top Engineer 2024 に選出されました。今年も Goodle Cloud 界隈を盛り上げていけるよう頑張っていきたいと思います。クラウドエースデータソリューション部についてクラウドエースのITエンジニアリングを担うシステム開発統括部の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのがデータソリューション部です。弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があればエントリーをお待ちしております！今回は、次世代データ基盤であるデ
- BigQuery
- あとで読む
- gcp
- データ
- cloud
- Google Cloud
- google
- 分析
- クラウド
- アーキテクチャ
Snowflake の Copilot が優秀すぎる件について
- 59 users
- ex-ture.com
- テクノロジー
- 2024/05/03
マーケティングテクノロジーの情報やノウハウ・TIPS、エクスチュア社の情報を発信。【ブログネタ募集】ご興味のある分野を教えてください！ご要望の内容を記事に起こします！メニューの「ブログへの」リクエストよりお送りください。 menu こんにちは、喜田です。いままでSnowflakeのライトユーザーで一部機能だけに特化して触っている状態でしたが、最近はData Superheroes 2024になったこともあり、いままで関わりの薄かった製品領域も調査したり、海外リージョンでしか出ていないプレビューを触ったりしています。そのうちの一つがCopilotで、いまは北米など一部リージョンでのみパブリックプレビュー中の、Snowflakeコード開発が一段と捗るAIおしゃべり機能です。この右側のパネルがCopilotとのチャット。出力が多くてチャットっぽくないですが、上から会話が続いております。 C
- SQL
- snowflake
- AI
- あとで読む
- 仕事
データカタログ特集　データ利活用に向けたアーキテクチャ6選 - Findy Tools
- 58 users
- findy-tools.io
- テクノロジー
- 2024/04/04
整備したデータ基盤を、事業部や会社全体で活用に持っていく中で「データカタログ」の必要性が増々注目を集めています。今回は、データカタログを導入し、データ利活用に挑んでいる6社に、アーキテクチャの工夫ポイントからデータカタログ導入によって得られた効果などを伺いました。 ◆目次株式会社10X 株式会社ビットキー株式会社エブリー株式会社Luup Sansan株式会社株式会社ZOZO 株式会社10X 事業内容 10Xでは「10xを創る」をミッションとし、小売向けECプラットフォーム「Stailer」の提供を通じて、スーパーやドラッグストア等のオンライン事業立ち上げ・運営支援を行っています。Stailerでは業務構築におけるコンサルティングから、必要な商品マスタやお客様アプリ・スタッフ向けのオペレーションシステム等の提供、配達システムの提供、販売促進の支援など、データを分析しながら一気通貫で
タイミーデータ基盤のモデリング設計について - Timee Product Team Blog
- 50 users
- tech.timee.co.jp
- テクノロジー
- 2023/10/23
はじめにこんにちはokodoonですタイミーのデータ基盤に対してデータモデリングを始めてしばらく経ったので、現状の全体構成を紹介したいと思います全体構成弊社のBigQueryは以下の4層にレイヤリングされていますそれぞれの役割は以下のような切り分けになっていますレイヤー名役割データレイク層複数ソースシステムのデータを未加工の状態でBigQueryにロードする宛先 dbt snapshotによるソースの履歴化ステージング層複数ソースシステムのデータを共通した処理でクレンジングする層 DWH層ソースシステムのデータ形式を分析に適した形に変換する層ディメンショナルモデリング/ログテーブルをイベント単位に分割/その他便利テーブル作成データマート層特定用途に対して1:1で作成されたテーブル群を格納する層ダッシュボード用テーブル/Looker用テーブル/GoogleSh
入社４ヶ月でBigQueryの課金額を減らすために考えたこと - 弁護士ドットコム株式会社 Creators’ blog
- 46 users
- creators.bengo4.com
- テクノロジー
- 2024/04/19
データ分析基盤室の otobe（𝕏@UC_DBengineer）です。事業規模が拡大し、大規模なデータの管理が必要になるにつれて、SnowFlake や BigQuery のようなハイパワーな DWH サービスでデータを加工するケースは多いです。その際、想定外な高額請求が起こる原因のひとつに、クエリが最適化されておらずスキャン量が増大しているケースがあります。そのため、クエリのスキャン量を監視・管理することが課金額を減らすうえで有効な手段となることがあります。本記事では、前半で BigQuery で課金されるスキャン量を監視・管理するまでのプロセスを振り返り、後半で BigQuery の課金額を減らすために簡単にチェックできることについてお話しします。 BigQuery クエリにおけるスキャン量を監視・管理するに至った理由 BigQuery の課金額が想定より大幅に増加してい
統計ダッシュボード機能を BigQuery と BI Engine で実装する
- 41 users
- zenn.dev/team_zenn
- テクノロジー
- 2023/07/29
先日、統計ダッシュボード機能(β)をリリースしました。記事をひとつでも公開している場合、Zennにログインすればどなたでも統計情報を表示できます。執筆頻度の確認や閲覧回数の参考にお役立てください。本稿ではどのように実現したかについて課題とともに記録します。 TL;DR 投稿ページの表示イベントは Google Analytics から BigQuery へ連携しており、イベントデータ（BigQuery）と記事データ（Cloud SQL）をどうJOINさせるかが課題外部接続でBigQueryからCloud SQLつなぐことにした統計データ読み出し時、BigQueryを直接使うとクエリ毎に課金されてしまうため、BigQuery BI Engine を使うことにしたスケジュールクエリを使い、BI Engineの容量に収まるように集計データを最小限にまとめるチャートは Chart.js
データマーケティングの強い味方！？BigQueryと大規模言語モデル(LLM)の統合で始める検索意図分析の事例｜田口信元
- 38 users
- note.com/guchey
- テクノロジー
- 2023/08/21
データマーケティングの強い味方！？BigQueryと大規模言語モデル(LLM)の統合で始める検索意図分析の事例初めまして、Ubie Product Platformのグロースチームでエンジニアをしてる田口です。「健康が空気のように自然になる世界」を目指し、症状検索による発症から受診までのサポートするサービス症状検索エンジン「ユビ―」を提供しています。さて、サービスを成長させる上で、ユーザーの行動を理解することが不可欠です。ユーザーが何を求め、どのようにサービスを利用しているのかを知ることで、サービスの満足度を向上させるための改善策が見えてきます。しかし、大規模なウェブサイトの場合、分析すべき検索クエリが膨大になっているという課題がありました。今回は、ML.GENERATE_TEXTを用いてプロンプトベースのデータパイプラインを作り、ユーザーの検索意図分析を行ってみた事例を紹介します
- bigquery
- LLM
- 分析
- 機械学習
- データ
- AI
DWH改善に生かす! 入門elementary - yasuhisa's blog
- 36 users
- www.yasuhisay.info
- テクノロジー
- 2024/01/31
前提: これは何? dbtを使ったデータプロダクトを作っている社内のチームメンバー向けに書いた勉強会用のドキュメントです社外に公開できるように少し抽象化して書いてます DWHに限らずdbtを使ったデータプロダクトで生かせる話ですが、分かりやすさのためにDWHを題材にしています 3行まとめ elementaryはdbtを利用しているデータパイプラインに対してData Observabilityを強化するツールであり、付属のリッチなレポートやSlachへのアラート通知が便利ですしかし、実はelementaryが内部で生成している成果物はDWHの改善に役に立つものがたくさんあります本エントリではelementaryの成果物や役に立つ実例を多めに紹介します前提: これは何? 3行まとめ背景: DWHとデータ品質 Observability / Data Observabilityについて
BigQuery で Vertex AI の LLM を使用して SQL のみで RAG を構築する
- 31 users
- zenn.dev/cloud_ace
- テクノロジー
- 2024/01/23
はじめにこんにちは、Google Cloud Partner Top Engineer 2024 を受賞いたしました、クラウドエースデータソリューション部の松本です。クラウドエースデータソリューション部についてクラウドエースのITエンジニアリングを担うシステム開発統括部の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのがデータソリューション部です。弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があればエントリーをお待ちしております！今回は、BigQuery で Vertex AI の LLM を使用して SQL のみで RAG を構築する方法についてご紹介します。この記事はこんな人にオススメ BigQuery の SQL のみで LLM を使った問合せシステムを構築したい BigQue
- BigQuery
- LLM
- RAG
- gcp
- AI
OLAPデータベースにおける高速化の技術 - PLAID engineer blog
- 21 users
- tech.plaid.co.jp
- テクノロジー
- 2024/03/05
こんにちは、エンジニアのkomukomoです。フリーランスとしてプレイドでお仕事させていただいています。これは社内勉強会をブログ化したものです。この記事では、OLAPデータベースにおいて分析クエリを高速化するために使われている技術について説明します。また、データベース使用者がどう使うかというよりはデータベース自体の内部の話にフォーカスしています。 -----------------------
- db
- あとで読む
- database
- article
BigQuery データキャンバスでデータモデリングしてみた / I tried data modeling with BigQuery Data Canvas
- 21 users
- speakerdeck.com/sansan_randd
- テクノロジー
- 2024/05/25
■イベント #bq_sushi #19 https://bq-sushi.connpass.com/event/317348/ ■発表者技術本部研究開発部 Architectグループ中根洋平 ■研究開発職採用情報 https://media.sansan-engineering.com/randd ■Sansan Tech Blog https://buildersbox.corp-sansan.com/
- 開発
- あとで読む
GitHub - chdb-io/chdb: chDB is an embedded OLAP SQL Engine 🚀 powered by ClickHouse
- 20 users
- github.com/chdb-io
- テクノロジー
- 2023/10/28
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
Databricksで築く未来のデータメッシュ組織/The Datamesh Organization Built with Databricks
- 20 users
- speakerdeck.com/kakehashi
- テクノロジー
- 2024/01/17
Databricksで築く未来のデータメッシュ組織/The Datamesh Organization Built with Databricks
Google Cloud Next’24で発表されたBigQueryのアップデート情報をまとめました | DevelopersIO
- 19 users
- dev.classmethod.jp
- テクノロジー
- 2024/04/14
Google CLoudデータエンジニアのはんざわです。 Google Cloud Next'24において、各サービスで多数のアップデート情報が紹介されました。この記事では、BigQueryのアップデート情報、特にデータエンジニア向けの情報をまとめて紹介したいと思います！新機能が発表されたセッションとその内容を簡単に紹介していきます！気になる内容があった方は是非、YouTubeの動画を確認してみてください。注意点本記事の内容にBigQuery ML関連のサービスは含まれていません。不足している情報があれば随時更新します... 2024年4月13日時点では、Google Cloud Next'24で発表された機能のほとんどがリリースノートやドキュメントに反映されていません。そのため今後変更される可能性がありますので注意してください。 Build a unified, open,
dbt exposureによるデータ基盤アウトプットの登録を自動化しました - Timee Product Team Blog
- 16 users
- tech.timee.co.jp
- テクノロジー
- 2024/03/18
はじめに課題感・背景使用しているBIツールについて BIツールの使用ボリューム感についてやったこと：概要やったこと：詳細 referenced tableにテーブル名ではなくdbtモデル名が入るようにしたことについて各種アウトプットの公開設定をmeta情報として付与する方針としたことについて tagを追加してexposureの検索性を向上させたこと exposureのnameにシートとダッシュボードのタイトルを反映する方針にしたこと今後の発展保守運用の設計カラムレベルリネージュ ✖️ exposure おわりに We're Hiring!! はじめにこんにちは。okodooonです！！データ基盤を参照したアウトプットが社内に溢れかえっていませんか？弊社は追いきれていないLookerStudioやConnectedSheetがめちゃくちゃ溢れかえっていました。そんな折
- dbt
- ツール
BigQueryをオンデマンド料金モデルからBigQuery Editionsへ移行した話 - BOOK☆WALKER inside
- 14 users
- developers.bookwalker.jp
- テクノロジー
- 2023/06/21
こんにちは、メディアサービス開発部サービス分析課の佐藤です。ブックウォーカー社で全社横断のデータ基盤を構築しています。今年の3月末にBigQueryの新料金体系、BigQuery Editionsが発表されました。これに伴い来月の7月5日より従来の定額モデルが終了し、オンデマンド料金モデルも25％の値上げとなります。 cloud.google.com これまでブックウォーカー社ではスキャンサイズのバーストを防ぐためにGoogle Cloud（GCP）の「割り当てと上限」を利用し、BigQueryにおいてプロジェクト全体のスキャンサイズとユーザーごとのスキャンサイズを制限していました。これはプロジェクト全体、あるいはユーザーが設定したスキャンサイズを上回るとそれ以上の処理を停止させるという制限です。 Webサービス開発に関わる分析業務ではGoogleAnalyticsのエクスポートログやW
- BigQuery
- あとで読む
エンジニア向けのBIツール、QuaryをBigQueryに接続して使ってみた | DevelopersIO
- 8 users
- dev.classmethod.jp
- テクノロジー
- 2024/05/20
こんちには。データアナリティクス事業本部機械学習チームの中村(nokomoro3)です。 Quaryというエンジニア向けのBIツールが気になったので使ってみました。 GitHub - quarylabs/quary: Open-source BI for engineers VSCodeの拡張機能やCLIが準備されており、以下のことができます。データベースへの接続 dbtに類似した機能 sqlファイルとしてmodelを記述可能、schemaもyamlファイルで記述可能 schemaはGUIで操作もでき、リネージも表示可能また簡単なグラフなどもyamlファイルで管理可能対応ソースはBigQueryやSnowflakeなどとなっていますので、今回はBigQueryで試してみようと思います。 BigQuery側の準備前準備として、以下のページにある ml-latest-small.z
BigQuery DataFramesを使ってみる | DevelopersIO
- 8 users
- dev.classmethod.jp
- テクノロジー
- 2023/09/19
このデータをBigQuery DataFramesで扱います。内容としては{project_id}.data_set_test.jp_weatherのデータを使ってPandasで行う一般的な分析操作を行います。コードは以下になります。 import os import bigframes.pandas as bpd bpd.options.bigquery.project = os.environ.get("GOOGLE_PROJECT_ID") bpd.options.bigquery.location = "asia-northeast1" df1 = bpd.read_gbq("{project_id}.data_set_test.jp_weather") # df1 = bpd.read_gbq("SELECT * FROM {project_id}.data_set_test.j
- pandas
- bigquery
- python
Dataformを使ってデータ分析基盤を構築した話 - Leverages データ戦略ブログ
- 6 users
- analytics.leverages.jp
- テクノロジー
- 2023/10/04
はじめにこんにちは。レバレジーズデータ戦略室の辰野です。前回の投稿からいつの間にか1年以上経過していました。引き続きデータマネジメントやデータガバナンスに関連する仕事をしていたのですが、今回は私が昨年度末に取り組んだ、Dataformを利用したデータ分析基盤の構築についてお話させていただきます。 Dataformとは Dataformとは、現在Google Cloudで利用できるデータモデリングツールの一つです。ELT（抽出、読み込み、変換）処理における、T（変換）の部分を管理できます。主な機能として、下記があります。 SQLワークフローを開発、実行できるテーブル同士の依存関係を管理できるテーブルの品質テストができるこれらの機能を利用することで、すべてのデータプロセスを管理することが可能です。（参考：Google Cloud,Dataform の概要） Dataformを導入
- *data
GCP版Dataformで冪等性を担保する設計ポイント3つ - TVer Tech Blog
- 6 users
- techblog.tver.co.jp
- テクノロジー
- 2024/01/05
データエンジニアの遠藤です。 TVer Advent Calendar 2023の24日目の記事になります。はじめに本年（2023年）、Google Cloudのビッグデータ基盤として展開されるBigQueryでは、データガバナンスツールであるDataformがGA（Generally Avaialble）になりました。 cloud.google.com このDataformの登場により、BigQuery上でデータを利活用しやすいように変換する（データマートを生成する）システムの構築が容易になりました。本記事では、Dataform上において、定常実行やリトライ実行を容易にするために、冪等性が担保される設計のテクニックを3点紹介します。（Dataformの基本的な使い方については触れませんのでご注意ください） 1. SQLX内のクエリに変数を用いる DataformはSQLXと呼ばれる
Snowflake 向けの DevOps の取り組みと現状の課題についてまとめてみた
- 6 users
- zenn.dev/dataheroes
- テクノロジー
- 2023/10/16
本記事の背景本記事は、某所で密かに行われていた Snowflake DevOps 情報交換会 Season 1 最終回の議論用に共有した内容です。本会は、 DevOps を中心に、また DevOps とは直接は関係ないテーマも含め、その時々において関心のあるテーマを取り扱っていましたが、今回は最終会ということで、本来のテーマである DevOps において、私個人が中心的テーマであると考える構成管理やデプロイの自動化について議論したいと思い、整理しました。中心的テーマを再び取り上げようと考えたきっかけの 1 つが Snowflake Data Superhero の Tomas が LinkedIn で EXECUTE IMMEDIATE FROM という新しい構文について紹介しているのを発見したことです。これはステージ上の SQL ファイルを直接実行できるという機能です。 Tomas
【みんなのデータモデル講座】進化編～ディメンショナルモデリング入門～
- 6 users
- www.youtube.com
- エンタメ
- 2023/09/01
Snowflakeを愛するユーザーたちの集い #SnowVillage の大人気企画『みんなのシリーズ』第三弾が登場！『みんなのデータモデル講座』、第二回はいよいよディメンショナルモデリング入門！その本質や考え方を学びながら、ビジネスプロセスのモデリングにチャレンジします。「実データを見てみたら、理想のデータと乖離がありすぎる…」「扱いにくいデータがあったときはどうすれば…？」適切なモデリングで、価値提供を加速させていきましょう！今回も、NTT DATA 渋谷さん、 CARTA HOLDINGS pei0804さん、 Snowflake株式会社グレースさんがお届けします。第一回【みんなのデータモデル講座】英雄編〜正規化・ERモデルの基礎〜はコチラ https://youtu.be/I2jxAkrolys シリーズ第一弾『みんなのSQL講座』はコチラ https
- DWH
- DB
- video
- design
- あとで読む
Snowflakeで感情分析を試してみようとして失敗した話 - Qiita
- 5 users
- qiita.com/Lana2548_t
- テクノロジー
- 2023/07/10
はじめに最近急激に暑くなってきましたね... この記事を書いている前の週にSnowflake Summit 2023が開催され、DWH×AIがさらに加速するような内容がさまざま発表され、私もすっかりSnowflakeに御熱なわけですが、SnowflakeでAIモデルを動かしてみたいと思い、いろいろ試行錯誤をした内容をまとめておこう！ということで、この記事を書いていこうと思います。初めてのQiitaでの記事投稿でかなり緊張しており、拙い部分が多いと思いますが、Snowflakeの特徴的な部分をお伝えできればと思います！この記事の対象者 Snowflake×AIに興味がある方 Snowflakeで感情分析をやってみたい方 ONNXをSnowflakeで使うにはどうすればいいのかわからない方この記事の内容完成図の確認利用する技術の説明感情分析をSnowflakeで行うための準備や
【新機能】BigQuery data canvasを早速触ってみた #GoogleCloudNext | DevelopersIO
- 5 users
- dev.classmethod.jp
- テクノロジー
- 2024/04/11
Google Cloudデータエンジニアのはんざわです。現在開催中のGoogle Cloud Next'24でBigQuery data canvasという新機能が追加されました。本記事では早速この新機能を触ってみたいと思います！ BigQuery data canvas とは？ BigQuery data canvasは、データソースの選択、クエリの実行、可視化をDAGで操作できる分析用のインターフェイスです。また、Geminiのサポートにより、自然言語を使用したデータの検索やSQLの作成、グラフの生成も行うことが可能です。 BigQuery data canvasの公式ドキュメントそれでは早速触ってみたいと思います！注意 2024年4月10日時点でBigQuery data canvasはprivate プレビューで、使用するためにはRequest BigQuery data
【コスト最適化】BigQuery Editions などの解説と見積もり方法
- 4 users
- zenn.dev/google_cloud_jp
- テクノロジー
- 2023/08/10
2023 年度の Google Data Cloud & AI Summit にて BigQuery に対する超有益なアップデートが発表されました！価格体系の変更について、有効的に活用すればコストの最適化ができるものになります。ヘビーユーザーは当然のこと、ライトユーザーやこれから検証のために少し触ってみたいような方々に向け、おさらいも交えながら説明をさせていただきたいと思います。また、弊社内で実際に利用している BigQuery のデータセットに対し、この変更でコストがどのように最適化できるのかも紹介させていただきます。価格体系の変更まずは、おさらいとして BigQuery の価格体系を解説します。 BigQuery のアーキテクチャはストレージとコンピューティングに分離されています。伴って、BigQuery の料金は、Storage pricing (ストレージ料金)と呼ばれるス
- bigquery
OpenMetadataでRedshiftのクエリログからリネージュを作成する | DevelopersIO
- 4 users
- dev.classmethod.jp
- テクノロジー
- 2023/10/16
OpenMetadataではデータリネージュ（データの流れ）を可視化できます。 Redshiftではクエリのログを読み込むことでそこから自動的にリネージュ情報を作ることができます。その流れをやっていこうと思います。 Redshiftのユーザについて OpenMetadataを利用する際はスーパーユーザではないユーザを利用するべきです。 OpenMetadataはデータカタログなので原則Redshift内の実データ書き換えは発生しません。発生してしまったらかなり怖いです。よってスーパーユーザの権限はそもそも必要なく、また、もしも想定外に書き換えがあった時にはきちんと禁止されるように一般のリードオンリーユーザを作成して行います。また別の理由として、スーパーユーザでは全てのデータにアクセスができてしまい、 Redshift Spectrumを利用するテーブルに対してもクエリをかけること
- aws
Dataformでコンパイル変数を使ってみた | DevelopersIO
- 3 users
- dev.classmethod.jp
- テクノロジー
- 2024/05/02
WorkflowsからDataformの起動方法を検証してみました。Dataformタグ指定、コンパイル変数のWorkflowsからの上書きができるか、もあわせて検証してみました。データアナリティクス事業本部の根本です。Dataformを使っていて、呼び出しもと(Workflowsとか)から動的に値を変えてDataformを呼び出すことができたらいいなと思い調べてみたらコンパイル変数を用いたらできたので記事にしてみました。この記事の対象者 Dataformでコンパイル変数を使ってみたいひと前提条件 Dataformのワークスペースやリポジトリが存在する、使えること検証の全体像コンパイル変数をdataform.jsonで指定して動作するか確認 APIでDataformを実行するときにコンパイル変数の値を上書きして動作するか確認上記2つの検証をしていきます。やってみるそれでは早
[レポート] データウェアハウスを製品として捉える〜設計から実現までの一貫した流れ #dbtCoalesce #Coalesce23 | DevelopersIO
- 3 users
- dev.classmethod.jp
- テクノロジー
- 2024/03/18
[レポート] データウェアハウスを製品として捉える〜設計から実現までの一貫した流れ #dbtCoalesce #Coalesce23 大阪オフィスの玉井です。米国時間2023年10月16日〜19日、イベント『Coalesce 2023』が開催されました。主催はdbt labs社です。本記事は、その中で発表されたData warehouse as a product: Design to delivery（データウェアハウスを製品として捉える：設計から実現までの一貫した流れ）というセッションについて、レポートをお届け致します。セッション概要登壇者 Lance Witheridge, Data Modernisation Lead, Trade Me 超概要社内のデータ分析基盤をクラウド化しようとしたが、うまくいかず、抜本的な再設計を行った話です。その際、DWH（のデータ）を製品・プ
- あとで読む
RDBMSをデータウエアハウスに使う際の性能劣化、OLTP用途との違いを理解
- 3 users
- xtech.nikkei.com
- テクノロジー
- 2023/11/24
第11回 RDBMSをデータウエアハウスに使う際の性能劣化、OLTP用途との違いを理解データウエアハウスにまつわるトラブル今回はデータウエアハウス（DWH）導入時のトラブル事例を紹介します。DWHとは、組織内の様々なシステムから得られる大量の構造化データや半構造化データを集積し、保存するデータ処理システムです。保存されたデータはBI（ビジネスインテリジェンス）やデータ分析に活用されます。現代のビジネス環境では、AI（人工知能）を活用した機械翻訳、質問応答、画像認識、機械学習などの技術が急速に進化しています。同様にBIツールを通じてビジネスデータを収集・整理・分析し、視覚的に理解しやすくする技術も進歩しています。蓄積されるデータの量は飛躍的に増加しています。データ管理と分析の重要性が高まる中で、膨大なデータの活用は企業や組織にとって欠かせなくなっています。 DWHの主な特徴は、データを
- DB
オープンデータレイクハウスとは　Clouderaが企業向けプライベート生成AIの実装を見据えた新発表
- 3 users
- www.itmedia.co.jp
- テクノロジー
- 2023/06/20
Clouderaはがセキュリティと信頼性に優れた責任あるAIを大規模に利用して、企業が利益を得るためのプロセスとそのソリューション群を発表した。セキュリティとガバナンスを確保しつつ、独自のデータや自社特有の文脈に対応させた生成AIの利用が可能になるとしている。 Clouderaは2023年6月6日（米国時間）、セキュリティと信頼性に優れた責任あるAIを大規模に利用して、企業が利益を得るためのプロセスを発表した。大規模言語モデル（LLM）を活用するための新たなプランを即座に取り入れられる。ユーザーはセキュリティとガバナンスを確保しつつ、独自のデータや自社特有の文脈に対応させた生成AIの利用が可能になるとしている。 Clouderaのオープンデータレイクハウスは、データウェアハウスとデータレイクの機能を統合し、ビジネスインテリジェンスやAIソリューションを強化する。これらの機能はプライベートク
- クラウド
dbtからSnowflake Dynamic Tablesを作成してリアルタイムデータパイプラインを構築してみる
- 3 users
- zenn.dev/dataheroes
- テクノロジー
- 2023/08/10
これは何？こんにちは。 dely株式会社でデータエンジニアをしておりますharry(@gappy50)です。この記事は、昨年書いた以下の記事の続きの記事になります。 SnowflakeではDynamic TablesのPuPrが開始されており、宣言的なデータパイプラインの全貌徐々に見え隠れしております。また、これに追従する形でdbt1.6でもMaterialized View（SnowflakeではDynamic Table）をサポートしはじめました。このDynamic Tablesのメリットとして一番わかりやすいのは、ニアリアルタイムなストリーミングパイプラインをクエリを書くだけで実現が可能になる面だと思います。これまではモデルを作成したあとのワークロードの実行は dbt build を実行するタイミングとなってしまうため、リアルタイムなデータパイプラインの構築が難しい側面があ
Icebergテーブルの内部構造について - やっさんメモ
- 3 users
- yassan.hatenablog.jp
- テクノロジー
- 2023/12/02
この記事は MicroAd Advent Calendar 2023 と Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2023 の1日目の記事です。 qiita.com qiita.com 今年もアドカレの季節がやってきました🎄 今回は、ここ数年でデータ界隈で盛り上がっているOpen Table FormatのIcebergテーブルについて書いていきます。 Hiveテーブルとの比較とか、Icebergテーブルの特徴（Time Travel や Rollback、Hidden Partitioning、Full Schema Evolution等）については、あっちこっちで大分こすられてます。そこで、Icebergテーブルの特徴がなぜ実現できているのかについて知るために、内部構造がどうな
DWHをCDPのように使える！？Hightouchの「Customer Studio」でGUI操作でセグメンテーションしてみた | DevelopersIO
- 3 users
- dev.classmethod.jp
- テクノロジー
- 2023/08/05
DWHをCDPのように使える！？Hightouchの「Customer Studio」でGUI操作でセグメンテーションしてみたさがらです。 HightouchはDWH⇨各種アプリケーションへのデータ転送に使える「ReverseETL」のサービスですが、Customer StudioというDWHをCDP(Customer Data Platform)のように扱ってCRM・MAのツールと連携してマーケティング活動に伴うセグメンテーション・分析を行える機能があります。※Customer StudioはBussinessプラン以上でのみ使用可能のためご注意ください。今回はCustomer Studioの基本機能として、ドキュメントのImplementation stepsに沿って、Hightouch上でGUIベースでセグメンテーションを行ってみます。事前準備 SourceとDestinati
- あとで読む
BigQueryの分散処理の仕組みを深掘りする_プレイドエンジニアブログ
- 3 users
- tech.plaid.co.jp
- テクノロジー
- 2024/05/20
BigQueryを題材にし、大規模なデータベースでの分散処理の仕組みについて紹介します。
Amazon DataZone 初期導入から Amazon Redshift 統合の新機能まで解説する！ | DevelopersIO
- 3 users
- dev.classmethod.jp
- テクノロジー
- 2024/04/09
Amazon DataZone 初期導入から Amazon Redshift 統合の新機能まで解説する！はじめにクラスメソッドの石川です。Amazon DataZoneは、クラウドサービス間の連携を活かし、Amazon Redshift統合の機能強化により、従来よりも簡単な操作で環境設定ができるようになりました。データガバナンス系のツールは設定が多くなりがちなので、この利便性は多くのユーザーにとって気になるところでしょう。今回は、Amazon Redshiftのサンプルデータの作成からAmazon DataZoneの初期導入とAmazon Redshift 統合まで解説します。すでに、Amazon Redshift 導入済みの方は、「Amazon DataZoneの準備」から、Amazon Redshift 統合の機能強化のみご覧いただきたい方は「環境プロファイルを作成」から読み進
- AWS
dbtを導入した話、そしてClassiのデータ基盤「ソクラテス」の現在地 - Classi開発者ブログ
- 3 users
- tech.classi.jp
- テクノロジー
- 2024/05/29
こんにちは、データプラットフォームチームの鳥山（@to_lz1）です。 Classiでは、2019年ごろからデータ基盤に「ソクラテス」の愛称をつけて運用を続けています。初期の構成は2021年に書かれたエントリ*1にも詳しいですが、数年の間に進化したことも増えてきました。大きな変化の一例として、最近、私たちのチームではdbt*2を導入してジョブ間の依存管理やメタデータの管理を改善しました。本記事ではこの取り組みをピックアップして紹介します。また、進化したソクラテスの構成図をアップデートするとともに、Classiデータプラットフォームチームの最新版の雰囲気もお伝えできればと思います。 dbt移行前の構成ジョブ間の依存管理がつらいメタデータの管理がつらい過去との差分と、移行への機運周辺ツールのエコシステムが整ったエンジニア以外のメンバーがPull Requestを出すことが減った
Snowflake Summit 2023 で感じた新たな時代の盛り上がり - RAKSUL TechBlog
- 3 users
- techblog.raksul.com
- テクノロジー
- 2023/08/09
こんにちは。ラクスルグループのノバセル株式会社にてデータエンジニアをやっている、@yamnakuです。今回は、6月末にラスベガスにて開催された Snowflake Summit 2023 に参加してきたので、その参加報告をしたいと思います。 Snowflake については、以下の記事にて紹介しています。参加に至るまでの経緯弊社では、ビジョンである「マーケティングの民主化」を実現するため、お客様のマーケティング施策の定量評価を通じ、より効果的なマーケティング活動の実現を支援しています。その中で、定量評価に用いるさまざまなデータの集計や分析を行うにあたり、"データクラウド"である Snowflake を中心としたシステムの構築を行なっています。私自身も、データエンジニアとして2年ほど Snowflake を利用したデータパイプラインの構築や運用を行なってきました。また、日本において
SnowflakeからClaude3(Bedrock)を呼び出して、文章作成や画像認識させてみた。 - Qiita
- 3 users
- qiita.com/Itsuki_Inoue
- テクノロジー
- 2024/04/16
SnowflakeからClaude3を呼び出して、文章作成やさせてみる今回はSnowflakeのUDFでClaude3(Amazon Bedrock)を呼び出して、文章作成や画像認識させる方法について紹介したいと思います。最初は文章作成させる方法だけで記事を作成しようと思ったのですが、クイックスタートをなぞるだけの記事になりそうだし、もうSnowflake Cortexでも出来ることなので、ステージ上の画像ファイルを認識する機能も追加してみました。ちなみに、以下はステージに配置したとある画像をClaude3に説明させた結果です。何だと思いますか。Snowflakeヘビーユーザにはお馴染みのあいつです。この画像には、可愛らしい白いぬいぐるみのクマが写っています。クマの体はふわふわと柔らかそうに見え、青いニットのマフラーを巻いて寒さから身を守っているように見えます。クマの顔は丸く優しい
- aws