タグ

bigqueryに関するmichael-unltdのブックマーク (283)

  • Google Cloud Next'24 にて Google Cloudの生成 AI エコシステムはなぜ良いのか?について発表しました|吉田 拓真 / スリーシェイク

    Google Cloud Next'24 にて Google Cloudの生成 AI エコシステムはなぜ良いのか?について発表しました Google Cloud Next'24のJapan Sessionにて、生成AIエンジニアリングだけでなく、エンジニアリングがコアになるビジネス(SIer, ISVベンダー,SaaSベンダー)自体をどう変えていくのかについて登壇してきましたので、その話をしたいと思います。 生成AIエンジニア不足を解消し、新しいビジネスモデルを提供する生成AIは予想以上に我々の日々の業務を変えようとしています。 例えばGemini単体だけでなく、Gemini Code AssistやGemini in Databasesなどを併用していくことで少人数で複雑なプロジェクトを短期間で回してく体制を構築し、更に早期にエンジニアを育成していくスキームが構築することができますね

    Google Cloud Next'24 にて Google Cloudの生成 AI エコシステムはなぜ良いのか?について発表しました|吉田 拓真 / スリーシェイク
    michael-unltd
    michael-unltd 2024/05/08
    “画像分類やアノテーション、ベクトル化など、用途に合わせたモデルの組み合わせでBigQuery内でほぼパイプラインが完結”
  • [UA] アナリティクスの BigQuery Export - アナリティクス ヘルプ

    この記事では、ユニバーサル アナリティクスで BigQuery Export を使用する方法について説明します。Google アナリティクス 4 で BigQuery Export を使用する方法については、[GA4] BigQuery Export のセットアップをご覧ください。 BigQuery は、大規模なデータセットに対するクエリをごく短時間で実行できるクラウド データ ウェアハウスです。 セッション データやヒットデータを Google アナリティクス 360 アカウントから BigQuery にエクスポートし、SQL タイプの構文を使ってすべてのアナリティクス データに対するクエリを実行できます。 データを BigQuery にエクスポートすると、そのデータの所有者になり、BigQuery ACL を使用して、プロジェクトやデータセットの権限を管理できます。 Google アナ

    michael-unltd
    michael-unltd 2024/05/08
    “バックフィル: リンク時に、13 か月分のデータまたは 100 億ヒットのいずれか少ない方”
  • BigQuery へのデータ INSERT をトリガに、Cloud Functions を実行してみた。 | DevelopersIO

    BigQuery へのデータ INSERT をトリガに、Cloud Functions を実行してみた。 こんにちは、みかみです。 沖縄もそろそろ肌寒い毎日になってきました。 やりたいこと BigQuery へのデータ追加を検知して、後続処理を実行したい BigQuery へのデータ追加の監査ログをトリガに、Cloud Functions を実行したい 図にしてみると、こんな感じです。 前提 Google Cloud SDK(gcloud コマンド)の実行環境は準備済みであるものとします。 エントリでは、Cloud Shell を使用しました。 Cloud Shell の使用 | Cloud Shell ドキュメント Eventarc API や、エントリで利用している BigQuery, Cloud Functions, Cloud Build などの API は有効化済みです。 ま

    BigQuery へのデータ INSERT をトリガに、Cloud Functions を実行してみた。 | DevelopersIO
  • BigQuery イベントで Cloud Run アクションをトリガーする方法 | Google Cloud 公式ブログ

    ※この投稿は米国時間 2021 年 2 月 11 日に、Google Cloud blog に投稿されたものの抄訳です。 多くの BigQuery ユーザーは、データベース トリガー、つまり特定の BigQuery テーブル、モデル、データセットのイベントに応答して手続き型コードを実行する方法を求めています。新しいテーブル パーティションが作成されるたびに ELT ジョブを実行する場合や、新しい行がテーブルに挿入されるたびに ML モデルを再トレーニングする場合があるかもしれません。 この記事では、「クラウドが簡単になる」という一般的なカテゴリにおいて、BigQuery と Cloud Run を簡単かつ適切に連携させる方法をご紹介します。BigQuery も Cloud Run もよく使うようであれば、一緒に使用することでさらに便利になるでしょう。 Cloud Run は、BigQuer

    BigQuery イベントで Cloud Run アクションをトリガーする方法 | Google Cloud 公式ブログ
  • BigQuery MLとLooker Studioによるお手軽機械学習 - SO Technologies 開発者ブログ

    はじめに こんにちは、データ戦略室の伊藤です。普段の業務では、機械学習モデルの作成やインフラ基盤の構築を担当しています。 今回はBigQuery ML(以降BQML)とLooker Studio(旧称データポータル)を使用した事例について、紹介できればと思います。 BQMLとは BQMLは、BigQuery で標準 SQL クエリを使用して機械学習モデルの作成&予測ができる機能です。BigQuery内で全ての作業が完結するため、他言語の知識や複雑な前処理が不要で、かなりお手軽に機械学習を試すことができます。 現在(2023年2月)サポートされている学習モデルの種類は、以下の通りです。 線形回帰 ロジスティック回帰(分類) K 平均法クラスタリング 行列分解 時系列(時系列予測) ブーストツリー(XGBoost ベースの分類モデルと回帰モデル) ディープ ニューラル ネットワーク(DNN)

    BigQuery MLとLooker Studioによるお手軽機械学習 - SO Technologies 開発者ブログ
  • Tableau Prepを使ったSQLトレースを行い、快適なフロー設計を考える

    Tableau Prepを使ったSQLトレースを行い、快適なフロー設計を考える Tableauでプリセールスエンジニアをしている @rsugimura17 です。今回はTableau Prep Builder、Tableau Prep Conductor のSQL トレースを行い、快適なフロー設計を考えていきます。 Tableau Prepとは? データを結合、分析に適した形式へ変換、クリーニングするためのビジュアルかつ直接的な方法を提供する Tableau のデータ変換製品です。オンプレミスでもクラウドでも、データベースまたはスプレッドシートのどこにあってもデータに接続でき、多種多様なデータへのアクセス、組み合わせ、クリーニングがコーディングなしで行えます。Tableau Prep は2つの製品で構成されています。データフローを構築するための Tableau Prep Builder、そ

    Tableau Prepを使ったSQLトレースを行い、快適なフロー設計を考える
  • 「【4/17(水)ハイブリッド】クラスメソッドGoogle Cloud Next ’24ふり返り勉強会」に登壇しました | DevelopersIO

    Google Cloudデータエンジニアのはんざわです。 「【4/17(水)ハイブリッド】クラスメソッドGoogle Cloud Next ’24ふり返り勉強会」に登壇しました。 登壇資料 当日は、「Next’24 BigQuery recap」というタイトルで登壇しました。 内容としては、Next'24で発表されたBigQueryのアップデート情報について発表しました。 総評 自分はNext'24のような海外イベントには初めての参加でした。 現地ならではの雰囲気を感じることができ、非常に新鮮な体験を経験することができました。 また、BigQueryやその周辺のサービスにも多数のアップデートがあり、それらをセッションを通じてキャッチアップすることができ、非常に面白かったです。 興味がある方は是非、現地への参加も検討してみてください。

    「【4/17(水)ハイブリッド】クラスメソッドGoogle Cloud Next ’24ふり返り勉強会」に登壇しました | DevelopersIO
  • Google Cloud Next’24で発表されたBigQueryのアップデート情報をまとめました | DevelopersIO

    Google CLoudデータエンジニアのはんざわです。 Google Cloud Next'24において、各サービスで多数のアップデート情報が紹介されました。 この記事では、BigQueryのアップデート情報、特にデータエンジニア向けの情報をまとめて紹介したいと思います! 新機能が発表されたセッションとその内容を簡単に紹介していきます! 気になる内容があった方は是非、YouTubeの動画を確認してみてください。 注意点 記事の内容にBigQuery ML関連のサービスは含まれていません。 不足している情報があれば随時更新します... 2024年4月13日時点では、Google Cloud Next'24で発表された機能のほとんどがリリースノートやドキュメントに反映されていません。そのため今後変更される可能性がありますので注意してください。 Build a unified, open,

    Google Cloud Next’24で発表されたBigQueryのアップデート情報をまとめました | DevelopersIO
  • Analyze with data canvas  |  BigQuery  |  Google Cloud

  • GA4 BigQueryエクスポート遅延に対応するイベントドリブンアーキテクチャの提案 | アユダンテ株式会社

    デジタルマーケティングエンジニア ジャイン・ヴィボル (JAIN Vibhor)のコラム「GA4 BigQuery export notification – event driven architecture 」をデジタルマーケティングエンジニア 西村 彰悟が和訳したものになります。 GA4プロパティとBigQueryをリンクすることにより毎日エクスポートされるデータを日次レポートやマーケティングオートメーションの動作条件に使用する場合、皆さんは、前日のトラフィックデータ(前日のevents_YYYYMMDDという名前のテーブル)のエクスポートが完了する正確なタイミングと、このデータを利用するダウンストリームジョブを起動できるタイミングをどのように把握するかという問題に直面するでしょう。日次エクスポートは決まった時間に実行されず、これを通知する仕組みも用意されていません。 解決したい問題

    GA4 BigQueryエクスポート遅延に対応するイベントドリブンアーキテクチャの提案 | アユダンテ株式会社
    michael-unltd
    michael-unltd 2024/04/09
    遅延検知
  • Data Catalogを徹底解説! - G-gen Tech Blog

    G-gen の杉村です。Google Cloud のメタデータ管理ツールである Data Catalog を解説します。 概要 Data Catalog とは Data Catalog の機能 データカタログの利点 メタデータとは データ検索機能 検索方法 クエリの構文 メタデータ管理機能 Data Catalog が自動収集するメタデータ Google Cloud 以外のカタログ化 テクニカルメタデータとビジネスメタデータ テクニカルメタデータ ビジネスメタデータ Data Catalog のオブジェクト エントリとエントリグループ Data Catalog におけるタグ データの自動登録 (Discovery) データリネージ データリネージとは BigQuery の自動トラッキング 保持期間 OpenLineage との統合 料金 API コール データリネージ アクセス制御 (IA

    Data Catalogを徹底解説! - G-gen Tech Blog
  • BigQueryで2つのテーブルの差分を求める方法 - Qiita

    2つのテーブルの差分をBigQueryで求めてみます。 テーブルをFULL OUTER JOINで結合して、排他的論理和を求めても良いですが、テーブルのすべての列をON句の後ろに書く必要があり、そこそこ面倒です。 https://www.codeproject.com/articles/33052/visual-representation-of-sql-joins というわけで、 except を使って差分を出してみました。 このクエリの結果が0行であれば、2つのテーブルはすべての行が一致しています。 #standardSQL with table1 as ( SELECT 1 as a, 2 as b, 3 as c union all SELECT 2 as a, 4 as b, 6 as c ), table2 as ( SELECT 1 as a, 2 as b, 3 as c

    BigQueryで2つのテーブルの差分を求める方法 - Qiita
    michael-unltd
    michael-unltd 2024/03/27
    “select * from (select * from table1 except distinct select * from table2) union all select * from (select * from table2 except distinct select * from table1)”
  • BigQuery でカスタム マスキング ルーチンが使えるようになりました

    こんにちは!クラウドエース株式会社 データ ML ディビジョン所属の福家です。 クラウドエースの データ ML ディビジョンは、クラウドエースの IT エンジニアリングを担うシステム開発部の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門としています。 データ ML ディビジョンでは活動の一環として、毎週 Google Cloud の新規リリースを調査・発表し、データ領域のプロダクトのキャッチアップをしています。その中でも重要と考えるリリースをページ含め記事として公開しています。 今回紹介するリリースは、2023/08/22 に発表された BigQuery の カスタム マスキング ルーチン(Custom masking routines) についてです。 なお、この機能はプレビュー段階になります。 はじめに BigQuery はビッグデータの

    BigQuery でカスタム マスキング ルーチンが使えるようになりました
    michael-unltd
    michael-unltd 2024/03/19
    “データ ML ディビジョンでは活動の一環として、毎週 Google Cloud の新規リリースを調査・発表し、データ領域のプロダクトのキャッチアップをしています。その中でも重要と考えるリリースを本ページ含め記事として公開し
  • BigQueryの動的なデータマスキングを試す|テクニカルブログ|日本情報通信株式会社

    Data Catalogにてポリシータグときめ細かい読み取り権限を以下のように設定します。 これは設定や利用するサービスによって構成は変わりますが、シンプルにデータポリシーPIIを管理者がきめ細かい読み取りができ、分析者はデータポリシーによりそれぞれ動的に暗号化するようにしています。 それではデータがどの様になっているか確認してみましょう。 以下の画像は管理者の画面になります。 管理者はすべて閲覧可能となっているのでそのままです。 一方分析者はどうでしょうか。 まずテーブルのスキーマタブにアイコンが表示されています。 これは動的なマスキングではなく列レベルのアクセス制御によるものです。 プレビューを見てみると該当の列が表示されていません。 さてそれではクエリを実行してみましょう。 列レベルのアクセスだけの場合SELECT * FROM ... ではアクセス権限が無いエラーが出ますが動的なマ

    BigQueryの動的なデータマスキングを試す|テクニカルブログ|日本情報通信株式会社
    michael-unltd
    michael-unltd 2024/03/19
    “マスキングなので個人情報っぽいデータをFaker等を用いて生成します。”
  • SQL パイプライン開発に便利な Dataform 7つのお気に入りポイント - FLINTERS Engineer's Blog

    こんにちは。河内です。 最近はデータ基盤の構築も取り組んでいたりします。 社内では他の DWH が使われている事例がありますが、今回の基盤ではデータソースとの親和性や価格面などを考慮し BigQuery で行くことにしました。 BigQuery 上で多くのデータを順次変換してデータを生成するために何らかのワークフローエンジンが必要でした。 社内の他のシステムではワークフローエンジンとして Digdag を採用している例が多いですが、このシステムでは Kubernetes 上でサービスを運用しているため、当初(2020年12月)は Argo Workflow 上でクエリを順次実行することを構想していました。構想中に DataformGoogle に買収され、無料で使えるようになったというニュースが飛び込んできたため、触って感触が良いことを確かめた後、Dataform を使っていくことに

    SQL パイプライン開発に便利な Dataform 7つのお気に入りポイント - FLINTERS Engineer's Blog
  • 【アップデート情報 / BigQuery】 テーブルのcloneがGAになりました | DevelopersIO

    2023年5月3日にBigQueryのClone機能がGAになりました。 この記事ではCloneの概要や作り方、注意点など紹介したいと思います。 Cloneとは Cloneはテーブルを複製することができます。(これ以降、複製元のテーブルをベーステーブル、複製したテーブルをクローンテーブルと呼びます) クローンテーブルはベーステーブルと独立しているため、片方のテーブルの変更がもう片方のテーブルに反映されません。 コピーとの違いは、ベーステーブルに含まれないデータに対するストレージにのみ課金されます。そのため通常のコピーに比べ、費用を安価に抑えることができます。 似たようなテーブルにスナップショットがありますが、Cloneは書き込みも可能なテーブルになります。 Cloneのストレージ費用 ストレージ費用には以下のようなルールがあります。 クローンテーブルの中でベーステーブルに存在しないデータに

    【アップデート情報 / BigQuery】 テーブルのcloneがGAになりました | DevelopersIO
    michael-unltd
    michael-unltd 2024/03/12
    “クローンテーブルは同じリージョンで同じ組織である必要があります。前述の条件が揃えば、異なるプロジェクトでクローンすることも可能です。 ビューやマテリアライズドビュー、外部テーブルのクローンは作成でき
  • BigQuery Copy vs Clone table

  • テーブルを管理する  |  BigQuery  |  Google Cloud

    デジタル トランスフォーメーションを加速 お客様がデジタル トランスフォーメーションに乗り出したばかりでも、あるいはすでに進めている場合でも、Google Cloud は困難な課題の解決を支援します。

    テーブルを管理する  |  BigQuery  |  Google Cloud
  • BigQueryでのデータ追記処理における冪等化の取り組み - ZOZO TECH BLOG

    こんにちは、MA基盤チームの田島です。私達のチームではMAIL、LINE、PUSH通知といったユーザへの配信をしています。その中でもマス・セグメント配信という一斉に行う配信では、配信対象者のセグメント抽出にBigQueryを利用しています。また、配信前に必要なデータをBigQueryに連携しデータマートの集計をしたり、配信後には配信実績の登録などの更新処理をしています。 そのような処理を定期的に行っているため、ネットワークの問題やサーバーの不調などにより処理が途中で失敗することがあります。そこで、リトライを容易にするため、すべての処理を冪等にしました。今回その中でも、BigQueryの追記処理に絞ってどのように冪等化したのかについて紹介します。 目次 目次 マス・セグメント配信基盤の紹介 課題 冪等化 BigQuery追記処理に関する冪等化の取り組み 冪等にならないケース INSERT 初

    BigQueryでのデータ追記処理における冪等化の取り組み - ZOZO TECH BLOG
  • BigQueryのパーティショニングとシャーディングを改めて整理する | ABC DX Tech Blog

    テーブル分割の必要性 みなさんBigQuery使っていますか??私は使っています!! データエンジニアのような職種の方なら一度は触ったことがあるであろう、Google Cloudで提供されているBigQueryですが、よく意味を間違って使われていたりする言葉や、実施すればパフォーマンスが上がるのに実施されていない処理があるように見受けられます。 今回タイトルにもなっている パーティショニングとシャーディング はまさにそれに該当する用語で、インターネットを回遊しているとシャーディングのことをパーティショニングと呼んでいるような記事も散見されます。 とはいえ私自身も認識を間違っていたらまずいので、今回、改めて調べ直して纏め直します。 いずれもBigQueryで特にログ系のテーブルのような大きなテーブルを扱う場合には必須の内容かと思います。 パーティショニングとシャーディングについては、Goog

    BigQueryのパーティショニングとシャーディングを改めて整理する | ABC DX Tech Blog
    michael-unltd
    michael-unltd 2024/03/01
    “ _TABLE_SUFFIX = '230302'”