並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 698件

新着順 人気順

bigqueryの検索結果1 - 40 件 / 698件

  • データ基盤を支える技術

    主にクラウドの話してます - 広島 での登壇資料です。 https://omoni-cloud.connpass.com/event/315682/

      データ基盤を支える技術
    • Google Cloud Next'24 にて Google Cloudの生成 AI エコシステムはなぜ良いのか?について発表しました|吉田 拓真 / スリーシェイク

      Google Cloud Next'24 にて Google Cloudの生成 AI エコシステムはなぜ良いのか?について発表しました Google Cloud Next'24のJapan Sessionにて、生成AIがエンジニアリングだけでなく、エンジニアリングがコアになるビジネス(SIer, ISVベンダー,SaaSベンダー)自体をどう変えていくのかについて登壇してきましたので、その話をしたいと思います。 生成AIはエンジニア不足を解消し、新しいビジネスモデルを提供する生成AIは予想以上に我々の日々の業務を変えようとしています。 例えばGemini単体だけでなく、Gemini Code AssistやGemini in Databasesなどを併用していくことで少人数で複雑なプロジェクトを短期間で回してく体制を構築し、更に早期にエンジニアを育成していくスキームが構築することができますね

        Google Cloud Next'24 にて Google Cloudの生成 AI エコシステムはなぜ良いのか?について発表しました|吉田 拓真 / スリーシェイク
      • BigQuery クエリ - pokutuna

        BigQuery 関連: Colaboratory 標準 SQL 語彙の構造  |  BigQuery  |  Google Cloud リテラル等の仕様 その場でデータを作ってクエリする 動作確認に便利 code:struct.sql SELECT MIN(status) FROM UNNEST([ STRUCT('unexamined' AS status), STRUCT('unexamined' AS status), STRUCT('ng' AS status) ]) 型ほしい時は型を書く code:complex_struct.sql SELECT * FROM UNNEST( ARRAY<STRUCT<count INT64, time TIMESTAMP>>[ STRUCT(3, TIMESTAMP "2020-07-01 10:00:00"), STRUCT(5, TIM

          BigQuery クエリ - pokutuna
        • 入社4ヶ月でBigQueryの課金額を減らすために考えたこと - 弁護士ドットコム株式会社 Creators’ blog

          データ分析基盤室の otobe(𝕏@UC_DBengineer) です。 事業規模が拡大し、大規模なデータの管理が必要になるにつれて、SnowFlake や BigQuery のようなハイパワーな DWH サービスでデータを加工するケースは多いです。 その際、想定外な高額請求が起こる原因のひとつに、クエリが最適化されておらずスキャン量が増大しているケースがあります。 そのため、クエリのスキャン量を監視・管理することが課金額を減らすうえで有効な手段となることがあります。 本記事では、前半で BigQuery で課金されるスキャン量を監視・管理するまでのプロセスを振り返り、 後半で BigQuery の課金額を減らすために簡単にチェックできることについてお話しします。 BigQuery クエリにおけるスキャン量を監視・管理するに至った理由 BigQuery の課金額が想定より大幅に増加してい

            入社4ヶ月でBigQueryの課金額を減らすために考えたこと - 弁護士ドットコム株式会社 Creators’ blog
          • Google Cloud Next’24で発表されたBigQueryのアップデート情報をまとめました | DevelopersIO

            Google CLoudデータエンジニアのはんざわです。 Google Cloud Next'24において、各サービスで多数のアップデート情報が紹介されました。 この記事では、BigQueryのアップデート情報、特にデータエンジニア向けの情報をまとめて紹介したいと思います! 新機能が発表されたセッションとその内容を簡単に紹介していきます! 気になる内容があった方は是非、YouTubeの動画を確認してみてください。 注意点 本記事の内容にBigQuery ML関連のサービスは含まれていません。 不足している情報があれば随時更新します... 2024年4月13日時点では、Google Cloud Next'24で発表された機能のほとんどがリリースノートやドキュメントに反映されていません。そのため今後変更される可能性がありますので注意してください。 Build a unified, open,

              Google Cloud Next’24で発表されたBigQueryのアップデート情報をまとめました | DevelopersIO
            • 自然言語でデータ分析ができるGemini in BigQuery(データキャンバス)を試してみた - G-gen Tech Blog

              はじめまして!4月に G-gen に入社した奥田梨紗です。この度 Google Cloud Next '24 in Las Vegas で発表された Gemini in BigQuery を試してみたので手順等をご紹介します。 はじめに Gemini in BigQuery とは 試したこと Google Cloud 側へ利用申請を行う BigQuery キャンバスを作成 Gemini in BigQuery を用いて SQL やグラフを作成 例1: 特定の数値でデータを分類する 例2: 分類分け 例3:グラフを作成 関連記事 はじめに Gemini in BigQuery とは Google Cloud Next '24 で発表された Gemini for Google Cloud の機能の1つです。 データキャンバスを作成し、自然言語(いわゆる普段話す言葉)をプロンプトに入力することで

                自然言語でデータ分析ができるGemini in BigQuery(データキャンバス)を試してみた - G-gen Tech Blog
              • 列指向、行指向データベースの特性を木構造を用いた集計クエリから理解する

                この記事は毎週必ず記事がでるテックブログ "Loglass Tech Blog Sprint" の 34 週目の記事です! 1 年間連続達成まで 残り 19 週 となりました! 株式会社ログラスの龍島(りゅうしま)です。最近はもっぱら新生姜をガリにしてクラフトビールのつまみにする毎日を送っています。今日はデータベースとデータ構造の話です。 この記事でやること データ集計の高速化のため、多くの場合、列指向データベースが選ばれます。列指向が大量のデータ操作を効率的に処理できるためです。行指向のデータベースを利用している状況で、データ集計のパフォーマンス向上のため列指向データベースへの移行をすることはよくある例です。しかし、行指向データベースで有効なデータ構造やクエリが列指向で同様に優れているとは限りません。この記事では、行指向のPostgreSQLと列指向のBigQueryを使って、それぞれに

                  列指向、行指向データベースの特性を木構造を用いた集計クエリから理解する
                • データカタログ特集 データ利活用に向けたアーキテクチャ6選 - Findy Tools

                  整備したデータ基盤を、事業部や会社全体で活用に持っていく中で「データカタログ」の必要性が増々注目を集めています。 今回は、データカタログを導入し、データ利活用に挑んでいる6社に、アーキテクチャの工夫ポイントからデータカタログ導入によって得られた効果などを伺いました。 ◆目次 株式会社10X 株式会社ビットキー 株式会社エブリー 株式会社Luup Sansan株式会社 株式会社ZOZO 株式会社10X 事業内容 10Xでは「10xを創る」をミッションとし、小売向けECプラットフォーム「Stailer」の提供を通じて、スーパーやドラッグストア等のオンライン事業立ち上げ・運営支援を行っています。Stailerでは業務構築におけるコンサルティングから、必要な商品マスタやお客様アプリ・スタッフ向けのオペレーションシステム等の提供、配達システムの提供、販売促進の支援など、データを分析しながら一気通貫で

                    データカタログ特集 データ利活用に向けたアーキテクチャ6選 - Findy Tools
                  • ログ調査基盤を構築してみた

                    こんにちは。 株式会社ココナラのインフラ・SREチーム所属の かず です。 システム運用において、有事の際に迅速かつ適切なシステム稼働状況の確認は欠かせません。 その手段の1つとして、ログの調査や分析の効率化は切っても切れない関係です。 システムが成長するにあわせ、ログの種類や量が多くなり、結果としてログの調査や分析が難しくなるのはよくある話かと思います。 弊社でもサービスのグロースに伴って、ログの種類や量が多くなり、結果としてログの調査や分析で課題を抱えていました。具体的には以下の2点です。 ログから原因調査を行うには、複数ログを横断・突き合わせが必要 ログの追跡に必要な情報がログに出力されない場合がある そこで、課題への対応としてログ調査基盤の構築を行いました。 本記事では背景や苦労したこと、効果についてご紹介します。 複数ログの横断調査実現に向けて ログ調査基盤の構築 苦労したこと

                      ログ調査基盤を構築してみた
                    • 分析基盤へのデータ連携処理をEmbulkからAmazon Aurora S3 Export機能に切り替えた話 - BASEプロダクトチームブログ

                      はじめに こんにちは!Data Platformチームでデータエンジニアとして働いている @shota.imazeki です。 分析基盤の構築・運用などの側面から社内のデータ活用の促進を行っています。 BASEではAurora MySQLにあるデータをEmbulkを用いてBigQueryに連携しています。BigQueryへ連携されたデータは分析基盤としてLookerなどを通して社内利用されています。 このデータ連携処理にはいくつかの課題があり、それを解決するためにEmbulkからAurora S3 Export機能を用いた連携処理に切り替えることにしましたので、それについて紹介していきたいと思います。 ※この切り替えについては現状、試験的に一部のDBのみの切り替えとなっていますが、運用上の大きな課題が出てこなければ徐々に切り替えていく予定です。 切替前のデータ連携処理 先述した通り、BAS

                        分析基盤へのデータ連携処理をEmbulkからAmazon Aurora S3 Export機能に切り替えた話 - BASEプロダクトチームブログ
                      • dbt exposureによるデータ基盤アウトプットの登録を自動化しました - Timee Product Team Blog

                        はじめに 課題感・背景 使用しているBIツールについて BIツールの使用ボリューム感について やったこと:概要 やったこと:詳細 referenced tableにテーブル名ではなくdbtモデル名が入るようにしたことについて 各種アウトプットの公開設定をmeta情報として付与する方針としたことについて tagを追加してexposureの検索性を向上させたこと exposureのnameにシートとダッシュボードのタイトルを反映する方針にしたこと 今後の発展 保守運用の設計 カラムレベルリネージュ ✖️ exposure おわりに We're Hiring!! はじめに こんにちは。okodooonです!! データ基盤を参照したアウトプットが社内に溢れかえっていませんか? 弊社は追いきれていないLookerStudioやConnectedSheetがめちゃくちゃ溢れかえっていました。 そんな折

                          dbt exposureによるデータ基盤アウトプットの登録を自動化しました - Timee Product Team Blog
                        • データ分析基盤まとめ(随時更新)

                          はじめに データ分析基盤の資料を力尽きるまで追記していきます。 構成図にあるアイコンや記事の内容から技術要素を調べて記載していますが、不明分は未記載にしています。修正のコメント頂ければ助かります。 あと、この記事追加してっていう要望も歓迎いたします。 テンプレート 記事公開日 : 会社名(サービス名) データソース : データ処理 : アウトプット : 画像 URL 2025年 2024/03/14 : 株式会社エス・エム・エス(カイポケ) データソース : Amazon Aurora データ処理 : Datastream、BigQuery、dbt アウトプット : Looker Studio 2024/03/12 : 株式会社マイナビ データソース : SQL Server、Amazon S3 データ処理 : Embulk、Amazon MWAA、Apache Airflow、Snowf

                            データ分析基盤まとめ(随時更新)
                          • BigQuery Emulator をアップデートしました - Route54

                            BigQuery Emulator の v0.6.0 をリリースしました。 今回のリリースでは、Recidiviz社 の @ohaibbq さんが多大な貢献をしてくださいました。Recidiviz社ではかなり前から BigQuery Emulator を使ってくれているようで、以前から Issue や DM などでそのことを伝えてくれていましたが、@ohaibbq さんが今Qエミュレータの改善にコミットできるということで、 Recidiviz社側で fork して使っていたものに加えていた patch をたくさん送ってくれました。 かなり多くの改善が入っているので、以前エミュレータを試して動かなかったクエリを再度試す良い機会かなと思っています。 @ohaibbq さんからは、嬉しいことに今後も貢献してくださると言っていただけているので、今後の改善も速いペースで進んでいくと思います。素晴らし

                              BigQuery Emulator をアップデートしました - Route54
                            • 構造化ログのフォーマット logfmt vs JSON lines - methaneのブログ

                              構造化ログのプラクティスをあちこちで調べていたら、logfmtを推奨する記事を見つけたので調べてみました。 先に結論を言うと、JSON linesを使っておくのが良さそうです。 logfmt について logfmtとはスペース区切りで key=value を並べたフォーマットです。文字列にはクォートとエスケープによってスペースや改行を含められます。 at=info method=GET path=/ host=mutelight.org fwd="124.133.52.161" dyno=web.2 connect=4ms service=8ms status=200 bytes=1653 (logfmt から引用) あちこちで logfmt のリファレンスとして紹介されているのはこの記事です。 https://brandur.org/logfmt 発明されたのはどこか分かりませんが、流行

                                構造化ログのフォーマット logfmt vs JSON lines - methaneのブログ
                              • 次世代データ基盤:データレイクハウスを Google Cloud で実現する

                                はじめに こんにちは、クラウドエース データソリューション部の松本です。 普段はデータ基盤や MLOps の構築をしたり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。また、昨年は Google Cloud Partner Top Engineer 2024 に選出されました。今年も Goodle Cloud 界隈を盛り上げていけるよう頑張っていきたいと思います。 クラウドエース データソリューション部 について クラウドエースのITエンジニアリングを担う システム開発統括部 の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのが データソリューション部 です。 弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があれば エントリー をお待ちしております! 今回は、次世代データ基盤であるデ

                                  次世代データ基盤:データレイクハウスを Google Cloud で実現する
                                • Vertex AIとBigQueryでつくる、簡単ベクトル検索&テキスト分析システム | DevelopersIO

                                  Vertex AIパイプラインを使うことで、BigQueryおよびBigQueryから参照できるデータを対象にしつつも、Google Cloud Pipeline ComponentsやVertex AIメタデータなどVertex AIの機能の恩恵もできるだけ受けることができます。 データアナリティクス事業本部 機械学習チームの鈴木です。 BigQueryでは、Vertex AIと連携して格納したデータを生成AIで処理することが可能です。 例えばテーブルに格納済みのテキストをもとに埋め込みベクトルや別のテキストを生成することができます。 特に埋め込みベクトルがあれば興味があるテキストに類似したテキストをBigQuery内で検索し、類似レコードの特徴から関心のあるテキストを分析することもできます。また、RAGに使用することもできます。 今回はBigQueryとVertex AIを使って、テー

                                    Vertex AIとBigQueryでつくる、簡単ベクトル検索&テキスト分析システム | DevelopersIO
                                  • より信頼できるクエリを書くために、SQLでもテストを書く - ハヤオキスルフクロウ

                                    はじめに こんにちは、久しぶりに技術系の記事を書きます、株式会社カンムで機械学習エンジニアをしている fkubota です。 今日はSQLについてです。 弊社に入社してから毎日のようにSQLのクエリを書いてきました。 クエリを書き始めてからもう3年が経とうとしています。 日々クエリを書きながら少しずつ自分のスタイルが出来上がってきているのを日々実感しています。 僕は 正確で 読みやすく 再利用しやすいクエリを 高速に 生み出すための工夫を重ねてきました。 結果的にテスト駆動開発ぽいスタイルが生まれたので今日は紹介してみようと思います。 似たような記事がないので少しドキドキですが温かい気持ちで読んでもらえると嬉しいです。 対象読者 対象読者は、分析のためにクエリを書いている人とします。 プロダクトに乗せるクエリというより、ビジネス的になにか示唆を得たいときにクエリを書く人を想定します。 痛み

                                      より信頼できるクエリを書くために、SQLでもテストを書く - ハヤオキスルフクロウ
                                    • BigQueryでクエリ一撃で29万円溶かしたけど助かった人の顔

                                      SolanaのPublic DataをBigQueryで取得したかった# えー、お笑いを一席. ブロックチェーンSolanaのデータがGoogle Cloud BigQueryで使えるようになったというニュースをたまたまネット推薦記事でみかけた1. おや, 面白そうだ. ちょっとやってみようかな… BigQueryはさわるのが1年以上つかってないかも, どうやるんだっけ… とりあえずカラムとかサンプルでちょっとデータをみたいよな, こんな感じだっけか? とりあえず動かしてみよう, ポチッとな. … 5秒でレスポンスが帰ってくる. おー、速い. えーっと, あれ課金データ309TB?! いちげきひっさつ、ハサンギロチン2. BigQueryでクエリ一撃5 秒で29万円溶かした人の顔# 話題の画像生成AI, DALL・Eをつかって BigQueryでお金溶かした人の顔を表現してもらった3. あ

                                      • BigQuery で Vertex AI の LLM を使用して SQL のみで RAG を構築する

                                        はじめに こんにちは、Google Cloud Partner Top Engineer 2024 を受賞いたしました、クラウドエース データソリューション部の松本です。 クラウドエース データソリューション部 について クラウドエースのITエンジニアリングを担う システム開発統括部 の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのが データソリューション部 です。 弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があれば エントリー をお待ちしております! 今回は、BigQuery で Vertex AI の LLM を使用して SQL のみで RAG を構築する方法についてご紹介します。 この記事はこんな人にオススメ BigQuery の SQL のみで LLM を使った問合せシステムを構築したい BigQue

                                          BigQuery で Vertex AI の LLM を使用して SQL のみで RAG を構築する
                                        • Google Cloudのサーバレスなイベント駆動処理 - Cloud Runアプリをいい感じにTerraformで管理する - Lean Baseball

                                          元・野球エンジニア*1, 現・Google Cloud Partner Top Engineer 2024*2の人です. 相変わらず仕事も趣味もGoogle Cloudで何かをやっているのですが, この年末年始に以下の絵のようなシステムを作りました(正確には「元々あった別システムを作り直しました*3」). この記事の全体像 Baseball Savantから取得*4した投打のデータ(トラッキングデータ)のCSVをBigQueryのテーブル(事前に定義済み)に突っ込むシステムなのですが, こちらを作る過程で, Cloud RunをPub/Subのメッセージをトリガーとしたイベント駆動で動かす アプリケーション(Goで実装)を純然たるWeb APIとして実装(Pub/Sub専用のアプリではない) 上記の構成をサービスアカウントなどの権限設定含めてTerraformでIaC(Infrastruc

                                            Google Cloudのサーバレスなイベント駆動処理 - Cloud Runアプリをいい感じにTerraformで管理する - Lean Baseball
                                          • BigQueryがDocument AIを統合。請求書など画像データの内容をSQLで検索可能に、AIが画像から項目や数値を自動抽出

                                            BigQueryがDocument AIを統合。請求書など画像データの内容をSQLで検索可能に、AIが画像から項目や数値を自動抽出 Google Cloudは、大規模並列データ処理サービスのBigQueryに、画像データから自動的に内容を抽出するAI機能「Document AI」を統合したと発表しました。 Document AIは、請求書や領収書、パスポート、契約書といったドキュメントの画像データを与えると、その項目と内容を生成AIによって自動的に抽出する機能を提供します。 BigQueryがDocument AIを統合することで、BigQueryからSQL文を用いてドキュメントの画像データ群に対して問い合わせが可能になります。 例えば、Google Cloud Storageに請求書の画像スキャンをまとめて保存しておき、BigQueryで今月の日付の請求書の合計金額をSQLで求める、など

                                              BigQueryがDocument AIを統合。請求書など画像データの内容をSQLで検索可能に、AIが画像から項目や数値を自動抽出
                                            • BigQuery のストレージ料金を 1/10 に抑える裏技 - Qiita

                                              節約になる理由 ここから考察や料金体系の確認、検証内容など長文が始まります。興味のある方は最後までお付き合いください。 節約になる理由は BigQuery を経由すると GCS からの読み取り料金がかからないからです。本来アーカイブストレージはデータ保存の料金が安い代わりに読み書きの料金が高くつきます。しかしこのバグのような仕様によって読み取りの料金を無視して安い保存料金の恩恵だけを受けることができます。 GCS からの読み取り料金が無料な理由はおそらくバッチ読み込みオペレーションが無料なためではないでしょうか。 BigQuery の料金#データ取り込みの料金 注意事項 上記の裏技ですがもちろんいつでも使えるわけではありません。下記の理由から利用については慎重に検討しなければなりません。 Google がいつまでも BigQuery への読み込みオペレーションを無料にするとは限らない。 仮

                                                BigQuery のストレージ料金を 1/10 に抑える裏技 - Qiita
                                              • Data Catalogを徹底解説! - G-gen Tech Blog

                                                G-gen の杉村です。Google Cloud のメタデータ管理ツールである Data Catalog を解説します。 概要 Data Catalog とは Data Catalog の機能 データカタログの利点 メタデータとは データ検索機能 検索方法 クエリの構文 メタデータ管理機能 Data Catalog が自動収集するメタデータ Google Cloud 以外のカタログ化 テクニカルメタデータとビジネスメタデータ テクニカルメタデータ ビジネスメタデータ Data Catalog のオブジェクト エントリとエントリグループ Data Catalog におけるタグ データの自動登録 (Discovery) データリネージ データリネージとは BigQuery の自動トラッキング 保持期間 OpenLineage との統合 料金 API コール データリネージ アクセス制御 (IA

                                                  Data Catalogを徹底解説! - G-gen Tech Blog
                                                • 世にも奇妙なQUERY関数 ~冬のスプレッドシート特別編~ - エムスリーテックブログ

                                                  この記事はエムスリーAdvent Calendar 2023の17日目の記事です。 こんにちは、エムスリーエンジニアリンググループ/ BIR(Business Intelligence and Research) チーム の遠藤(@en_ken)です。 皆さんGoogleスプレッドシート使っていますか? エンジニアだとあまり使わない方もいるかも知れませんが、BigQueryとの連携が非常に容易なため、 データをビジネスサイドに見せたり分析したりする際には便利なツールです。 BigQueryをバックエンドと考えると、スプレッドシートは簡易なフロントエンドのフレームワークとも捉えられます。 ちょっとしたビューの変更はセルで行えるため、 BIRでは業務を整理する際のプロトタイピングとして、 あるいはビジネスサイドの要件でExcel的なインタフェースが好ましいときのアプリケーションの作成方法として

                                                    世にも奇妙なQUERY関数 ~冬のスプレッドシート特別編~ - エムスリーテックブログ
                                                  • BigQueryでクエリを書いたときにハマった罠集 - 唯物是真 @Scaled_Wurm

                                                    自分がなんとなくBigQueryのクエリを書いていてハマった罠について列挙しておきます。 ドキュメントをちゃんと読めば書いてあったりするのですが、普段はそこまで細かく見てなかったりするんですよね……。 BigQueryのカレンダー | Advent Calendar 2023 - Qiita の16日目の記事です。 CAST(value AS INT64) は切り捨てではない 他のプログラミング言語などをやっているとなんとなく整数型にキャストすると切り捨てのような気がしてしまいますがBigQueryは違います。 四捨五入的な挙動になります。 SELECT CAST(1.5 AS INT64) -- => 2 Returns the closest integer value. Halfway cases such as 1.5 or -0.5 round away from zero. h

                                                      BigQueryでクエリを書いたときにハマった罠集 - 唯物是真 @Scaled_Wurm
                                                    • BigQuery Remote Functionsによる形態素解析 - DMM inside

                                                      |DMM inside

                                                        BigQuery Remote Functionsによる形態素解析 - DMM inside
                                                      • BigQueryにおけるdbtの増分更新についてまとめてみた - Timee Product Team Blog

                                                        はじめに ※Timeeのカレンダー | Advent Calendar 2023 - Qiitaの12月8日分の記事です。 okodooooooonです BigQueryの料金爆発。怖いですよね。 dbtでの開発が進んでたくさんのモデルを作るようになると、デイリーのビルドだけでも凄まじいお金が消えていったりします(僕はもう現職で数え切れないくらいやらかしてます)。 コストの対策として「パーティショニング」「クラスタリング」などが挙げられますが、今回は「増分更新」の観点で話せたらと思います。 「dbtのmaterialized=’incremental’って増分更新できておしゃれでかっこよくてコストもなんとなく軽くなりそう!」くらいの認識でさまざまな失敗を経てきた僕が、BigQueryにおけるincrementalの挙動を説明した上で、タイミーデータ基盤における増分更新の使い方についてまとめ

                                                          BigQueryにおけるdbtの増分更新についてまとめてみた - Timee Product Team Blog
                                                        • 全社横断データ基盤における部分的セルフサービス化への取り組み - Sansan Tech Blog

                                                          研究開発部 Architect Groupの大澤秀一です。ブログ寄稿は約2年ぶりです。半年ぐらい前からランニングを始めて、先日フルマラソン完走してきました。おかげで足はボロボロです(笑)。 さて、私たちはBigQueryを中心とした、全社横断データ基盤(以下、データ基盤)の構築とデータ基盤をもとに社内のデータ利活用を推進しています。データ利活用の推進についてチームメンバーが最近登壇した資料をご参照ください。 speakerdeck.com speakerdeck.com データ基盤を拡大していくにあたって、社内の利用者から自部門のデータをアップロードしてデータ基盤上でアドホックに分析したいという要望がありました。また、利用者自身が自由にテーブルとビューを作りたいという声があがりました。 今回は、そうしたことができる環境を構築したので仕組みについてご紹介します。 なお、本記事はSansan

                                                            全社横断データ基盤における部分的セルフサービス化への取り組み - Sansan Tech Blog
                                                          • BigQuery データ共有にはデータセットへのアクセス権の付与より Analytics Hub を選ぶ - Qiita

                                                            BigQuery データセットへのアクセス権付与の特徴 BigQuery データセットへのアクセス権付与は、特定のユーザーやグループに対する直接的なアクセス管理を可能にします。これは小規模な共有には適していますが、大規模な組織や多くの外部パートナーとの共有では管理が煩雑になりがちです。特に、大規模なデータアクセスの場合、アクセス権の管理がセキュリティ上の課題となります。行レベルセキュリティと組み合わせるにしても、大量のアクセス権をデータセット単位で正しく設定するのには限界があります。 Analytics Hub と比べると以下のような特徴を持ちます。 BigQuery 全オブジェクトと機能、リージョンをサポート 新機能をすぐに使えるのが魅力 access 監査ログが残る BigQuery IAM で一貫性のある権限設定 Analytics Hub の特徴 Analytics Hub は以下

                                                              BigQuery データ共有にはデータセットへのアクセス権の付与より Analytics Hub を選ぶ - Qiita
                                                            • dbtのテンプレートSQLをJinja2テンプレートで大量生成する話 〜クラシコム様での事例〜 - KAYAC engineers' blog

                                                              この記事はdbt Advent Calendar 2023の5日目です。 こんにちは、その他事業部SREチーム所属の@mashiikeです。 カヤックは様々な事業・プロジェクトを展開しておりますが、その一つとして『北欧、暮らしの道具店』を運営する株式会社クラシコムとの協業プロジェクトがあります。 www.kayac.com こちらのプロジェクトでは2019年より継続して、クラシコム様のデータ基盤の構築・運用のサポートの一部を行っております。 その中で、troccoのdbt連携機能を用いて、データの変換を実装しております。1 今回の記事は、同プロジェクトの中で行われた一風変わったdbtの活用例の紹介になります。 内容の関係上、予めLookerの用語と概念を知っていると読みやすいと思います。 cloud.google.com 背景 クラシコム様のデータ分析基盤では、ビジネスインテリジェンスにL

                                                                dbtのテンプレートSQLをJinja2テンプレートで大量生成する話 〜クラシコム様での事例〜 - KAYAC engineers' blog
                                                              • BigQuery の Execution Plan を体感&可視化で理解してパフォーマンスチューニングする - Qiita

                                                                この記事では、BigQuery に搭載されている Query execution graphs を用いて、なんとなくクエリのパフォーマンスを最適化する方法を説明します。 ほとんどの項目が経験と憶測で書かれているので、あくまで参考程度にお願いします。 Query execution graphs とは Query execution graphs とは、BigQuery が SQL クエリを解釈して実行計画を作成する際に生成される内部表現です。Execution graphs は、クエリの各ステップをノードとして表し、ノード間のデータフローをエッジとして表します。また、グラフを見ることで、クエリの実行順序や依存関係、並列度やリソース消費などを把握することができます。 主に以下のようなノード(ステージ)があります。 Input: データセットからデータを読み込むノード。テーブルデータの統計情報

                                                                  BigQuery の Execution Plan を体感&可視化で理解してパフォーマンスチューニングする - Qiita
                                                                • Feature Storeについて考える:(中小企業にとっての)意義は何なのか?

                                                                  はじめに 皆さんの組織では、Feature Storeを使っているでしょうか。 AIや機械学習をしていると、MLOPsとセットでFeature Storeについて様々なメリットを謳う記事を見るのですが、データサイエンティストをしている知人に聞いても、実はあまり使っていない・導入を考えたけど止めたという人が多いように思います。(私の周りだけかもしれませんが) よく、Feature Storeのメリットとして「特徴量を共有できる」ということが挙げられるのですが、大企業でデータサイエンティストが多数いる環境であればまだしも、中小企業やベンチャー企業にとっては、データサイエンティストの数が限られている(または1人しかいない)ので、そこまでそのメリットが見えないことが、導入につながっていない要因かもしれません。 しかし、実際に試してみると、それ以上のメリットがあるのではと思えてきました。 そこで、改

                                                                    Feature Storeについて考える:(中小企業にとっての)意義は何なのか?
                                                                  • 9時間足すんだっけ引くんだっけ問題~あるいは、諸プログラミング言語はいかにタイムゾーンと向き合っているか - エムスリーテックブログ

                                                                    私は日付時刻の処理が大好きです。 タイムゾーンの問題でデータ抽出が9時間分漏れていたとか、朝9時の始業前のログが昨日付けになってしまっていたなんていう問題が起こると喜んじゃうタイプ。 そんな私にとって、各プログラミング言語が標準で持っている日付時刻型クラスにはそれぞれ思うところがあり、今日はちょっとその品評会をしてみたいと思います。 エムスリーエンジニアリンググループ、Unit1(製薬企業向けプラットフォームチーム)三浦(@yuba@reax.work) [記事一覧 ]がお送りいたします、エムスリー Advent Calendar 2023の2日目です。 至高の日付時刻型を持つ言語、BigQuery SQL 不足はないが蛇足、Java 8 日付時刻で画竜点睛を欠いたC# C#よりややまし、Python 型は良い構成、なのに命名と処理関数で損しているPostgreSQL まとめ We ar

                                                                      9時間足すんだっけ引くんだっけ問題~あるいは、諸プログラミング言語はいかにタイムゾーンと向き合っているか - エムスリーテックブログ
                                                                    • sinmetalはなぜGoogle Cloudが好きなのか?

                                                                      Google Cloud Champion Innovators Advent Calendar 2023 の1日目の記事です。 Advent Calendarの初日ということもあり、筆者がなぜGoogle Cloudが好きなのかについて。 筆者が初めてGoogle Cloudに出会ったのは2011年で、 App Engine に恋い焦がれてから、ずっとGoogle Cloudを使い続けています。 現在、仕事ではかなり大きなシステムをGoogle Cloudで扱っていますが、個人で小さなシステムを作るのも好きです。 そんな小さなシステムから大きなシステムまで作れるところも魅力に感じています。 この記事では個人でよく作っている小さなシステムに注力しています。 筆者が魅力に感じているGoogle Cloudの思想としてDatacenter as a Computerがあります。 日本語だとGo

                                                                        sinmetalはなぜGoogle Cloudが好きなのか?
                                                                      • 検索マーケターが BigQuery 脱初心者するには - ブログ - 株式会社JADE

                                                                        JADEファウンダーの長山です。今日は先日こちらのセミナーでも話した、「検索マーケターがBigQueryで脱初心者するにあたっての考え方」について書きたいと思います。 blog.ja.dev 皆自分を初心者だと言いたい問題 これはある程度どの分野でも存在することかもしれませんが、人によって「初心者」の定義が大きく違う問題が存在します。ダニング=クルーガー曲線における「啓蒙の坂」を上りきっていない、絶望の谷にいる人々は、本来ならすでに脱初心者しているはずなのですが、あまりに深い絶望のあまりに「何もわからない、自分は初心者だ」と思ってしまうわけです。しかし、本当の初心者は一体自分がどこまでわからなくてはならず、その中で何がわかっていないのかをうまく想像することができないはずです。「何もわからない」と言えている時点で、その人はすでに絶望の谷に降り立っており、初心者ではないのです。 ダニングクルー

                                                                          検索マーケターが BigQuery 脱初心者するには - ブログ - 株式会社JADE
                                                                        • Analytics Hub で加速するデータシェアリング

                                                                          本記事は Google Cloud Japan Advent Calendar 2022 の 通常版 22 日目の記事です。 皆様、いかがお過ごしでしょうか? Google Cloud パートナーエンジニアの山中です。 本記事では Google Cloud Next'22 で一般利用(GA)としてアナウンスされました Analytics Hub を用いたデータ共有方法についてご紹介します。 Analytics Hub とは Analytics Hub は組織間でデータを効率よく安全に共有可能とする BigQuery を基盤としたデータシェアリング サービスです。データを共有することに主眼をおいたサービスとなっており、例えばグループ会社間でのデータ共有やオープンデータの公開などのユースケースに適用できます。 Analytics Hubの 仕組み Analytics Hub の仕組みは非常にシ

                                                                            Analytics Hub で加速するデータシェアリング
                                                                          • LangChainでBigQueryデータを使ったグラウンディングを実装してみた - G-gen Tech Blog

                                                                            G-gen 又吉です。当記事では、Google Cloud の LLM (Vertex AI PaLM API) と LangChain を組み合わせて、自然言語から BigQuery 上の統計データを取得する方法を紹介します。 はじめに 準備 実行環境 使用するデータ 実装 ライブラリのインストール 関数の定義 概要 解説 実行 はじめに LangChain とは、大規模言語モデル (LLM) アプリケーションを効率よく実装するためのフレームワークです。LangChain についての詳細は以下の記事をご参照ください。 blog.g-gen.co.jp LangChain にはさまざまな機能が提供されておりますが、今回は Agents 機能を用いて SQL データベースと対話するエージェントを作成します。 LLM のハルシネーション (幻覚) を抑制する手法として、指定した情報源だけに基づ

                                                                              LangChainでBigQueryデータを使ったグラウンディングを実装してみた - G-gen Tech Blog
                                                                            • GitHub - qnighy/bqpb: BigQuery UDF to parse protobuf messages

                                                                              You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.

                                                                                GitHub - qnighy/bqpb: BigQuery UDF to parse protobuf messages
                                                                              • trocco・BigQuery・Tableauを採用。アソビューがデータ分析基盤の再構築に挑んだ理由 - what we use(技術スタックデータベース)

                                                                                はじめまして、アソビューでデータ基盤チームに所属している霧生です。 近年、モダンデータスタックの登場などによりデータ分析基盤は一層盛り上がりを見せています。選択肢も増えてできることが多くなった反面、どう構築していくか迷う場面も多いのではないでしょうか。今回はアソビューのデータ分析基盤の構成と現状の課題、将来的な改善をどう考えているのかなどを解説しますので、ご参考になれば幸いです。 現在のアソビューのデータ分析基盤アソビューは創業10周年を超えており、当然ながら今までもデータを分析して事業やサービスに役立ててきました。しかし、コードやインフラの継ぎ足しを重ねたことにより秘伝のタレのような状態と化してしまい、多くの課題が生まれています。そこで、アソビューではこの問題を解消するために、昨年から株式会社DATALEさんとともにデータ分析基盤の再構築を行いました。 データ分析基盤を構築するにあたり、

                                                                                  trocco・BigQuery・Tableauを採用。アソビューがデータ分析基盤の再構築に挑んだ理由 - what we use(技術スタックデータベース)
                                                                                • BigQuery Studio は何者なのか

                                                                                  はじめに こんにちは、クラウドエース データ ML ディビジョン所属の工藤です。 クラウドエースの IT エンジニアリングを担うシステム開発部の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのがデータ ML ディビジョンです。 データ ML ディビジョンでは活動の一環として、毎週 Google Cloud の新規リリースを調査・発表し、データ領域のプロダクトのキャッチアップをしています。その中でも重要と考えるリリースを本ページ含め記事として公開しています。 今回紹介するリリースは、BigQuery Studio です。BigQuery Studio の登場により、BigQuery 上で Python ノートブック環境が使えるようになりました。Duet AI によるコード補完もサポートしていますので、非エンジニアの方もデータ分析しやすい環境

                                                                                    BigQuery Studio は何者なのか