[B! dwh] sh19910711のブックマーク

BigQueryのBigLakeテーブルと従来の外部テーブルを比較してみた | DevelopersIO

Google Cloudデータエンジニアのはんざわです。前回に引き続き、BigLakeテーブルを紹介したいと思います。今回の記事では、従来の外部テーブルとBigLakeテーブルを比較し、BigLakeテーブルが従来の外部テーブルより優れている点を簡単に紹介したいと思います。前提条件 Cloud StorageをデータストアとしたBigLakeテーブルと外部テーブルを比較します BigQuery Omniを使用した他クラウドのBigLakeテーブルやCloud Bigtableなどをデータストアとする外部テーブルは検証の対象外ですそもそもBigLakeテーブルとは？ BigLakeテーブルは、従来の外部テーブルと同様に外部のデータストアのデータにアクセス可能なテーブルです。従来の外部テーブルと比較するとアクセス権の委任により、「ユーザーがBigLakeテーブルにアクセスする権限」と

sh19910711 2024/05/16

"BigLakeテーブルへのアクセス権限と「BigLakeテーブルがデータストアを参照する権限」が分離 + Cloud Storageの権限が必要ありません / Delta LakeとIcebergのフォーマットを追加でサポート"

リンク

LLMの事前評価のシステムアーキテクチャを紹介します

この記事の概要こんにちは。PharmaX でエンジニアをしている諸岡（@hakoten）です。この記事では、「YOJO事業部のプロダクト内で使用されているLLM（Large Language Models）の機能の性能を事前評価するための仕組み」について、システムのアーキテクチャをご紹介しています。 LLMを用いて実現している具体的な機能については詳しく触れていませんので、その点ご理解ください。 LLMにおける事前評価とは何かまず、プロダクトにおけるLLM（Large Language Models）機能の評価がどのようなものかについて簡単に説明します。 LLMの特徴の一つとして、「出力が確率的である（毎回異なる）」という点があります。そのため、LLMで生成された文章や出力に対しては、出力結果の良し悪しを定量的に計測する方法が必要になります。弊社における定量的な計測は、大きく次の2

sh19910711 2024/05/09

"LLMで生成された文章や出力に対しては、出力結果の良し悪しを定量的に計測する方法が必要 / CSVにはPromptLayerのrequest_idとバージョンをスコアとセット + Cloud Storageに保存 + Data Transfer Serviceを用いて、定期的にBigQueryに同期"

リンク

Snowflake ArcticにRAGを実装してみる - Qiita

最初にこの記事は以下の2つの記事 Snowflake Arcticを試してみる続・Chromaで埋め込みを体感してみる～日本語対応編～を組み合わせてみたメモとなります。昨日(2024/5/6)にSnowflakeのVector EmbeddingsがPublic Preview(PuPr)になったので、RAGの実装をSnowflakeで完結させることもできるのですが、この記事ではプリミティブな方法を理解するという目的でベクトルデータベースを別途導入して接続しています。 RAGの仕組み RAGの仕組みについては、Snowflake社のBLOG Snowflake Cortexを使用した簡単かつ安全なRAGからLLMへの推論に記載されている以下の図が分かりやすいです。大まかには以下のような流れになります。 Embedしたドキュメントをあらかじめベクトルデータベースに保存しておくユー

sh19910711 2024/05/08

"Snowflake: Vector EmbeddingsがPublic Previewに + RAGの実装をSnowflakeで完結させることもできる / 現在は指定できるのはモデルの種類とプロンプトのみ / cortex.Complete("snowflake-arctic", prompt)"

リンク

分析基盤をAthenaからBigQueryへノーコードで移行した話 - mikan Developers' Blog

この記事はmikan Advent Calendar 2023の24日目の記事です。こんにちは。株式会社mikanでPlatform Engineeringチームのリーダーをしております。@hoshitocat です。Platform Engineeringチームは最近できたチームですが、その取り組み内容についてはまた後ほどご紹介できればと思っています。昨日はQAチームのchiakiさんによる、「テスト自動化で試行錯誤した話」でした。QAの自動化に取り組みたいと思っている方や、QAコスト削減方法に悩んでいる方はぜひ読んでみてください！ note.com なお、mikan Advent Calendar 2023の他の記事は下記のリンクからご覧ください。 adventar.org はじめにこれまでの分析基盤の課題 BigQuery利用への意思決定 Glueを使ってみるが断念 Athe

sh19910711 2024/05/07

"STSとDataprepを使って、S3にある行動ログをAthenaで集計していたものを、BigQueryで集計できるようにする / Dataprep: Plansというものがあり定期実行することもでき + Jobの実行状況ごとにSlack通知" 2023

リンク

Google Cloudの監査ログを理解する&長期間保存方法 - NRIネットコムBlog

こんにちは、上野です。前回に引き続き、Google Cloudのセキュリティ設定第２弾です。今回は監査ログ（Cloud Audit Logs）です。監査ログは「誰が、いつ、どこで、何をしたか」を残すログで、AWSだとCloudTrailですね。目的はAWSと同じなのですが、設定方法や見え方がけっこう異なるので、概要を掴みつつ追加の保存設定を見ていきます。 Google Cloudの監査ログ監査ログには、管理アクティビティ監査ログ、データアクセス監査ログ、システムイベント監査ログ、ポリシー拒否監査ログの4種類存在します。管理アクティビティ監査ログユーザーが VM インスタンスを作成したときや IAM権限を変更したときに記録されるログで、いわゆる一般的な監査ログです。デフォルト有効で、無効にできません。データアクセス監査ログ BigQueryやCloud Storageなど、データ

sh19910711 2024/05/06

"デフォルトの状態でも、管理系の操作は400日間、BigQueryへのデータアクセス、ポリシー拒否監査ログが30日間確認可能 / BigQuery以外のデータアクセスログも見たい場合は追加の設定が必要" 2021

リンク

SnowflakeとMetabaseで作る格安データ分析基盤 - Qiita

導入の背景 Snowflakeを導入し、Talendと各種バッチ処理を作成してデータ分析基盤を構築しましたが、肝心のBIがコストの関係でストップとなりました。当初はPowerBIを導入する予定でしたが、BIをQuickSightに変更してコストを約半分にまで下げる案に変更しても予算がおりませんでした。コスト問題をクリアする為に仕方なくOSSであるMetabaseで構築した環境でしたが、思った以上に低価格で高性能な環境ができあがり、PowerBIに負けてないどころか、こちらの方が使い勝手が上だと思う環境ができましたので、紹介したいと思います。 ###おすすめしたいポイント ■Snowflake ・クエリが投げられた間だけの課金(停止中は課金されない) ・停止中でも瞬間に起動するので、遅延は感じない・控えめに言っても超高速・スタンダード契約なら、最小サイズのXSサイズで1クレジット$2.8

sh19910711 2024/05/06

"Snowflakeを導入し、Talendと各種バッチ処理を作成してデータ分析基盤を構築 / 肝心のBIがコストの関係でストップ / 当初はPowerBI + QuickSightに変更してコストを約半分にまで下げる案に変更しても予算がおりませんでした" 2021

リンク

Dataformを使ってデータ分析基盤を構築した話 - Leverages データ戦略ブログ

はじめにこんにちは。レバレジーズデータ戦略室の辰野です。前回の投稿からいつの間にか1年以上経過していました。引き続きデータマネジメントやデータガバナンスに関連する仕事をしていたのですが、今回は私が昨年度末に取り組んだ、Dataformを利用したデータ分析基盤の構築についてお話させていただきます。 Dataformとは Dataformとは、現在Google Cloudで利用できるデータモデリングツールの一つです。ELT（抽出、読み込み、変換）処理における、T（変換）の部分を管理できます。主な機能として、下記があります。 SQLワークフローを開発、実行できるテーブル同士の依存関係を管理できるテーブルの品質テストができるこれらの機能を利用することで、すべてのデータプロセスを管理することが可能です。（参考：Google Cloud,Dataform の概要） Dataformを導入

sh19910711 2024/05/06

"人事の採用管理システムをリプレイスするプロジェクト / 元々、採用データを専任で管理しているメンバーがいなかった / 採用に関するローデータ保管から、BIツールへ接続させるまで全てGoogle Cloudのサービスで完結" 2023

リンク

Cloud Asset Inventory を使用してGoogle Cloud上のアセットを分析する - NRIネットコムBlog

こんにちは、最近はGoogle Cloudの記事を書いている上野です。（AWSももちろんやってます）今回はCloud Asset Inventoryを見ていきます。 Cloud Asset Inventoryとは？ Google Cloud上の、アセットを管理できるサービスです。アセットとは、大きく以下の2種類を指します。リソース Compute Engine 仮想マシン（VM）やCloud Storage バケットなどのGoogle Cloud上で作成されたリソースのメタデータポリシー IAMポリシー、Organizationsポリシーなど、誰が何にアクセスできるかという情報（ポリシーのメタデータ） Google Cloud上に5 週間分の履歴情報が保管されています。 AWSで言うとAWS Configに近いサービスになります。 Cloud Asset Inventoryの開始方法

sh19910711 2024/05/05

"AWSで言うとAWS Config / feeds: Pub/Subを使用して、リソースの変更が発生したら通知するという運用も可能 / BigQuery テーブル内のコンテンツが変更されたときにtopic_nameという Pub/Sub トピックから通知" 2021

リンク

Snowflake の Copilot が優秀すぎる件について

マーケティングテクノロジーの情報やノウハウ・TIPS、エクスチュア社の情報を発信。【ブログネタ募集】ご興味のある分野を教えてください！ご要望の内容を記事に起こします！メニューの「ブログへの」リクエストよりお送りください。 menu こんにちは、喜田です。いままでSnowflakeのライトユーザーで一部機能だけに特化して触っている状態でしたが、最近はData Superheroes 2024になったこともあり、いままで関わりの薄かった製品領域も調査したり、海外リージョンでしか出ていないプレビューを触ったりしています。そのうちの一つがCopilotで、いまは北米など一部リージョンでのみパブリックプレビュー中の、Snowflakeコード開発が一段と捗るAIおしゃべり機能です。この右側のパネルがCopilotとのチャット。出力が多くてチャットっぽくないですが、上から会話が続いております。 C

sh19910711 2024/05/04

"Snowflake Copilot: コメントなしのテーブル名、列名だけでテーブル間の関係性とか、値の意味を理解しているようなクエリ / 3つ以上のJOINもお手の物、副問い合わせ（WITH句を使ったCTEのパターン）も使う"

リンク

GlueJobからRedshiftServerlessに直接インサートするサンプルデータパイプラインのご紹介｜基幹システムのクラウド移行・構築・導入支援のBeeX

はじめにこんにちは、半田(@handy)です。 AWS上でデータパイプラインを検討する際、よく見る構成としてはS3上のファイルをGlue Jobで変換した後、再度S3に格納してAthenaやRedshiftなどから参照する方法があります。ただ、パフォーマンス要件からRedshiftにデータを取り込む必要がある場合、定期的にS3からのロードを行う必要があります。今回の構成では途中に変換後用のS3を介することなく、Glue Jobから直接Redshiftにインサートを行うデータパイプラインを構築してみましたので、その構成や具体的な設定内容などについてご紹介します。また、Glue Jobで変換する際、通常は一度S3に入れた変換前データをGlue Crawlerでクローリングし、メタデータをGlue DataCatalogに登録して、Glue DataCatalog経由でデータをロードする方

sh19910711 2024/05/04

"Redshift Serverless: これまでSecrets Managerでのパスワード管理に対応していませんでしたが、2024年3月にアップデートがあり、現在では利用できるようになりました / 「redshift![名前空間名]-[DBユーザー名]」のフォーマット"

リンク

Dataformでコンパイル変数を使ってみた | DevelopersIO

WorkflowsからDataformの起動方法を検証してみました。Dataformタグ指定、コンパイル変数のWorkflowsからの上書きができるか、もあわせて検証してみました。データアナリティクス事業本部の根本です。Dataformを使っていて、呼び出しもと(Workflowsとか)から動的に値を変えてDataformを呼び出すことができたらいいなと思い調べてみたらコンパイル変数を用いたらできたので記事にしてみました。この記事の対象者 Dataformでコンパイル変数を使ってみたいひと前提条件 Dataformのワークスペースやリポジトリが存在する、使えること検証の全体像コンパイル変数をdataform.jsonで指定して動作するか確認 APIでDataformを実行するときにコンパイル変数の値を上書きして動作するか確認上記2つの検証をしていきます。やってみるそれでは早

sh19910711 2024/05/03

"${dataform.projectConfig.vars.変数名}で、dataform.jsonで定義したコンパイル変数を取得 / APIでコンパイル変数を上書きしてDataformワークフローを実行 / 日付を指定したり、前工程の処理結果を指定したり、環境(prod,stg)を指定したり"

リンク

Amazon Redshift 最適な分散スタイルを自動設定する『DISTSTYLE AUTO』の動きを確認してみました | DevelopersIO

はじめに 2018年の11月のCluster Version Historyに記載のあった『DISTSTYLE AUTO』がついに利用できるようになりました。分散スタイルにAUTOを指定すると最適な分散スタイルを自動的かつ動的に設定する新機能です。リリースバージョン 1.0.6754 以降で利用可能になりましたので、実際にテーブルを作成してどのように自動的かつ動的に設定が変化するかを確認したいと思います。 RedshiftのテーブルのDISTSTYLEに「AUTO」が追加され、東京リージョンでも使えるようになりました。今まではデフォルトはEVEN分散だったのですが、これからはデフォルトではじめはALL、件数が増えてくるとEVENというようにダイナミックに持ち方が変わる動きになります。https://t.co/UR8x2S2Qgi — Junpei Ozono (@jostandard) A

sh19910711 2024/05/03

"レコード数が少ない間は分散スタイルALL + レコード数が増加すると自動的に分散スタイルEVENに切り替わります / ALL: 全てのコンピュートノードに同じデータを配置 / EVEN: ラウンドロビンで均等にデータを配置" 2019

リンク

SnowflakeでFunctional Role+Access Roleのロール設計を実現するTerraformのModule構成を考えてみた | DevelopersIO

SnowflakeでFunctional Role+Access Roleのロール設計を実現するTerraformのModule構成を考えてみたさがらです。 2024年1月にSnowflakeのTerraform Providerに関する2024年のロードマップが公開されています。このロードマップについてわかりやすくまとめて頂いているのが下記の記事です。内容としては、GRANTの再設計、GAしている全機能のサポート、既存Issueの解決、などに取り組んでいくとのことで、破壊的な変更を含む一方で良い方向に進んでいることが感じ取れます。そしてこのロードマップのうちの「GRANTの再設計」ですが、「v0.88.0でGRANTの再設計は完了」「以前の形式のGRANT関係のリソースは2024年6月26日に削除」というDiscussionが投稿されていました。着実に開発が進んでいますね。そこで

sh19910711 2024/05/02

"SnowflakeのTerraform Provider: 破壊的な変更を含む一方で良い方向に進んでいる / ロール設計: Functional Roleは実際にビジネスを進める上での部門や役割に応じたロール + Access Roleは各Snowflakeオブジェクトへのアクセス権だけを付与"

リンク

AWS Cost and Usage Report(CUR)をTerraformで作成する

AWS Cost and Usage Report（AWSのコストと使用状況レポート、以下CUR）は、AWSのコストやリソースの使用状況をS3やRedshiftにアップロードしてくれる機能です。EC2インスタンスIDなどのリソース単位を含めることができるため、コストの追跡が容易になります。 Cost Explorerと異なり、EC2以外のAWSサービスのリソースも含まれます。1日1回以上、S3にアップロードされるので、自分たちの使い慣れたBIツールなどで分析・可視化することができます。 AWSマネジメントコンソールからCURを設定することが多いのですが、今回はTerraform（一部CloudFormation）で作成する方法を紹介します。プロバイダの設定今回は、CURのデータを保存するS3バケットを東京リージョン（ap-northeast-1）に作成します。後述しますが、CURを作

sh19910711 2024/05/02

"aws_cur_report_definition: コストやリソースの使用状況をS3やRedshiftにアップロード + リソース単位を含めることができる / AthenaでCURデータをクエリできるようにするため、AWSから提供されているCloudFormationスタックを実行"

リンク

LangChain の BigQuery Vector Search 機能によるベクトル検索

はじめにこんにちは、クラウドエースデータソリューション部の松本です。普段は、データ基盤や MLOps を構築したり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。クラウドエースデータソリューション部についてクラウドエースのIT エンジニアリングを担うシステム開発統括部の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのがデータソリューション部です。弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があればエントリーをお待ちしております！今回は、LangChain の BigQuery Vector Search 機能によるベクトル検索についてご紹介します。この記事はこんな人にオススメ LangChain と BigQuery を組み合わせたベクトル検索方法をご

sh19910711 2024/05/02

"LangChain から投げたクエリをもとに BigQuery 上でベクトル検索を実行する / 公式ドキュメントを参考 / LangChain: 様々なデータベースとのインテグレーションが強化 / from langchain_community.vectorstores import BigQueryVectorSearch"

リンク

BigQuery & Crashlytics & Zapier - 毎日アプリのクラッシュ数をチャットに流れるようにする - Chatwork Creator's Note

こんにちは、モバイルアプリケーション開発部のAndroid エンジニアのジェローム(@yujiro45)です。最近寒いですね。寒くても、まだタンクトップを着ています〜 ChatworkのAdvent Calendar 2022の22日目の記事です。どんなに気をつけていても、予期せずアプリがクラッシュしてしまうことはあるんじゃないですか？発生したクラッシュが初の場合チャットへ通知したり、メールが送ったりすることがよくあると思いますが、クラッシュ数がどれくらいあるのかは、Firebase consoleでしか見れません。エンジニアでないと把握しづらいですね。この記事では毎日モバイルアプリのクラッシュ数をチャットに流れるようにする方法についてを記載したいと思います。 BigQueryとは Crashlyticsとは Zapierとはクラッシュ数をチャットに流れる方法 Crashlytics

sh19910711 2024/05/02

"Crashlytics: クラッシュの検知とその原因の究明 + どのクラスの何行目で発生したかまで確認することができ原因の特定が行いやすい / Firebaseのコンソールを開いて、プロジェクト→プロジェクト設定→統合→BigQuery" 2022

リンク

[レポート] データウェアハウスを製品として捉える〜設計から実現までの一貫した流れ #dbtCoalesce #Coalesce23 | DevelopersIO

[レポート] データウェアハウスを製品として捉える〜設計から実現までの一貫した流れ #dbtCoalesce #Coalesce23 大阪オフィスの玉井です。米国時間2023年10月16日〜19日、イベント『Coalesce 2023』が開催されました。主催はdbt labs社です。本記事は、その中で発表されたData warehouse as a product: Design to delivery（データウェアハウスを製品として捉える：設計から実現までの一貫した流れ）というセッションについて、レポートをお届け致します。セッション概要登壇者 Lance Witheridge, Data Modernisation Lead, Trade Me 超概要社内のデータ分析基盤をクラウド化しようとしたが、うまくいかず、抜本的な再設計を行った話です。その際、DWH（のデータ）を製品・プ

sh19910711 2024/05/02

"ユーザーが抱える課題を理解し、それに対してどのように最善のサービスを提供できるかを考える / PoCとして始まったシステムがビジネス上不可欠なものに / データは全て生のままストア + 後から必要なものを選別" 2023

リンク

拒否ポリシーでBigQueryのテーブル削除を無効にする

はじめにこんにちは、クラウドエースデータ ML ディビジョン所属の疋田（ひきた）です。珍しい苗字でなかなか覚えづらいと思いますので、是非「ヒッキー」と呼んでいただければ嬉しいです。　クラウドエースの IT エンジニアリングを担うシステム開発部の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのがデータ ML ディビジョンです。データML ディビジョンでは活動の一環として、毎週 Google Cloud (旧 Google Cloud Platform、以下「GCP」) の新規リリースを調査・発表し、データ領域のプロダクトのキャッチアップをしています。その中でも重要と考えるリリースを本ページ含め記事として公開しています。今回ご紹介するリリースは、2023年8月7日にサポートするようになった、拒否ポリシーを介してのアクセス拒否機能です

sh19910711 2024/05/01

"誤って権限が付与されたアカウントが BigQuery に対して行う操作の一部を阻止できる / テーブルの削除について拒否ポリシーが適用されているプリンシパルは、そのテーブルを含むデータセットも削除できない"

リンク

BigQueryでGROUP BY ALLがプレビューになりました | DevelopersIO

Google Cloudデータエンジニアのはんざわです 2024年2月26日にGROUP BYに関して大きく2つのアップデートがありました。リリースノート： February 27, 2024 1つ目は、以前に紹介したGROUP BY GROUPING SETSなどの3つの関数が正式にGAになったアップデートです。 2つ目は、今回紹介するGROUP BY ALLが新たにプレビューとして追加されたアップデートになります。さっそくGROUP BY ALLを簡単に紹介し、実際に触ってみたいと思いますそもそも GROUP BY ALL とは簡単に説明するとSELECT句から集計関数などを除く全てのカラムでグループ化してくれます。今まで GROUP BY col1, col2, ...や GROUP BY 1, 2, ... のような形で個別に指定する必要がありましたが、そのような手間が省

sh19910711 2024/05/01

"GROUP BY ALL: 今まで GROUP BY col1, col2, ...や GROUP BY 1, 2, ... のような形で個別に指定する必要がありましたが、そのような手間が省ける + SELECT句で指定するカラムを増やしてもそのままで正常に実行することが可能"

リンク

BigQuery DataFrames と Vertex AI Pipelines による機械学習パイプライン構築

はじめにこんにちは、クラウドエースデータソリューション部の松本です。普段は、データ基盤や MLOps を構築したり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。クラウドエースデータソリューション部についてクラウドエースのIT エンジニアリングを担うシステム開発統括部の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのがデータソリューション部です。弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があればエントリーをお待ちしております！今回は、BigQuery DataFrames と Vertex AI Pipelines による機械学習パイプライン構築方法について、ご紹介いたします。この記事はこんな人にオススメ機械学習パイプラインにおける実行基盤を検討さ

sh19910711 2024/05/01

"Vertex AI Pipelines: Vertex ML Metadata を使用してアーティファクトに関するメタデータの追跡が可能 / bigframes.ml の register 関数により、訓練したモデルを Vertex AI Model Registory に登録"

リンク

はてなブックマーク

タグ

関連タグで絞り込む (79)

dwhに関するsh19910711のブックマーク (364)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス