[B! dwh] [4ページ] sh19910711のブックマーク

パブリックプレビュー版のSnowpark ML Model Registryで、SnowflakeでのMLOpsのポイントを確認してみた | DevelopersIO

パブリックプレビュー版のSnowpark ML Model Registryで、SnowflakeでのMLOpsのポイントを確認してみた Snowpark MLのパイプラインごとModel Registryに登録することで、Snowflakeのテーブルのデータをそのまま利用しやすく、運用も格段に簡単になっています。データアナリティクス事業本部機械学習チームの鈴木です。先日、Snowpark MLのModel Registryのパブリックプレビューが開始になりました。この公開までの間、Snowpark MLでもいくつかの重要なアップデートがあり、それらが合わさってSnowflakeでのモデルのデプロイや管理がかなり使いやすくなったように思ったので、改めて触ってみました。個人的には、前処理も含めたパイプラインを管理することで、Snowflakeの特徴量用のマートテーブルを機械学習モ

sh19910711 2024/04/07

"Snowflakeでのモデルのデプロイや管理がかなり使いやすくなった / Snowpark MLのModel Registry: 機械学習モデルとそのメタデータを安全に管理 + パイプラインごとモデルをデプロイできる"

*data
dwh

リンク

Snowflake のAI戦略、Cortex LLM Functionsについて｜鈴木いっぺい (Ippei Suzuki)

背景データウェアハウスまたはより正確にはデータプラットフォームの戦いにおいて、AIのトレンドが勢いを増しており、それに対応するためにGoogleやMicrosoftなども同様の機能をリリースして競争力を維持しているLLM機能を発表したことは驚くべきことではありません。 Snowflake LLM Functionsの機能Snowflake Cortexは、ユーザーにAIおよびMLソリューションを提供するマネージドサービスです。Snowflakeが提供する機能には、次の2つのタイプがあります。 LLM機能：これらはSQLおよびPythonベースの機能であり、理解、クエリ、翻訳、要約、自由形式のテキストの生成に使用できます。 MLベースの機能：これらはMLアルゴリズムに基づいたSQL機能であり、予測を導出するために使用されます。 Snowflakeのこれらのサービスにより、ユーザーはデータ

sh19910711 2024/04/05

"Snowflake Cortex: すべての機能がAWSとAzureのすべての地域で利用可能というわけではありません + 処理されるトークンの数に基づいてコンピュートコストが発生 / 小さなウェアハウスを使用することをお勧め"

リンク

Snowflake Dynamic Tables による大規模ニアリアルタイム処理に向けた基礎検証 | TECH | NRI Digital

１．はじめに Snowflake を用いたデータ分析基盤の構築案件が増えており、筆者も参画しています。近年では扱うデータ量として、RAWデータ、および、ETL処理を行うデータに関しては、100TBオーダーからPBオーダーになってきています。担当案件でも、1年間でETL処理のパイプラインを通過するデータの総量は約１PBという目標で進めています。これだけのデータ量であっても、データの鮮度に関して、数年前から見ると高いレベルが求められている印象を受けます。担当しているプロジェクトでも目標値ではありますが、遅れが５分以内のニアリアルタイムでの鮮度を目指すという話が聞こえ始めました。一方、SnowflakeのETL処理向けの新機能として、Dynamic Tables という機能がパブリックプレビューとして利用可能になっています。詳細は後続の章に記載しますが、データ変換の結果になる変換後テーブルを

sh19910711 2024/04/04

"Snowflake Dynamic Tables: ソースデータに更新がかかったときに、その変更を変換後テーブルにSnowflake側で自動で反映してくれる / サイズXSの場合、1.2GB/分あたりが、更新遅延5分以内を満たせるかどうかのボーダー" 2023

リンク

BigQuery DataFramesを使ってみる | DevelopersIO

このデータをBigQuery DataFramesで扱います。内容としては{project_id}.data_set_test.jp_weatherのデータを使ってPandasで行う一般的な分析操作を行います。コードは以下になります。 import os import bigframes.pandas as bpd bpd.options.bigquery.project = os.environ.get("GOOGLE_PROJECT_ID") bpd.options.bigquery.location = "asia-northeast1" df1 = bpd.read_gbq("{project_id}.data_set_test.jp_weather") # df1 = bpd.read_gbq("SELECT * FROM {project_id}.data_set_test.j

sh19910711 2024/04/03

"BigQuery DataFrames: pandas互換のPythonic DataFrameのbigframes.pandasモジュールとscikit-learnライクのbigframes\.mlモジュール / Pandasと同じ関数を使って分析を行うことができ非常に便利" 2023

リンク

Findyデータ基盤のアーキテクチャと技術スタック - Findy Tech Blog

1. はじめに Findyでデータエンジニアとして働いているひらき（hiracky16）です。この記事ではFindyで取り組んでいるデータ基盤について紹介します。 Findyでは2023年からデータエンジニアを採用し本格的にデータ基盤構築に着手しています。これまではBigQuery（Google Cloud）を中心としたデータ蓄積・利活用をしていました。今後もっとデータ分析、機械学習などのデータ利用を加速するためにデータマネジメントが不可欠だと考えており、データエンジニアを採用しています。まだ1人目のデータエンジニアがジョインしてから半年間くらいの取り組みですが、現時点のアーキテクチャや技術スタック、伸びしろや展望などを記します。 1. はじめに 2. これまでのデータ基盤の伸びしろ 3. 現状のデータ基盤アーキテクチャ 3.1. 本番環境のIaC化と開発環境の準備 3.2. デ

sh19910711 2024/03/26

"dbtにクエリや知識を集約させるべくBigQueryのユーザーを巻き込み利用を促していましたが、なかなかモデル（テーブル）の数が増えませんでした / Dataformはブラウザで完結しBigQueryのメニューにある"

リンク

Dataplexの自動データ品質導入を始めた話 - FLINTERS Engineer's Blog

はじめにこんにちは。株式会社FLINTERS に出向中のおのきです。この記事は 10 周年記念として 133 日間ブログを書き続けるチャレンジの 64 日目の記事です。 2 回目の投稿となりますが、現在データエンジニアとして広告データのデータウェアハウス(DWH)構築を行なっており、そこでのデータ品質の導入までについて書いてみようと思います。経緯と要件と検討結果現在構築中のDWHは、DMBOKを参考にデータマネジメントに取り組みながらDWH構築を進めています。その中で、メタデータの管理やデータアーキテクチャをGitHub(ソースコード)であったり、Google Cloudのサービスを用いて仕組み化しています。また、構築メンバーは 4 人で新規のテーブル(データ)構築・運用をこなしており、既存のDWHでの品質における課題を感じつつ、少ないリソースで提供DWHの運用から品質

sh19910711 2024/03/18

"Dataplexの自動データ品質: 実行結果についてもCloud Loggingで抽出可能だったりモニタリングとアラートの情報を元に可視化なども進められる / チームで品質について考える機会が得られたり導入までのプロセスが楽しめた" 2023

リンク

BigQuery Emulator をアップデートしました - Route54

BigQuery Emulator の v0.6.0 をリリースしました。今回のリリースでは、Recidiviz社の @ohaibbq さんが多大な貢献をしてくださいました。Recidiviz社ではかなり前から BigQuery Emulator を使ってくれているようで、以前から Issue や DM などでそのことを伝えてくれていましたが、@ohaibbq さんが今Qエミュレータの改善にコミットできるということで、 Recidiviz社側で fork して使っていたものに加えていた patch をたくさん送ってくれました。かなり多くの改善が入っているので、以前エミュレータを試して動かなかったクエリを再度試す良い機会かなと思っています。 @ohaibbq さんからは、嬉しいことに今後も貢献してくださると言っていただけているので、今後の改善も速いペースで進んでいくと思います。素晴らし

sh19910711 2024/03/12

"BigQuery: Google はエミュレータの開発に4年前くらいにやる気は見せていますが、その後何もアクションをとっていません / go-zetasql の cgo 依存をやめて、WebAssembly ベースのバインディングに移行しようとしています"

リンク

Snowflake上でRを使う： RStudioセットアップとShinyアプリケーションのデプロイ

sh19910711 2024/03/10

"Rの良いところ: 専門的なライブラリ + ggplot2による作画 / RStudio・shinyともにSnowpark Container Serviceで動かすことができ / SPCS: サクッとコンピューティングリソースの変更が可能 + 顧客向けのアプリで利用するにはコストが"

リンク

Databricks SQLの新たなAI Functions - Qiita

以前こちらを書いてから時間が経ってました。そして、気づいたら色々な関数が追加されてました。新たに追加されたAI Functionsをウォークスルーします。

sh19910711 2024/03/10

"ai_extract: 指定されたテキストから指定されたラベルの固有表現を抽出 / ai_fix_grammar: 指定されたテキストの文法間違いを修正 / ai_mask: 実用性ありそう + 指定されたテキストで指定されたエンティティをマスキング"

リンク

[新機能]SnowflakeでMistral AI・LLaMA 2・Gemmaを用いたLLMが関数一つで簡単に使用可能に！Snowflake Cortex LLM Functionsを試してみた | DevelopersIO

[新機能]SnowflakeでMistral AI・LLaMA 2・Gemmaを用いたLLMが関数一つで簡単に使用可能に！Snowflake Cortex LLM Functionsを試してみたさがらです。日本時間2024年3月5日の夜に、Mistral AI・LLaMA 2・Gemmaを用いたLLMが関数一つで簡単に使用可能となるSnowflake Cortex LLM Functionsがパブリックプレビューとなりました！ 2024年3月6日6時の時点ではまだリリースノートに記載もありませんが、下記のMistral AI社とのパートナーシップのプレスリリースと併せて機能がリリースされたのだと思います。（本記事内にMistral AI’s models are now available to customers in public preview as a part of Snow

sh19910711 2024/03/10

"Snowflake Cortex LLM Functions: Mistral AI・LLaMA 2・Gemmaを用いたLLMが関数一つで簡単に使用可能 / EXTRACT_ANSWER: 与えられた質問に対する答えをテキストから抽出 / コスト: token(文字数)に応じて + 使用するウェアハウスのコストとは別"

リンク

dataformからdbtに移行するために調べたこと - Retty Tech Blog

コトの発端実現したい分析基盤 Rettyの分析基盤 dbtにまとめて、こうしたい dataformでやっていたこと使ったdbtの機能は、incrimental modelのThe insert_overwrite strategy 実際にやったコト merge intoで指定する任意のパーティション設定 incremental modelのinsert_overwriteの設定 incremental時のwhere句感想サンプルコード挙動 N日に実行 N+1日に実行この記事Retty Advent Calendar 2023 - Adventarの24日目の記事です。 2023年4月に入社した土田です。コトの発端こんなメールが来た。半年後にdeprecated。まじか。実現したい分析基盤前述の通りRettyではdataformを使って、DWH内の物理テーブルを更新し

sh19910711 2024/03/10

旧dataform => dbt / "分析基盤はdbtでデータガバナンスをしていることからdbtでできるならdbtに移行しよう！となりました / on_schema_changeを設定すると、schemaが変更されたことをエラーで教えてくれる" 2023

リンク

BigQueryでクエリを書いたときにハマった罠集 - 唯物是真 @Scaled_Wurm

自分がなんとなくBigQueryのクエリを書いていてハマった罠について列挙しておきます。ドキュメントをちゃんと読めば書いてあったりするのですが、普段はそこまで細かく見てなかったりするんですよね……。 BigQueryのカレンダー | Advent Calendar 2023 - Qiita の16日目の記事です。 CAST(value AS INT64) は切り捨てではない他のプログラミング言語などをやっているとなんとなく整数型にキャストすると切り捨てのような気がしてしまいますがBigQueryは違います。四捨五入的な挙動になります。 SELECT CAST(1.5 AS INT64) -- => 2 Returns the closest integer value. Halfway cases such as 1.5 or -0.5 round away from zero. h

sh19910711 2024/03/09

"CAST(value AS INT64) は切り捨てではない / WITH RECURSIVE は再帰的なWITH句を書くための記法ですが、これを使うとWITH句の結果がマテリアライズされるので一旦テーブルを作るのと同様の効果" 2023

*data
dwh

リンク

GCP版Dataformで冪等性を担保する設計ポイント3つ - TVer Tech Blog

データエンジニアの遠藤です。 TVer Advent Calendar 2023の24日目の記事になります。はじめに本年（2023年）、Google Cloudのビッグデータ基盤として展開されるBigQueryでは、データガバナンスツールであるDataformがGA（Generally Avaialble）になりました。 cloud.google.com このDataformの登場により、BigQuery上でデータを利活用しやすいように変換する（データマートを生成する）システムの構築が容易になりました。本記事では、Dataform上において、定常実行やリトライ実行を容易にするために、冪等性が担保される設計のテクニックを3点紹介します。（Dataformの基本的な使い方については触れませんのでご注意ください） 1. SQLX内のクエリに変数を用いる DataformはSQLXと呼ばれる

sh19910711 2024/03/08

"定期的な実行はDataform APIから / リクエスト情報を適切に設定することで、dataform.json内の設定をオーバーライドして実行することが可能 / pre_operations項目を設けてそこにDELETE文を設定" 2023

*data
dwh

リンク

Pub/SubのBigQueryサブスクリプションの書き込みレイテンシを計測する

概要 Pub/SubからBigQueryに直接ストリーミングインサート可能なBigQueryサブスクリプションの書き込みレイテンシを計測したので、計測方法と結果を残します。 BigQueryサブスクリプションとはメッセージキューであるPub/SubからBigQueryに直接データをストリーミングインサートできるサービスです。このサービスを使うことで、DataflowやCloud Runなどのサブスクライバーを挟まないシンプルな構成のストリーミングデータパイプラインを構築可能です。間にサブスクライバーを挟まないので、生データをそのままBigQueryに書き込むことしかできません。計測対象今回の計測対象は、Pub/SubのBigQueryサブスクリプションからBigQueryへ書き込まれるまでです。データソースで、データが発生してからBigQueryへ書き込まれるまでの時間ではあり

sh19910711 2024/03/07

"サブスクリプションで、Pub/SubからBigQueryに直接ストリーミングインサートした場合の書き込みレイテンシは、平均561ミリ秒と優秀 / 「メタデータを書き込む」オプションを選択すると、いくつかのメタデータが記録される"

リンク

BigQuery における、ベクトル検索とベクトルインデックス機能

はじめにこんにちは。クラウドエースデータソリューション部所属の髙根です。クラウドエースのデータソリューション部では、IT エンジニアリングを担うシステム開発部の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門としています。データソリューション部の活動の一環として、Google Cloud が提供しているデータ領域のプロダクトについて、新規リリースをキャッチアップするための調査報告会を毎週実施しています。新規リリースの中で、特に重要と考えるリリースを本ページ含め記事として公開しています。今回ご紹介する内容は、2024年 1 月 31 日にプレビュー段階となった BigQuery におけるベクトル検索とベクトルインデックスの機能追加についてです。 BigQuery の概要 BigQuery は、Google Cloud

sh19910711 2024/03/02

patents-public-dataに埋め込みが入ってるのか / "CREATE VECTOR INDEX: インデックスが作成されたカラムのみが処理バイト数に含まれます / fraction_lists_to_search: 再現率と検索速度の間のトレードオフを制御"

*data
dwh

リンク

ついにGAした Redshift と Aurora の Zero-ETL でニアリアルタイム連携 - Qiita

[1] はじめに Zero-ETL統合とは？ OLTP系DBとOLAP系DWHはそもそも役割が違うので、従来はOLTP DBに蓄積されてたデータをDWHにデータ連携するETLが必要だったこの連携は結構大変で、要件に応じて例えばGlue、DMS、Kinesys、MWAA、StepFunctionsなどなどいろいろなサービスを組み合わせて実現する必要があったこの煩雑な工程をなくして、ニアリアルタイムでデータ自動連携しようというAWSの構想がZero-ETL Zero-ETLの範囲や実現方法はいろいろある https://aws.amazon.com/jp/what-is/zero-etl/ OLTP系DB〜DWH(Redshift)に着目すると、2023年12月時点で以下のDB間のZero-ETL統合ができる。 Aurora MySQL →　Redshift（GA) Aurora Post

sh19910711 2024/02/29

"Zero-ETL: 従来のFedereated Queryとかとは全く異なり、HWレイヤーレベルでDB間のデータがフルマネージドで同期 / マテリアライズドビューも作成できた / ストレージ単価はRedshiftはAuroraの 1/5 〜 1/10 くらい" / 2023

リンク

BigQuery ML の自然言語処理機能でどんなことができるか・どう実行するか？｜畳屋民也

マネーフォワードケッサイの tamiya です。この記事では、前回に引き続きスリランカカレーの魅力について BigQuery ML で提供されている自然言語処理機能について紹介します。 BigQuery ML（以下、BQML）は、BigQuery （以下、BQ）上で通常の SQL を拡張したクエリを用いて機械学習タスクを行うことができる機能です。以前の記事で概要と基本的な使い方を紹介しましたが、BQML はデータ加工〜モデル作成・予測実行までが BQ 上で完結するという強力なメリットがありました。また、回帰・分類に加えて、時系列予測・クラスタリング・レコメンドなど標準的な機械学習アルゴリズムが一通り揃っている点も嬉しいポイントです。そこで今回は、BQML の自然言語処理機能でどのようなことが行えるか、どのように使うかについて紹介していこうと思います。 BQML の自然言語処理機能で

sh19910711 2024/02/25

"BigQuery ML: 生成 AI 含む自然言語処理機能も急速に充実 / ML.UNDERSTAND_TEXT + CLASSIFY_TEXT: 入力テキストのカテゴリを推定 / ほかにも、固有表現分析や構文解析など / 入力文字数単位で課金 + だいたい1,000文字あたり $0.0005 ~ $0.0020"

リンク

Embulk で Snowflake からデータを読み込む embulk-input-snowflakedb を公開しました - estie inside blog

こんにちは、スタッフエンジニアの @kenkoooo です。Embulk で Snowflake からデータを読み込む embulk-input-snowflakedb をオープンソースとして公開しました。 github.com Embulk とは？データをロードするすごい OSS です。プラグイン形式でデータの入力や出力を定義することができるため、各種 SQL や BigQuery などだけでなく、スプレッドシートやアクセス解析など様々な入力元・出力先に対応しています。公式サイト: Embulk Snowflake とは？データを集めたり加工したりするデータプラットフォームです。estie でメッチャ流行ってます。 dbt-snowflake のテストフレームワークを作った話 - estie inside blog estie にデータを使って意思決定したいことが 62 個もある話

sh19910711 2024/02/11

"Embulk を使って Snowflake からデータを読み込むプラグインが存在しない / embulk-input-jdbc: あくまで一般的な JDBC ドライバーに対応 + Snowflake 特有のキーペア認証などには一部のみしか対応していません"

リンク

BigQueryとDocumentAIを使ってスタバのレシートを読み取ってカロリー計算してみた話 - Qiita

これを元にフィールドを作成すると以下のようになります。ここでit emというラベルの配下にamount〜priceまでありますが、1つの親フィールドに対して、複数の子フィールドを関係付けることができます。これにより、データ項目をまとめて扱うことができるようです。 2. データセットの作成・アノテーション次にCloud Storageから画像をデータセットとして扱えるようにDocumentAI側にインポートします。今回はあらかじめ写真で撮っておいたレシートの画像をCloud Storageに配置してあります。 DocumentAIの左のタブの「ビルド」を押すと以下のような画面に遷移します。青ボタンの「ドキュメントをインポート」を押すとインポートする際の条件を指定することができます。事前に用意したバケットを指定します。この段階ではデータ分割（トレーニング用データかテスト用データか）の選

sh19910711 2024/01/30

"BigQueryからSQLだけを用いて画像から情報を抜き出せるという近未来的な機能がリリース / レシートの写真から購入商品の名前の情報を抜き出して、商品マスタテーブルと突き合わせてカロリー計算 / 結果は3,061kcalでした"

リンク

BigQueryでクエリ一撃で29万円溶かしたけど助かった人の顔

SolanaのPublic DataをBigQueryで取得したかった# えー、お笑いを一席. ブロックチェーンSolanaのデータがGoogle Cloud BigQueryで使えるようになったというニュースをたまたまネット推薦記事でみかけた1. おや, 面白そうだ. ちょっとやってみようかな… BigQueryはさわるのが１年以上つかってないかも, どうやるんだっけ… とりあえずカラムとかサンプルでちょっとデータをみたいよな, こんな感じだっけか？とりあえず動かしてみよう, ポチッとな. … 5秒でレスポンスが帰ってくる. おー、速い. えーっと, あれ課金データ309TB？！いちげきひっさつ、ハサンギロチン2. BigQueryでクエリ一撃5 秒で29万円溶かした人の顔# 話題の画像生成AI, DALL･Eをつかって BigQueryでお金溶かした人の顔を表現してもらった3. あ

sh19910711 2024/01/29

"SolanaのPublic DataをBigQueryで取得したかった / 5秒でレスポンスが帰ってくる. おー、速い. えーっと, あれ課金データ309TB / 心の動揺を落ち着けるために父親に電話" / 2023

*data
dwh

リンク

はてなブックマーク

タグ

関連タグで絞り込む (85)

dwhに関するsh19910711のブックマーク (387)

お知らせ

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

今週のはてなブックマーク数ランキング（2024年5月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス