タグ

dwhに関するsh19910711のブックマーク (387)

  • パブリックプレビュー版のSnowpark ML Model Registryで、SnowflakeでのMLOpsのポイントを確認してみた | DevelopersIO

    パブリックプレビュー版のSnowpark ML Model Registryで、SnowflakeでのMLOpsのポイントを確認してみた Snowpark MLのパイプラインごとModel Registryに登録することで、Snowflakeのテーブルのデータをそのまま利用しやすく、運用も格段に簡単になっています。 データアナリティクス事業機械学習チームの鈴木です。 先日、Snowpark MLのModel Registryのパブリックプレビューが開始になりました。 この公開までの間、Snowpark MLでもいくつかの重要なアップデートがあり、それらが合わさってSnowflakeでのモデルのデプロイや管理がかなり使いやすくなったように思ったので、改めて触ってみました。 個人的には、 前処理も含めたパイプラインを管理することで、Snowflakeの特徴量用のマートテーブルを機械学習

    パブリックプレビュー版のSnowpark ML Model Registryで、SnowflakeでのMLOpsのポイントを確認してみた | DevelopersIO
    sh19910711
    sh19910711 2024/04/07
    "Snowflakeでのモデルのデプロイや管理がかなり使いやすくなった / Snowpark MLのModel Registry: 機械学習モデルとそのメタデータを安全に管理 + パイプラインごとモデルをデプロイできる"
  • Snowflake のAI戦略、Cortex LLM Functionsについて|鈴木いっぺい (Ippei Suzuki)

    背景データウェアハウスまたはより正確にはデータプラットフォームの戦いにおいて、AIのトレンドが勢いを増しており、それに対応するためにGoogleMicrosoftなども同様の機能をリリースして競争力を維持しているLLM機能を発表したことは驚くべきことではありません。 Snowflake LLM Functionsの機能Snowflake Cortexは、ユーザーにAIおよびMLソリューションを提供するマネージドサービスです。Snowflakeが提供する機能には、次の2つのタイプがあります。 LLM機能: これらはSQLおよびPythonベースの機能であり、理解、クエリ、翻訳、要約、自由形式のテキストの生成に使用できます。 MLベースの機能: これらはMLアルゴリズムに基づいたSQL機能であり、予測を導出するために使用されます。 Snowflakeのこれらのサービスにより、ユーザーはデータ

    Snowflake のAI戦略、Cortex LLM Functionsについて|鈴木いっぺい (Ippei Suzuki)
    sh19910711
    sh19910711 2024/04/05
    "Snowflake Cortex: すべての機能がAWSとAzureのすべての地域で利用可能というわけではありません + 処理されるトークンの数に基づいてコンピュートコストが発生 / 小さなウェアハウスを使用することをお勧め"
  • Snowflake Dynamic Tables による大規模ニアリアルタイム処理に向けた基礎検証 | TECH | NRI Digital

    1.はじめに Snowflake を用いたデータ分析基盤の構築案件が増えており、筆者も参画しています。近年では扱うデータ量として、RAWデータ、および、ETL処理を行うデータに関しては、100TBオーダーからPBオーダーになってきています。担当案件でも、1年間でETL処理のパイプラインを通過するデータの総量は約1PBという目標で進めています。 これだけのデータ量であっても、データの鮮度に関して、数年前から見ると高いレベルが求められている印象を受けます。担当しているプロジェクトでも目標値ではありますが、遅れが5分以内のニアリアルタイムでの鮮度を目指すという話が聞こえ始めました。 一方、SnowflakeのETL処理向けの新機能として、Dynamic Tables という機能がパブリックプレビューとして利用可能になっています。詳細は後続の章に記載しますが、データ変換の結果になる変換後テーブルを

    Snowflake Dynamic Tables による大規模ニアリアルタイム処理に向けた基礎検証 | TECH | NRI Digital
    sh19910711
    sh19910711 2024/04/04
    "Snowflake Dynamic Tables: ソースデータに更新がかかったときに、その変更を変換後テーブルにSnowflake側で自動で反映してくれる / サイズXSの場合、1.2GB/分あたりが、更新遅延5分以内を満たせるかどうかのボーダー" 2023
  • BigQuery DataFramesを使ってみる | DevelopersIO

    このデータをBigQuery DataFramesで扱います。内容としては{project_id}.data_set_test.jp_weatherのデータを使ってPandasで行う一般的な分析操作を行います。コードは以下になります。 import os import bigframes.pandas as bpd bpd.options.bigquery.project = os.environ.get("GOOGLE_PROJECT_ID") bpd.options.bigquery.location = "asia-northeast1" df1 = bpd.read_gbq("{project_id}.data_set_test.jp_weather") # df1 = bpd.read_gbq("SELECT * FROM {project_id}.data_set_test.j

    BigQuery DataFramesを使ってみる | DevelopersIO
    sh19910711
    sh19910711 2024/04/03
    "BigQuery DataFrames: pandas互換のPythonic DataFrameのbigframes.pandasモジュールとscikit-learnライクのbigframes\.mlモジュール / Pandasと同じ関数を使って分析を行うことができ非常に便利" 2023
  • Findyデータ基盤のアーキテクチャと技術スタック - Findy Tech Blog

    1. はじめに Findyでデータエンジニアとして働いている ひらき(hiracky16)です。 この記事ではFindyで取り組んでいるデータ基盤について紹介します。 Findyでは2023年からデータエンジニアを採用し格的にデータ基盤構築に着手しています。 これまではBigQuery(Google Cloud)を中心としたデータ蓄積・利活用をしていました。 今後もっとデータ分析機械学習などのデータ利用を加速するためにデータマネジメントが不可欠だと考えており、データエンジニアを採用しています。 まだ1人目のデータエンジニアがジョインしてから半年間くらいの取り組みですが、現時点のアーキテクチャや技術スタック、伸びしろや展望などを記します。 1. はじめに 2. これまでのデータ基盤の伸びしろ 3. 現状のデータ基盤アーキテクチャ 3.1. 番環境のIaC化と開発環境の準備 3.2. デ

    Findyデータ基盤のアーキテクチャと技術スタック - Findy Tech Blog
    sh19910711
    sh19910711 2024/03/26
    "dbtにクエリや知識を集約させるべくBigQueryのユーザーを巻き込み利用を促していましたが、なかなかモデル(テーブル)の数が増えませんでした / Dataformはブラウザで完結しBigQueryのメニューにある"
  • Dataplexの自動データ品質導入を始めた話 - FLINTERS Engineer's Blog

    はじめに こんにちは。 株式会社FLINTERS に出向中のおのきです。 この記事は 10 周年記念として 133 日間ブログを書き続けるチャレンジの 64 日目の記事です。 2 回目の投稿となりますが、現在データエンジニアとして広告データのデータウェアハウス(DWH)構築を行なっており、 そこでのデータ品質の導入までについて書いてみようと思います。 経緯と要件と検討結果 現在構築中のDWHは、DMBOKを参考にデータマネジメントに取り組みながらDWH構築を進めています。 その中で、メタデータの管理やデータアーキテクチャをGitHub(ソースコード)であったり、Google Cloudのサービスを用いて仕組み化しています。 また、構築メンバーは 4 人で新規のテーブル(データ)構築・運用をこなしており、 既存のDWHでの品質における課題を感じつつ、 少ないリソースで提供DWHの運用から品質

    Dataplexの自動データ品質導入を始めた話 - FLINTERS Engineer's Blog
    sh19910711
    sh19910711 2024/03/18
    "Dataplexの自動データ品質: 実行結果についてもCloud Loggingで抽出可能だったりモニタリングとアラートの情報を元に可視化なども進められる / チームで品質について考える機会が得られたり導入までのプロセスが楽しめた" 2023
  • BigQuery Emulator をアップデートしました - Route54

    BigQuery Emulator の v0.6.0 をリリースしました。 今回のリリースでは、Recidiviz社 の @ohaibbq さんが多大な貢献をしてくださいました。Recidiviz社ではかなり前から BigQuery Emulator を使ってくれているようで、以前から Issue や DM などでそのことを伝えてくれていましたが、@ohaibbq さんが今Qエミュレータの改善にコミットできるということで、 Recidiviz社側で fork して使っていたものに加えていた patch をたくさん送ってくれました。 かなり多くの改善が入っているので、以前エミュレータを試して動かなかったクエリを再度試す良い機会かなと思っています。 @ohaibbq さんからは、嬉しいことに今後も貢献してくださると言っていただけているので、今後の改善も速いペースで進んでいくと思います。素晴らし

    BigQuery Emulator をアップデートしました - Route54
    sh19910711
    sh19910711 2024/03/12
    "BigQuery: Google はエミュレータの開発に4年前くらいにやる気は見せていますが、その後何もアクションをとっていません / go-zetasql の cgo 依存をやめて、WebAssembly ベースのバインディングに移行しようとしています"
  • Snowflake上でRを使う: RStudioセットアップとShinyアプリケーションのデプロイ

    sh19910711
    sh19910711 2024/03/10
    "Rの良いところ: 専門的なライブラリ + ggplot2による作画 / RStudio・shinyともにSnowpark Container Serviceで動かすことができ / SPCS: サクッとコンピューティングリソースの変更が可能 + 顧客向けのアプリで利用するにはコストが"
  • Databricks SQLの新たなAI Functions - Qiita

    以前こちらを書いてから時間が経ってました。そして、気づいたら色々な関数が追加されてました。 新たに追加されたAI Functionsをウォークスルーします。

    Databricks SQLの新たなAI Functions - Qiita
    sh19910711
    sh19910711 2024/03/10
    "ai_extract: 指定されたテキストから指定されたラベルの固有表現を抽出 / ai_fix_grammar: 指定されたテキストの文法間違いを修正 / ai_mask: 実用性ありそう + 指定されたテキストで指定されたエンティティをマスキング"
  • [新機能]SnowflakeでMistral AI・LLaMA 2・Gemmaを用いたLLMが関数一つで簡単に使用可能に!Snowflake Cortex LLM Functionsを試してみた | DevelopersIO

    [新機能]SnowflakeでMistral AI・LLaMA 2・Gemmaを用いたLLMが関数一つで簡単に使用可能に!Snowflake Cortex LLM Functionsを試してみた さがらです。 日時間2024年3月5日の夜に、Mistral AI・LLaMA 2・Gemmaを用いたLLMが関数一つで簡単に使用可能となるSnowflake Cortex LLM Functionsがパブリックプレビューとなりました! 2024年3月6日6時の時点ではまだリリースノートに記載もありませんが、下記のMistral AI社とのパートナーシップのプレスリリースと併せて機能がリリースされたのだと思います。(記事内にMistral AI’s models are now available to customers in public preview as a part of Snow

    [新機能]SnowflakeでMistral AI・LLaMA 2・Gemmaを用いたLLMが関数一つで簡単に使用可能に!Snowflake Cortex LLM Functionsを試してみた | DevelopersIO
    sh19910711
    sh19910711 2024/03/10
    "Snowflake Cortex LLM Functions: Mistral AI・LLaMA 2・Gemmaを用いたLLMが関数一つで簡単に使用可能 / EXTRACT_ANSWER: 与えられた質問に対する答えをテキストから抽出 / コスト: token(文字数)に応じて + 使用するウェアハウスのコストとは別"
  • dataformからdbtに移行するために調べたこと - Retty Tech Blog

    コトの発端 実現したい分析基盤 Rettyの分析基盤 dbtにまとめて、こうしたい dataformでやっていたこと 使ったdbtの機能は、incrimental modelのThe insert_overwrite strategy 実際にやったコト merge intoで指定する任意のパーティション設定 incremental modelのinsert_overwriteの設定 incremental時のwhere句 感想 サンプル コード 挙動 N日に実行 N+1日に実行 この記事Retty Advent Calendar 2023 - Adventarの24日目の記事です。 2023年4月に入社した土田です。 コトの発端 こんなメールが来た。 半年後にdeprecated。まじか。 実現したい分析基盤 前述の通りRettyではdataformを使って、DWH内の物理テーブルを更新し

    dataformからdbtに移行するために調べたこと - Retty Tech Blog
    sh19910711
    sh19910711 2024/03/10
    旧dataform => dbt / "分析基盤はdbtでデータガバナンスをしていることからdbtでできるならdbtに移行しよう!となりました / on_schema_changeを設定すると、schemaが変更されたことをエラーで教えてくれる" 2023
  • BigQueryでクエリを書いたときにハマった罠集 - 唯物是真 @Scaled_Wurm

    自分がなんとなくBigQueryのクエリを書いていてハマった罠について列挙しておきます。 ドキュメントをちゃんと読めば書いてあったりするのですが、普段はそこまで細かく見てなかったりするんですよね……。 BigQueryのカレンダー | Advent Calendar 2023 - Qiita の16日目の記事です。 CAST(value AS INT64) は切り捨てではない 他のプログラミング言語などをやっているとなんとなく整数型にキャストすると切り捨てのような気がしてしまいますがBigQueryは違います。 四捨五入的な挙動になります。 SELECT CAST(1.5 AS INT64) -- => 2 Returns the closest integer value. Halfway cases such as 1.5 or -0.5 round away from zero. h

    BigQueryでクエリを書いたときにハマった罠集 - 唯物是真 @Scaled_Wurm
    sh19910711
    sh19910711 2024/03/09
    "CAST(value AS INT64) は切り捨てではない / WITH RECURSIVE は再帰的なWITH句を書くための記法ですが、これを使うとWITH句の結果がマテリアライズされるので一旦テーブルを作るのと同様の効果" 2023
  • GCP版Dataformで冪等性を担保する設計ポイント3つ - TVer Tech Blog

    データエンジニアの遠藤です。 TVer Advent Calendar 2023の24日目の記事になります。 はじめに 年(2023年)、Google Cloudのビッグデータ基盤として展開されるBigQueryでは、データガバナンスツールであるDataformがGA(Generally Avaialble)になりました。 cloud.google.com このDataformの登場により、BigQuery上でデータを利活用しやすいように変換する(データマートを生成する)システムの構築が容易になりました。 記事では、Dataform上において、定常実行やリトライ実行を容易にするために、冪等性が担保される設計のテクニックを3点紹介します。(Dataformの基的な使い方については触れませんのでご注意ください) 1. SQLX内のクエリに変数を用いる DataformSQLXと呼ばれる

    GCP版Dataformで冪等性を担保する設計ポイント3つ - TVer Tech Blog
    sh19910711
    sh19910711 2024/03/08
    "定期的な実行はDataform APIから / リクエスト情報を適切に設定することで、dataform.json内の設定をオーバーライドして実行することが可能 / pre_operations項目を設けてそこにDELETE文を設定" 2023
  • Pub/SubのBigQueryサブスクリプションの書き込みレイテンシを計測する

    概要 Pub/SubからBigQueryに直接ストリーミングインサート可能なBigQueryサブスクリプションの書き込みレイテンシを計測したので、計測方法と結果を残します。 BigQueryサブスクリプションとは メッセージキューであるPub/SubからBigQueryに直接データをストリーミングインサートできるサービスです。 このサービスを使うことで、DataflowやCloud Runなどのサブスクライバーを挟まないシンプルな構成のストリーミングデータパイプラインを構築可能です。 間にサブスクライバーを挟まないので、生データをそのままBigQueryに書き込むことしかできません。 計測対象 今回の計測対象は、Pub/SubのBigQueryサブスクリプションからBigQueryへ書き込まれるまでです。 データソースで、データが発生してからBigQueryへ書き込まれるまでの時間ではあり

    Pub/SubのBigQueryサブスクリプションの書き込みレイテンシを計測する
    sh19910711
    sh19910711 2024/03/07
    "サブスクリプションで、Pub/SubからBigQueryに直接ストリーミングインサートした場合の書き込みレイテンシは、平均561ミリ秒と優秀 / 「メタデータを書き込む」オプションを選択すると、いくつかのメタデータが記録される"
  • BigQuery における、ベクトル検索とベクトルインデックス機能

    はじめに こんにちは。クラウドエース データソリューション部所属の 髙根 です。 クラウドエースの データソリューション部 では、IT エンジニアリングを担うシステム開発部の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門としています。 データソリューション部の活動の一環として、Google Cloud が提供しているデータ領域のプロダクトについて、新規リリースをキャッチアップするための調査報告会を毎週実施しています。 新規リリースの中で、特に重要と考えるリリースをページ含め記事として公開しています。 今回ご紹介する内容は、2024年 1 月 31 日 にプレビュー段階となった BigQuery における ベクトル検索 と ベクトルインデックス の機能追加についてです。 BigQuery の概要 BigQuery は、Google Cloud

    BigQuery における、ベクトル検索とベクトルインデックス機能
    sh19910711
    sh19910711 2024/03/02
    patents-public-dataに埋め込みが入ってるのか / "CREATE VECTOR INDEX: インデックスが作成されたカラムのみが処理バイト数に含まれます / fraction_lists_to_search: 再現率と検索速度の間のトレードオフを制御"
  • ついにGAした Redshift と Aurora の Zero-ETL でニアリアルタイム連携 - Qiita

    [1] はじめに Zero-ETL統合とは? OLTP系DBとOLAP系DWHはそもそも役割が違うので、従来はOLTP DBに蓄積されてたデータをDWHにデータ連携するETLが必要だった この連携は結構大変で、要件に応じて例えばGlue、DMS、Kinesys、MWAA、StepFunctionsなどなどいろいろなサービスを組み合わせて実現する必要があった この煩雑な工程をなくして、ニアリアルタイムでデータ自動連携しようというAWSの構想がZero-ETL Zero-ETLの範囲や実現方法はいろいろある https://aws.amazon.com/jp/what-is/zero-etl/ OLTP系DB〜DWH(Redshift)に着目すると、2023年12月時点で以下のDB間のZero-ETL統合ができる。 Aurora MySQL → Redshift(GA) Aurora Post

    ついにGAした Redshift と Aurora の Zero-ETL でニアリアルタイム連携 - Qiita
    sh19910711
    sh19910711 2024/02/29
    "Zero-ETL: 従来のFedereated Queryとかとは全く異なり、HWレイヤーレベルでDB間のデータがフルマネージドで同期 / マテリアライズドビューも作成できた / ストレージ単価はRedshiftはAuroraの 1/5 〜 1/10 くらい" / 2023
  • BigQuery ML の自然言語処理機能でどんなことができるか・どう実行するか?|畳屋民也

    マネーフォワードケッサイの tamiya です。 この記事では、前回に引き続きスリランカカレーの魅力について BigQuery ML で提供されている自然言語処理機能について紹介します。 BigQuery ML(以下、BQML)は、BigQuery (以下、BQ)上で通常の SQL を拡張したクエリを用いて機械学習タスクを行うことができる機能です。 以前の記事で概要と基的な使い方を紹介しましたが、BQML はデータ加工〜モデル作成・予測実行までが BQ 上で完結するという強力なメリットがありました。 また、回帰・分類に加えて、時系列予測・クラスタリング・レコメンドなど標準的な機械学習アルゴリズムが一通り揃っている点も嬉しいポイントです。 そこで今回は、BQML の自然言語処理機能でどのようなことが行えるか、どのように使うかについて紹介していこうと思います。 BQML の自然言語処理機能で

    BigQuery ML の自然言語処理機能でどんなことができるか・どう実行するか?|畳屋民也
    sh19910711
    sh19910711 2024/02/25
    "BigQuery ML: 生成 AI 含む自然言語処理機能も急速に充実 / ML.UNDERSTAND_TEXT + CLASSIFY_TEXT: 入力テキストのカテゴリを推定 / ほかにも、固有表現分析や構文解析など / 入力文字数単位で課金 + だいたい1,000文字あたり $0.0005 ~ $0.0020"
  • Embulk で Snowflake からデータを読み込む embulk-input-snowflakedb を公開しました - estie inside blog

    こんにちは、スタッフエンジニアの @kenkoooo です。Embulk で Snowflake からデータを読み込む embulk-input-snowflakedb をオープンソースとして公開しました。 github.com Embulk とは? データをロードするすごい OSS です。プラグイン形式でデータの入力や出力を定義することができるため、各種 SQL や BigQuery などだけでなく、スプレッドシートやアクセス解析など様々な入力元・出力先に対応しています。 公式サイト: Embulk Snowflake とは? データを集めたり加工したりするデータプラットフォームです。estie でメッチャ流行ってます。 dbt-snowflake のテストフレームワークを作った話 - estie inside blog estie にデータを使って意思決定したいことが 62 個もある話

    Embulk で Snowflake からデータを読み込む embulk-input-snowflakedb を公開しました - estie inside blog
    sh19910711
    sh19910711 2024/02/11
    "Embulk を使って Snowflake からデータを読み込むプラグインが存在しない / embulk-input-jdbc: あくまで一般的な JDBC ドライバーに対応 + Snowflake 特有のキーペア認証などには一部のみしか対応していません"
  • BigQueryとDocumentAIを使ってスタバのレシートを読み取ってカロリー計算してみた話 - Qiita

    これを元にフィールドを作成すると以下のようになります。 ここでitemというラベルの配下にamount〜priceまでありますが、1つの親フィールドに対して、複数の子フィールドを関係付けることができます。これにより、データ項目をまとめて扱うことができるようです。 2. データセットの作成・アノテーション 次にCloud Storageから画像をデータセットとして扱えるようにDocumentAI側にインポートします。 今回はあらかじめ写真で撮っておいたレシートの画像をCloud Storageに配置してあります。 DocumentAIの左のタブの「ビルド」を押すと以下のような画面に遷移します。 青ボタンの「ドキュメントをインポート」を押すとインポートする際の条件を指定することができます。 事前に用意したバケットを指定します。この段階ではデータ分割(トレーニング用データかテスト用データか)の選

    BigQueryとDocumentAIを使ってスタバのレシートを読み取ってカロリー計算してみた話 - Qiita
    sh19910711
    sh19910711 2024/01/30
    "BigQueryからSQLだけを用いて画像から情報を抜き出せるという近未来的な機能がリリース / レシートの写真から購入商品の名前の情報を抜き出して、商品マスタテーブルと突き合わせてカロリー計算 / 結果は3,061kcalでした"
  • BigQueryでクエリ一撃で29万円溶かしたけど助かった人の顔

    SolanaのPublic DataをBigQueryで取得したかった# えー、お笑いを一席. ブロックチェーンSolanaのデータがGoogle Cloud BigQueryで使えるようになったというニュースをたまたまネット推薦記事でみかけた1. おや, 面白そうだ. ちょっとやってみようかな… BigQueryはさわるのが1年以上つかってないかも, どうやるんだっけ… とりあえずカラムとかサンプルでちょっとデータをみたいよな, こんな感じだっけか? とりあえず動かしてみよう, ポチッとな. … 5秒でレスポンスが帰ってくる. おー、速い. えーっと, あれ課金データ309TB?! いちげきひっさつ、ハサンギロチン2. BigQueryでクエリ一撃5 秒で29万円溶かした人の顔# 話題の画像生成AI, DALL・Eをつかって BigQueryでお金溶かした人の顔を表現してもらった3. あ

    sh19910711
    sh19910711 2024/01/29
    "SolanaのPublic DataをBigQueryで取得したかった / 5秒でレスポンスが帰ってくる. おー、速い. えーっと, あれ課金データ309TB / 心の動揺を落ち着けるために父親に電話" / 2023