タグ

Snowflakeに関するmasutaka26のブックマーク (25)

  • Snowflake×Tableau:パフォーマンス・コストの最適化テクニック集

    この記事は何 代表的なデータウェアハウスの1つであるSnowflakeと、代表的なセルフBIツールの1つであるTableauのコラボレーションはとても強力です。 一方で、SnowflakeにTableauから大量アクセスされることへのコストの懸念を抱えたり、ライブ接続の環境下でダッシュボードのパフォーマンスを出すことに苦戦する方もいると思います。 そこで、今回はSnowflakeとTableauを最大限活用するために、Tableau側・Snowflake側両方の視点から、パフォーマンスとコストの最適化に使えるテクニック集を紹介します。 1. Tableau側で出来る対策 まず最初は、Tableau側で出来る対策です。Tableau側は、Snowflake側へのクエリの実行数を減らすことが基的な対策と言えます。 1-1. 抽出を利用する まず最初は Tableauの抽出の利用です。ライブ接

    Snowflake×Tableau:パフォーマンス・コストの最適化テクニック集
  • Snowflakeの論文「The Snowflake Elastic Data Warehouse」を読んでみた_Part1

    Snowflakeの論文「The Snowflake Elastic Data Warehouse」を読んでみた_Part1 目次 はじめに 注意事項 1. INTRODUCTION 2. STORAGE VERSUS COMPUTE 3. ARCHITECTURE 3.1 Data Storage 3.2 Virtual Warehouses 3.3 Cloud Services 感想 はじめに この記事は、最近読んだSnowflakeの論文「The Snowflake Elastic Data Warehouse」の内容を備忘的に残したものです。 ※ Part2も近いうちに公開予定 論文は以下にて公開されていますので、誰でも読むことができます。 この論文を読んだ動機としては、「Snowflakeってなんで早いの?」とか「他のDWHやDBとどう違って何が優れているの?」という問いに対して

    Snowflakeの論文「The Snowflake Elastic Data Warehouse」を読んでみた_Part1
  • 社内向けStreamlitのデプロイの現実解

    結論 社内データを扱うアプリケーションを安全にデプロイするならCloudflare Tunnel,Cloudflare Accessを使う。要件次第ではStreamlit in Snowflakeも使える。 はじめに Streamlitはデータアプリケーションを短時間で作成できる便利なツールですが、社内データを扱うアプリケーションをデプロイする際は外部からの不正アクセスを防ぐように厳重な注意が必要です。 にもかかわらず、Streamlitを安全にデプロイする成熟した方法はまだありません。 記事では、最も単純なStreamlitのデプロイ構成の例から問題点を再確認し、それらを解決する方法を順に説明します。ただし、記事で紹介する構成を使うにはドメインのネームサーバーがCloudflareである必要があることに注意してください。 単純な構成はどう危険なのか? まずは非常に単純なStreaml

    社内向けStreamlitのデプロイの現実解
  • Snowflakeでリソースモニターを設定してみた - Qiita

    ・消費されたクレッジット数に、クレジット価格を掛けて計算される ・クレジットを消費するリソースは下記の通り ・仮想ウェアハウスコンピューティング ・サーバレスコンピューティング ・クラウドサービスコンピューティング 概要 Snowflakeでのコスト管理を元に整理します。 コスト管理のフレームワーク Snowflakeのコスト管理は、下記の3つに分けられるとのことです。 Control Visibillity Optimization ※ 出典:コスト管理のフレームワーク 総コストについて 総コストについてを元に整理します。 コストの発生について Snowflakeを使用する総コストは、データ転送、ストレージ、およびコンピューティングリソースを使用するコストの合計です。Snowflakeの革新的な クラウドアーキテクチャ は、タスクを達成するためのコストをこれらの使用タイプのいずれかに分類

    Snowflakeでリソースモニターを設定してみた - Qiita
  • 列ストア形式のDBはなぜ分析ワークロードに適しているのか

    行ストアの場合 テーブルが行ストア形式で書かれている場合、各行のデータは一緒に保存されます。この図では、2019年シーズンの0~17歳のグループのデータをブロック1に配置しています。この形式は、コンピュータ・システムが新しいデータを新しいブロックに書き込むことでテーブルに追加できるため、トランザクション作業には最適です。しかし、「2019年シーズン、全年齢層の平均入院率はどのくらいか」という質問に関心がある場合、システムは2019年のデータを含む各ブロックを読み込む必要があります。この単純化した例では、3ブロックのデータを読み込む必要があります。この保存方法は、多くのデータ行の要約を必要とすることが多い分析ワークロードでは、比較的時間がかかる可能性があります。 列ストアの場合 カラム・ストア形式では、カラムのデータをまとめて保存します。例えば、年の列のデータは図のブロック1に示されています

    列ストア形式のDBはなぜ分析ワークロードに適しているのか
  • Snowflake Access Management - Titan

  • SnowflakeのDynamic Table(プレビュー機能)でドツボにハマった話 - Qiita

    はじめに お世話になっております。primeNumberの庵原です。 三寒四温の候、皆様いかがお過ごしでしょうか。 今回はSnowflakeの利用でDynamic Table(動的テーブル)の仕様をちゃんと理解せず安易に利用した結果、クレジットを浪費してしまった話を共有できればと思います!この話を持ってDynamic Tableと正しく付き合っていただきたいと思い、啓蒙の意味も含んでおります🙇‍♂️ ※注意点として、SnowflakeのDynamic Tableは2024年3月現在プレビュー機能であるため、今後のアップデートによっては仕様が変更される可能性がある点はご留意ください。 (プレビュー機能を色々試してみたかったんじゃぁぁ) そもそもDynamic Tableって何? (少々長いので、すでに知ってるよ〜という方は読み飛ばしていただいて問題ないです!) データ基盤を構築している際に

    SnowflakeのDynamic Table(プレビュー機能)でドツボにハマった話 - Qiita
  • 2024年、Snowflake Terraformがこう生まれ変わる!

    github.com/Snowflake-Labs/terraform-provider-snowflake の2024年のロードマップが公開されました。 今後、どのように変更されそうか?またどのように付き合っていくべきかが見えるようになったので、私なりの見解をまとめてみようと思います。 ちなみに、元々はSnowflake Providerは公式が開発しているものではなく、ユーザーが作成したツールという体裁でスタートしていました。 現在では、contributorsにSnowflake社員が名を連ねていますが、過去を遡れば一般ユーザーが開発を担当していた背景があります。 そこから公式のツールとして開発体制が整備された結果、長期的にメンテナンスする上では避けては通れない破壊的変更を含む設計の見直しが進められるに至った、という経緯があります。 ロードマップの内容 原文: ROADMAP.md

    2024年、Snowflake Terraformがこう生まれ変わる!
  • ゼロから始めるデータ基盤 - Snowflake実践ガイド

    組織におけるデータ利活用が急速に拡大する中、データ基盤への関心がますます強まっています。 書では、現役のデータエンジニア2名が、クラウドデータ基盤サービスであるSnowflakeを用いてデータ基盤の構築方法を紹介します。 データ利活用のみならず、大規模なデータ処理や、機械学習におけるデータパイプライン構築などに興味のあるエンジニアの方へのガイドブックとなることを目指しています。 フロント・サーバー・インフラを触ってきたエンジニアの皆さん、次はデータやりましょう!! 第1章:データ基盤の概観 データ基盤とはどういったもので、どのような技術で構成されるのかについて紹介します。 第2章:Snowflakeの基礎 クラウド型データウェアハウスサービスであるSnowflakeで出来ることと、特徴について紹介します。 第3章:Snowflakeの導入と操作 実際にSnowflakeのトライアルに登録

    ゼロから始めるデータ基盤 - Snowflake実践ガイド
  • Snowflakeのロール・権限に関するルールとプラクティス

    前書き Snowflakeをデータウェアハウスとして利用し、プロダクトを開発しているソフトウェアエンジニアです。 普段はSnowflakeに関係するデータ基盤の設計から開発などの業務を行なっています。 SnowflakeのリソースはTerraformで管理したり、CIなどの設計など全般業務に取り組んでいます。 Snowflakeのアクセス制御方法 Snowflakeでは、「オブジェクトごとのアクセス制御」と「ロール」という概念でアクセス制御を行なっています。 任意アクセス制御(DAC): 各オブジェクトに所有者がおり、所有者はそのオブジェクトへのアクセスを許可できます。 ロールベースのアクセス制御(RBAC): アクセス権限がロールに割り当てられ、ロールはユーザーに割り当てられます。 ドキュメントにも書いてあるように、以下の4つの概念を理解してロール設計と権限付与を正しく行えば、安全で堅牢

    Snowflakeのロール・権限に関するルールとプラクティス
  • Snowflake初心者向け教育の実践比較② - Qiita

    こんにちは。 オンプレ業務SEからデータエンジニアへのキャリアチェンジ目指して奮闘中のアラフォーです。 前回に引き続き、Snowflakeの初心者向け教育についてご紹介します。 Snowflake University が提供する Hands-On Badgesコースを一通りやってみました! <(参考)前回の記事はこちら> 取り組んだ教材(すべて無料) 取り組んだ順に並べます。 Snowflake チュートリアル: 「Snowflake入門-ゼロからはじめるSnowflake」 Snowflake University: 「Hands On シリーズ (Badge 2: Data Application Builders Workshop )」 Snowflake University: 「Hands On シリーズ (Badge 3: Sharing, Marketplace, & Ex

    Snowflake初心者向け教育の実践比較② - Qiita
  • Snowflake初心者向け教育の実践比較 - Qiita

    初めまして。 オンプレ業務SEからデータエンジニアへのキャリアチェンジ目指して奮闘中のアラフォーです。 クラウド知識ゼロだった私が、試行錯誤しながらSnowflakeの勉強を始めたので、 現在までに取り組んでみた教材を紹介したいと思います。 これからSnowflake始めてみたいという方の参考になれば・・・! 取り組んだ教材(すべて無料) 取り組んだ順に並べます。 AWS Skill Builder: 「AWS Cloud Practitioner Essentials (Japanese) (Na) 日語実写版」 Snowflake チュートリアル: 「Snowflakeを20分で紹介」 Udemy: 「ゼロから始める「Snowflake」最速入門コース」 Snowflake University: 「Level Up シリーズ (101~109)」 Snowflake Univers

    Snowflake初心者向け教育の実践比較 - Qiita
  • Snowflake ワークシートを Git で共有&管理する試み

    はじめに Snowflake でアドホックな集計やクエリ調査、リカバリ作業をしたときのワークシートを、チーム内で共有することがよくあります。そう、よくあるんです。結構頻繁に発生するのです。 そんなとき、ワークシートでの操作1つで共有できるのはとても便利ですよね。 しかしながら、アカウントを超えてワークシートを共有したいときって、あるじゃないですか? そんなときに便利そうなパッケージがこちら。 Snowflake ワークシートを Git でバージョン管理するためのパッケージです。このパッケージをちょっと使ってみたので、ご紹介します。

    Snowflake ワークシートを Git で共有&管理する試み
  • Snowflake×Tableau:クエリ履歴にダッシュボードのメタデータを紐付ける

    この記事は何 TableauのデータソースでSnowflakeをライブ接続で利用し、従来では考えられなかった規模感のデータをTableauで扱うことが増えてきました。しかし、そのような利用が進むと、コスト管理やガバナンスの観点から、各クエリの発生元のワークブックなどをなるべく詳細に把握しておきたくなるケースがあると思います。 そこで、今回は、Snowfalkeのクエリ履歴テーブルSNOWFLAKE.ACCOUNT_USAGE.QUERY_HISTORYにあるQuery Tagの情報を使って「各クエリがTableau Cloudのどのダッシュボードやワークブックから発行されているのか」をQuery IDレベルで分かるようにする方法を紹介します。 TableauのQuery TaggingとSnowflakeのQuery Tag 今回は、Tableauのネイティブ機能であるQuery Tagg

    Snowflake×Tableau:クエリ履歴にダッシュボードのメタデータを紐付ける
  • Tableau Bridge で Snowflake に PrivateLink を使って接続してみた | DevelopersIO

    Snowflake は SaaS 製品ですが、各クラウドサービスとのプライベート接続にも対応しており、AWS であれば AWS PrivateLink を利用できます。Tableau Cloud と組みあわせて使用する場合、プライベートネットワークからアクセスするために Tableau Bridge を使用できます。Tableau Bridge を使用したデータソースのパブリッシュまで試してみましたので、記事にしました。 前提環境 以下の環境と構成で検証しています。 Snowflake:Business Critical エディション ※PrivatLink の設定には Business Critical 以上のエディションが必要 Tableau Cloud Tableau Bridge:2023.2.3 Tableau Desktop2023.2.3 AWS リージョン:ap-nort

    Tableau Bridge で Snowflake に PrivateLink を使って接続してみた | DevelopersIO
  • GA4もSnowflakeで分析する時代がついに来たぞ!

    2024年1月29日、GA4とSnowflakeの公式コネクタがリリース(プレビュー)されました。 ついに、GA4もSnowflakeで分析する時代がやってきました。 GA4×Snowflakeの組み合わせがやっとプロダクション運用可能なレベルに到達したのです。 これは今回のコネクタリリースでGA4のプロパティ取り込みパイプラインの運用コストが圧倒的に下がったことに起因します。 公式コネクタのリリース以前からGA4をSnowflakeに取り込むことは可能でしたが、その運用を継続することは様々な観点から困難でした。 この記事では、従来の取り込みソリューションと、最新の公式コネクタを比較して4つの観点から素晴らしい部分を解説します。 GA4のデータの取り込みが容易になった 取り込み後のデータの冗長な変換が不要になった 取り込みの金銭的コストが圧倒的に低くなった GA4のデータ取り込みに公式サポ

    GA4もSnowflakeで分析する時代がついに来たぞ!
  • SnowflakeでAWS S3 Express One Zoneを使うとどれだけ速いのか

    SnowflakeでAWS S3 Express One Zoneを組み合わせて、パフォーマンスと互換性を検証したので結果を共有する。 互換性テストが通らなくても、一部の機能は使用できるようだ。 結論 読み取り系のワークロードでは、最大16%ほどのクエリパフォーマンスの改善が見られた。 ただし、現時点では、スタンダードなS3バケットからExpress One Zoneへ移行する必要はない。 現時点では移行するメリットをデメリットが上回る。 まず、書き込み系の操作はエラーで実行できない。 また、LISTなどバケット全体のスキャンを行うクエリでは、最大20倍も遅くなった。 全体的にSnowflakeの内部のコードがExpress One Zoneを想定していないようでエラーが頻発した。 未サポートなので当然だが日常的な使用は厳しい。 SnowflakeでExpress One Zoneを活用し

    SnowflakeでAWS S3 Express One Zoneを使うとどれだけ速いのか
  • SnowflakeとAWS S3 Express One Zoneの相性が気になった

    Express One ZoneとSnowflakeの相性が気になった 昨年12月にAWS Express One Zoneが発表された。 新しい Amazon S3 Express One Zone ストレージクラスは、S3 標準ストレージクラスの最大 10 倍のパフォーマンスを実現しながら、一貫した 1 桁ミリ秒のレイテンシーで毎秒数十万のリクエストを処理できるように設計されています。 当ならSnowflakeの外部ステージに使えば爆速外部テーブルができるのでは。 [1/13追記] 使えそう テストケースが通らなくても一部機能は使えるようだ。 以下の記事で検証した。 [1/12]現時点ではSnowflakeの外部ステージでは使えなさそう テストケースが通らない。 [ERROR] Errors: [ERROR] S3CompatApiTest.copyObject:360->uploa

    SnowflakeとAWS S3 Express One Zoneの相性が気になった
  • [Snowflake]クレジットの使用状況だけ確認できるユーザを作成する | DevelopersIO

    はじめに Snowflakeは、[アカウント]タブ-[使用状況]の画面でクレジットの使用状況が確認できます。 この画面を表示するためには、ユーザにACCOUNTADMINロールの付与が必要です。しかしACCOUNTADMINロールはアカウント内で全ての操作を実施できるため誤操作の危険も伴います。そこで「クレジットの使用状況だけ確認できるユーザ」を作成する方法を紹介します。 「クレジット使用状況だけ確認できるユーザ」を作成する方法 基方針 クレジット使用状況を確認できる権限はMONITOR USAGEです。 アクセス制御権限-すべての権限(アルファベット順) | Snowflakeドキュメンテーション ACCOUNTADMINロールはこのMONITOR USAGE権限を含んでいるため、クレジットの使用状況が確認できます。 ウェブインターフェイスでのアカウントレベルのクレジットとストレージ使

    [Snowflake]クレジットの使用状況だけ確認できるユーザを作成する | DevelopersIO
  • 【連載】データ分析基盤をdbt・Snowflakeに移行する【設計・実装編】 - Algoage Tech Blog

    こんにちは、Ops-dataチームの上村(@contradiction29) です。以前、弊社内で運用されているデータ分析基盤を移行するにあたり、設計の方針を練る記事を投稿しました。 tech.algoage.dmm.com 今回はその続きとして、移行プロジェクトの実際の進行に焦点を当てて記事を書いていきたいと思います。 はじめに これまでのあらすじ:運用していく中でつらみがたまってきた弊社のデータ分析基盤。開発しづらいし、運用もつらいし、何よりこのまま運用を続ければ確実に停止してしてしまう。End of Service Life (EOSL) は目前に迫っています。移行するしかない状況です。 とはいっても、単純に移行するだけでは、現場のアナリストやエンジニア、社内ユーザー、そしてその先にあるクライアントのニーズに応え、事業価値に貢献することはできません。真の「価値」に貢献するためには「思

    【連載】データ分析基盤をdbt・Snowflakeに移行する【設計・実装編】 - Algoage Tech Blog