タグ

snowflakeに関するtgkのブックマーク (19)

  • Snowflake を使うときに初心者に気をつけてほしいこと - Qiita

    この記事はSnowflakeアドベントカレンダーの10日目の記事です。 今日は私が Snowflake を使いはじめて失敗したことを中心に、不幸な事故を繰り返さないために初心者の方に気をつけてほしいことを書こうと思います。 スピル見てない Snowflake ってとっても高速にクエリを実行してくれるので、ついついプロファイルを見るのをサボったりしてしまいますよね? これは架空の話なんですが… あるとき、めっちゃクエリが遅かったんです。 あー、遅いねーって思ってた。 よーく、プロファイルを見ると、スピルの数字がめっちゃ増えていたわけですよ。 うーん?スピルってなんだっけ? When Snowflake cannot fit an operation in memory, it starts spilling data first to disk, and then to remote sto

    Snowflake を使うときに初心者に気をつけてほしいこと - Qiita
  • Snowflakeに中森明菜データレイク(通称NADL)を構築しました | DevelopersIO

    大阪オフィスの玉井です。 題名の通り、極めて先進的な(?)データレイクの構築に成功したので、当記事にて詳細をお伝え致します。 概要説明 NADL(Nakamori Akina Data Lake)とは? 日が誇る歌姫である中森明菜氏の(ほぼ)全ての楽曲に関するデータを保存したデータレイクです。 SnowflakeはDWHのイメージが強いですが、データレイクを構築・運用する機能を備えています。今回、Snowflakeのデータレイク周りの機能を活用して、NADLを構築しました。 構築作業の流れ SpotifyのAPIから中森明菜の楽曲データを取得する 楽曲データの取得には Get Track’s Audio Analysisを使用 取得した楽曲データをGoogle Cloud Storage(GCS)にアップロードする 上記のGCS(のバケット)をSnowflakeの外部ステージとして連携す

    Snowflakeに中森明菜データレイク(通称NADL)を構築しました | DevelopersIO
  • BigQuery と Snowflake を徹底比較

    最初にBigQueryとSnowflakeの概要と、登場の背景を説明します。 その後、ユーザにとっての使い勝手と、管理者にとっての使い勝手を、ベンダーフリーな立場でそれぞれします。 最後に、BigQueryとSnowflakeどっちが速いのか?といった疑問に対して、アーキテクチャをもとに考察します。

    BigQuery と Snowflake を徹底比較
  • Snowflakeの料金をなるべくわかりやすく説明するチャレンジ

    個人のやつです。2022年12月16日時点の内容。なるべく慎重に書いてますが、お金に関わることですし、必ず最新の公式ドキュメントでご確認ください はじめに Snowflakeの料金って、いわゆる AWS等のパブリッククラウドの課金方式をほぼ踏襲してるんですが、改めてわかりやすく説明しようとチャレンジしてみます。これから使う方向け AWS等のパブリッククラウドの料金を理解してる方は、「(参考)いわゆるパブリッククラウドの課金」は読み飛ばして、いきなり「Snowflakeの料金」から読んでください。超急ぎの方は「Snowflakeの料金まとめ」からでもOKかも?(結局最後はスライド作ってしまった…) (参考)いわゆるパブリッククラウドの課金 (参考)いわゆるパブリッククラウドの課金 知ってる人は読み飛ばしてください! ざっくりいうと「必要なときに、必要なだけ、使った分だけの従量課金」ってやつで

    Snowflakeの料金をなるべくわかりやすく説明するチャレンジ
  • 超ざっくりマイクロパーティション紹介

    記事は、Snowflake Advent Calendar 2022 の 12 日目です。 はじめに Snowflakeのアーキテクチャの中でも、最も特徴的なアイディアの一つであるマイクロパーティションについて、知らない人向けにイラスト多めで紹介します。また、関連の深いタイムトラベル、ゼロコピークローンにも触れます。 初めての記事投稿なので、温かい目で見守っていただけると幸いです。 Snowflakeのアーキテクチャのおさらい Snowflakeのアーキテクチャは、3層構造で説明されます。 クラウドサービス層 コンピュート層 ストレージ層 こちらの同心円の図を見たことある方多いかと思います。(最近、公式ではあまし見かけない気がしないでもない) 引用: S-1 Snowflake Inc. p.84 個人的に、この図は少しばかり伝わり難い気がしてて、自分で描いてみたのが下図になります。(め

    超ざっくりマイクロパーティション紹介
  • Snowflakeで設定した方が良いことのチェックリスト

    前書き Snowflakeをデータウェアハウスとして利用し、プロダクトを開発しているソフトウェアエンジニアです。 普段はSnowflakeに関係するデータ基盤の設計から開発などの業務を行なっています。 SnowflakeのリソースはTerraformで管理したり、CIなどの設計など全般業務に取り組んでいます。 Snowflakeは非常に使いやすく優れた「データウェアハウス」だと思いますが、デフォルトで設定されているパラメータなどが自分のプロダクトに適していないものがあり、次に初期構築を行う場合に確認した方が良いと自分が思っていることをメモとして公開します。 すでに運用を始めているプロダクトでも、一度確認してみることをお勧めします。 チェックリスト ABORT_DETACHED_QUERYの値をtrueに設定する 「Warehouse」の各種設定を変更する デフォルトタイムゾーンの修正 da

    Snowflakeで設定した方が良いことのチェックリスト
  • Unistore:1つのプラットフォームでトランザクションデータと分析データを組み合わせるSnowflakeの新しいワークロード

    注:記事は(2022年6月14日)に公開された(Introducing Unistore, Snowflake’s New Workload for Transactional and Analytical Data)を翻訳して公開したものです。 最新のワークロード、Unistoreで、Snowflakeがまたもやデータ管理とデータ分析に変革をもたらしました。数十年の間、トランザクションデータと分析データと分析データは分離されたままであり、ビジネスが進化するスピードを著しく低下させていました。Unistoreでは、1つに統合されたデータセットを使用してアプリケーションを開発、デプロイでき、トランザクションデータと分析データをまとめてほぼリアルタイムで分析できます。 データサイロを排除すると、大規模なデータの分析速度が上がったり、データコラボレーションの世界が変わったりといった影響を実感で

    Unistore:1つのプラットフォームでトランザクションデータと分析データを組み合わせるSnowflakeの新しいワークロード
    tgk
    tgk 2022/09/19
    ハイブリッドテーブルとは>「まったく新しい行ベースのストレージエンジンを開発しました。これにより、...トランザクションアプリケーションをSnowflakeに直接構築できるようになりました」
  • Salesforce and Snowflake Expand Partnership with Real-Time Data Sharing

    tgk
    tgk 2022/09/19
    「Salesforce CDPとSnowflakeの間でデータをリアルタイムで安全に共同作業できるようになり、従来の同期方法によるリスク、コスト、および問題を最小限に抑えることができます」>CDPのバックエンドがSnowflakeになるの?
  • Snowflakeのアーキテクチャはどうなっているか 圧倒的なスケーラビリティを実現するクラウドネイティブ設計思想

    Snowflakeのアーキテクチャはどうなっているか 圧倒的なスケーラビリティを実現するクラウドネイティブ設計思想:Snowflakeで何ができる? 基礎情報解説(3) 過去2回の記事でSnowflakeとは何か、何ができるかを見てきました。今回はSnowflakeの特長を裏付ける実装とクラウドネイティブな設計思想を見ていきます。

    Snowflakeのアーキテクチャはどうなっているか 圧倒的なスケーラビリティを実現するクラウドネイティブ設計思想
  • Notes on Snowflake’s new paper: Building an Elastic Query Engine on Disaggregated Storage

    tgk
    tgk 2021/06/02
    Snowflakeはテナント間でノードを共有しているらしい。他人に影響を受けないようにうまくやりつつ
  • Snowflakeの美味しすぎて怪しい3つの疑惑をDBエンジニアが解消! #SnowVillage LIVE 002

  • SnowflakeでPrimary keyを取得する - vidaisuki's blog

    Snowflake Advent Calender 2020 7日目です。 今年はSnowflakeをずっといじっている一年でした。Snowflakeいいですね。 業務でRDBMSで動かしていた重い分析系のクエリをオフロードする用途で利用しています。 元データがRDBだとどうしてもデータの更新が入るので、差分更新(Merge)をしたい。Mergeをするにはユニークなキーが必要なのですがPrimary key(もしくはUnique key)の取得方法がマニュアルを調べても見当たりませんでした。当初は元テーブルとDDLが同じという前提で、データソースであるRDB側からPKの情報を取ってきて使っていたのですが、改めて検索してみた所、Communityでの書き込みに答えがありました。SHOW PRIMARY KEYSで取れるらしいです community.snowflake.com stackov

    SnowflakeでPrimary keyを取得する - vidaisuki's blog
    tgk
    tgk 2020/12/21
    「DataWarehouseのご多分に漏れず、SnowflakeのPRIMARY KEY/UNIQUE KEYは定義として存在するのみで、実際に重複データをチェックしてくれる訳ではありません」
  • スノーフレイク (SNOW) の技術的な企業分析

    Snowflake(SNOW)は、2012年に設立されたクラウドベースのデータウェアハウス企業である。カリフォルニア州サンマテオに拠点を置く、同社は9月下旬にニューヨーク証券取引所に上場し、米国での株式公開で過去最大のソフトウェア企業となった。 当初、株式の価格は75ドルから85ドルの間と予想されていたが、同社は120ドルで上場し、取引初日には300ドルにまで急上昇した。これは別の記録を更新した。スノーフレークは、上場初日に株式価値が2倍になった史上最大の企業となり、時価総額は750億ドル近くに達した。 これまで多くの企業データはオンプレミスで保存されてきた。つまり、データは企業が管理する物理サーバーに保存されていた。OracleやIBMなどの現存企業が伝統的にこの領域を支配してきた。 しかし、Snowflakeは根的に違う。Snowflakeは、データをオンプレミスに保存するのではなく

    スノーフレイク (SNOW) の技術的な企業分析
    tgk
    tgk 2020/11/04
    マイクロパーティションの中身の絵を見ると、列指向でありつつ行全体を格納している模様
  • Teradata Vs. Snowflake: Differences In Architecture | Can Snowflake Meet The High Expectations?

    tgk
    tgk 2020/11/02
    Teradata屋さんも認めざるを得ないSnowflakeのデザインと実力
  • [論文紹介] Snowflake - NSDI '20 -

    Building An Elastic Query Engine on Disaggregated Storage 突然始まった、論文紹介シリーズである。 データベースに関連する目に付いた論文をざっくりと解説していく。個人的な興味は分散DB、トランザクション、ストレージエンジン等なので、その辺りに偏ることはご容赦頂きたい。 初回は「Building An Elastic Query Engine on Disaggregated Storage」(日語訳:分散ストレージ上での弾力性の高いクエリエンジンの構築)、Snowflakeのアーキテクチャを解説した論文を読んでいく。 ※早速お詫びとなるが、Zennのタイトルで文字数制限があり、正式な論文名を当記事に冠することが出来ない。誤解を招くタイトルだったら申し訳ない。 と思ったら こちらに論文の翻訳が発表されていた。英語は苦手だが全文読んで理

    [論文紹介] Snowflake - NSDI '20 -
  • Snowflakeのデータウェアハウスの仕組み

    Building an elastic query engine on disaggregated storage』(Vuppalapati et al. 2020)は、クラウドベースのデータウェアハウス「Snowflake」の背後にある設計上の決定事項について説明している。この論文では、Snowflakeの設計と実装を、クラウドインフラストラクチャの最近の変化(新しいハードウェア、きめ細かな課金など)が、Snowflakeシステムの設計と最適化を導いた多くの前提条件をどのように変更したかについての議論とともに紹介している。稿は、コンピュータサイエンスのカンファレンス「Networked Systems Design and Implementation(NSDI)2020」に採択された上述論文のまとめである。 Abstract最先端のデータベースに近いSQL対応のクラウド型データウェ

    Snowflakeのデータウェアハウスの仕組み
    tgk
    tgk 2020/10/13
    Snowflakeがシェアードナッシングではないという話。すべてのコンピュートノードは、S3上のすべての永続データにアクセスできるとのこと
  • Snowflake のアーキテクチャーとキーコンセプトまとめ #SnowflakeDB | DevelopersIO

    こんにちは。大場です。 Snowflake では、これから触れる方向けに Getting Started Videos が用意されています。 Architecture & Key Concepts Introduction to Snowflake Introduction to Virtual Warehouses Introduction to Worksheets & Queries Introduction to Data Loading この記事では、ひとつめの「Architecture & Key Concepts」の動画に沿って、その名のとおりアーキテクチャーとキーコンセプトをまとめて紹介したいと思います。 Snowflake とは Snowflake は AWS や Azure などの代表的なクラウドサービス上で動く Data Warehouse as a Service

    Snowflake のアーキテクチャーとキーコンセプトまとめ #SnowflakeDB | DevelopersIO
    tgk
    tgk 2020/10/07
    「snowflakeは他のデータウェアハウスに必要なチューニングノブやパラメーターのほとんどを排除します」
  • Cloud Data Warehouse Benchmark Redshift vs Snowflake vs BigQuery | Fivetran

  • Accelerating ETL With Snowflake: A Comparison Of Load Times With Teradata

    tgk
    tgk 2020/02/13
    Snowflakeで一時的にノード倍増すれば、利用料は据え置きでローディング時間を半分にできる。ETLプロセスはノードorクラスタ追加のユースケース
  • 1