データ戦略室で使用しているSQLのコーディング規約をご紹介します はじめに こんにちは。データ戦略室の森下です。今回はデータを使う際に切っても切り離せないSQLについて、レバレジーズのデータ戦略室で作成および運用しているコーディング規約についてお話します。 レバレジーズのデータ戦略室では今回ご紹介する規約を策定していますが、データ活用のフェーズや環境によって多分に変わる部分でもありますので、とある一社の運用方法として参考にしていただければ幸いです。 レバレジーズのSQL実行環境について Google BigQueryを初めとするカラムナデータベースにデータを格納し、SQLを用いてデータを抽出することが多いです。そのため、今回ご紹介するSQLコーディング規約には、RDBに対するパフォーマンスチューニングに関連するようなことは規約に入っていません。 コーディング規約について コーディング規約は
In today’s modern data lakes, you work with a separation of data and metadata with open table formats like Apache Iceberg giving you vastly improved query performance, the ability to time-travel, evolve your table’s partitions/schema, and much more. Open table formats rely on metadata catalogs to track where the metadata lives so engines can access the tables using these formats. Tools like AWS Gl
はじめに Apache Sparkはデータの高速な処理能力や、汎用性の高さから、昨今ではクラウドのPaaS型のデータ処理エンジンに搭載されるようになってきた。たとえばAzureのサービスでは従来からAzure HDInsightにPure 100% OSSのSparkが以前から搭載されている。Azure DatabricksはSparkのクラスター管理を大幅にクラウド側に寄せ、Notebookやジョブのインターフェース等を提供する形態も出てきて多くのユーザーに利用されているようである。また、2019年のMicrosoft Igniteで発表されたAzure Synapse Analyticsは従来のAzure SQL Data Warehouseに、Sparkエンジンを搭載してオンデマンドクエリ機能を提供するとの事。さらには、Azure Data Factory内にMapping Data
Apache Iceberg の table を near real time に、つまり高頻度で更新するということをやってみた。 Apache Iceberg とは#Apache Iceberg (以下 Iceberg) は分散ファイルシステムやクラウドストレージ上の table format であり、Apache Hudi や Delta Lake と並んで data lake や lakehouse architecture で用いられる。 特徴的なのは table とデータ実体 (Parquet, Avro など) の間に metadata file, manifest list, manifest file の抽象的なレイヤーがあり、ファイル単位で table の状態を track できること。 これにより強い isolation level、パフォーマンス、schema evo
データエンジニアリングの領域で少し前から目にするようになった “data contract” という言葉。 なんとなく今の業務で困っている課題の解決になりそうな気がしつつもよくわかっていなかったので調べてみた。 data contract について語られているいくつかのブログ記事などを参考にしている。 Data Contract とは#データの schema というのはナマモノで、いろいろな理由で変更されることがある。 schema を変更する場合、その schema のデータ (table や log) が所属する単一のビジネス機能や application のドメインで行われることになる。 そのドメインの閉じた世界で考える分にはこれで問題ないのだが、DWH や data lake など組織レベルのデータ基盤でデータを流通していた場合はその先のことも考えないといけなくなる。 このようにチ
by WeiWei Yang, Wilfred Spiegelenburg, Kinga Marton この記事は、2022/5/5に公開された「Spark on Kubernetes – Gang Scheduling with YuniKorn」の翻訳です。 Apache YuniKorn (Incubating) は 0.10.0 をリリースしました。(リリースはこちら) 今回のリリースでは、「Gang Scheduling (ギャングスケジューリング)」と呼ばれる新機能が利用できるようになりました。ギャングスケジューリング機能を活用することで、Kubernetes 上の Spark ジョブのスケジューリングがより効率的になります。 Apache YuniKorn (Incubating) とは何か Apache YuniKorn (Incubating) は、Kubernetes
by Sunil Govindan, WeiWei Yang, Wangda Tan, Wilfred Spiegelenburg この記事は、2020/10/14に公開された「Apache Spark on Kubernetes: How Apache YuniKorn (Incubating) helps」の翻訳です。 背景 Apache Spark に K8s を選ぶべき理由 Apache Spark によって、バッチ処理、リアルタイム処理、ストリーム解析、機械学習、インタラクティブクエリを1つのプラットフォームに統合できます。Apache Spark は、多様なユースケースをサポートするために多くの機能を提供する一方で、クラスタ管理者にとっては、さらなる複雑さをもたらし、高いメンテナンスコストにつながる面もあります。Spark がワンプラットフォームとして力を発揮するために、基盤と
The new generation data lake table formats (Apache Hudi, Apache Iceberg, and Delta Lake) are getting more traction every day with their superior capabilities compared to Apache Hive. They enable cost-effective cloud solutions for big data analysis with ACID transactions, schema evolution, time travel, and more. Table FormatsTable format technology is essential for big data environments to properly
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く