[B! データ] [3ページ] yassan0627のブックマーク

yassan0627 id:yassan0627

データに関するyassan0627のブックマーク (426)

Intro to the Iceberg Kafka Connect sink – Tabular
- 1 user
- tabular.io
- 学び
yassan0627 2023/06/09
kafka

Iceberg

データ
リンク
Configuring Apache Iceberg Catalog with Apache Spark
Apache Iceberg: The Definitive Guide Everything you need to know about Apache Iceberg table architecture, and how to structure and optimize Iceberg tables for maximum performance
yassan0627 2023/06/02
データ

Iceberg

チュートリアル
リンク
SQLのコーディング規約について - Leverages データ戦略ブログ
データ戦略室で使用しているSQLのコーディング規約をご紹介しますはじめにこんにちは。データ戦略室の森下です。今回はデータを使う際に切っても切り離せないSQLについて、レバレジーズのデータ戦略室で作成および運用しているコーディング規約についてお話します。レバレジーズのデータ戦略室では今回ご紹介する規約を策定していますが、データ活用のフェーズや環境によって多分に変わる部分でもありますので、とある一社の運用方法として参考にしていただければ幸いです。レバレジーズのSQL実行環境について Google BigQueryを初めとするカラムナデータベースにデータを格納し、SQLを用いてデータを抽出することが多いです。そのため、今回ご紹介するSQLコーディング規約には、RDBに対するパフォーマンスチューニングに関連するようなことは規約に入っていません。コーディング規約についてコーディング規約は
yassan0627 2023/05/31
sql

コーディング

データ
リンク
Introducing the Apache Iceberg Catalog Migration Tool | Dremio
yassan0627 2023/05/30
データ

開発

hadoop

spark

Iceberg
リンク
Project Nessie, Apache Iceberg, and Apache Spark Using Docker
In today’s modern data lakes, you work with a separation of data and metadata with open table formats like Apache Iceberg giving you vastly improved query performance, the ability to time-travel, evolve your table’s partitions/schema, and much more. Open table formats rely on metadata catalogs to track where the metadata lives so engines can access the tables using these formats. Tools like AWS Gl
yassan0627 2023/05/30
データ

Iceberg

spark

Nessie
リンク
PySpark SQL expr() (Expression) Function
yassan0627 2023/05/28
spark

データ
リンク
Apache Sparkの概要 - Qiita
はじめに Apache Sparkはデータの高速な処理能力や、汎用性の高さから、昨今ではクラウドのPaaS型のデータ処理エンジンに搭載されるようになってきた。たとえばAzureのサービスでは従来からAzure HDInsightにPure 100% OSSのSparkが以前から搭載されている。Azure DatabricksはSparkのクラスター管理を大幅にクラウド側に寄せ、Notebookやジョブのインターフェース等を提供する形態も出てきて多くのユーザーに利用されているようである。また、2019年のMicrosoft Igniteで発表されたAzure Synapse Analyticsは従来のAzure SQL Data Warehouseに、Sparkエンジンを搭載してオンデマンドクエリ機能を提供するとの事。さらには、Azure Data Factory内にMapping Data
yassan0627 2023/05/26
spark

データ
リンク
Apache Iceberg の table を near real time で更新する
Apache Iceberg の table を near real time に、つまり高頻度で更新するということをやってみた。 Apache Iceberg とは#Apache Iceberg (以下 Iceberg) は分散ファイルシステムやクラウドストレージ上の table format であり、Apache Hudi や Delta Lake と並んで data lake や lakehouse architecture で用いられる。特徴的なのは table とデータ実体 (Parquet, Avro など) の間に metadata file, manifest list, manifest file の抽象的なレイヤーがあり、ファイル単位で table の状態を track できること。これにより強い isolation level、パフォーマンス、schema evo
yassan0627 2023/05/11
データ

Iceberg
リンク
Data Contract について調べた
データエンジニアリングの領域で少し前から目にするようになった “data contract” という言葉。なんとなく今の業務で困っている課題の解決になりそうな気がしつつもよくわかっていなかったので調べてみた。 data contract について語られているいくつかのブログ記事などを参考にしている。 Data Contract とは#データの schema というのはナマモノで、いろいろな理由で変更されることがある。 schema を変更する場合、その schema のデータ (table や log) が所属する単一のビジネス機能や application のドメインで行われることになる。そのドメインの閉じた世界で考える分にはこれで問題ないのだが、DWH や data lake など組織レベルのデータ基盤でデータを流通していた場合はその先のことも考えないといけなくなる。このようにチ
yassan0627 2023/05/11
データ

運用
リンク
Dev series on Apache Hudi : A Data lake technology
yassan0627 2023/05/09
データ

hadoop

Hudi
リンク
Quickstart Iceberg with Spark and Docker Compose
yassan0627 2023/04/25
データ

hadoop

Iceberg
リンク
GitHub - projectnessie/iceberg-catalog-migrator: CLI tool to bulk migrate the tables from one catalog another without a data copy
yassan0627 2023/04/22
Icebergのテーブルを、データをコピーすることなく、あるカタログから別のカタログへ一括移行できるコマンドラインツール

データ

Iceberg

hadoop

運用
リンク
Spark ETL Chapter 10 with Lakehouse
yassan0627 2023/04/11
データ

Iceberg

Delta Lake

Hudi

Data Lakehouse
リンク
A Hands-On Look at the Structure of an Apache Iceberg Table
yassan0627 2023/04/06
データ

hadoop

Iceberg

data lakehouse
リンク
3 Ways to Convert a Delta Lake Table Into an Apache Iceberg Table | Dremio
yassan0627 2023/04/05
データ

Iceberg
リンク
Datadog on Data Engineering Pipelines: Apache Spark at Scale
yassan0627 2023/04/02
spark

データ

hadoop

YuniKorn

k8s
リンク
Kubernetes上のSpark：YuniKornによるギャングスケジューリング
by WeiWei Yang, Wilfred Spiegelenburg, Kinga Marton この記事は、2022/5/5に公開された「Spark on Kubernetes – Gang Scheduling with YuniKorn」の翻訳です。 Apache YuniKorn (Incubating) は 0.10.0 をリリースしました。(リリースはこちら) 今回のリリースでは、「Gang Scheduling (ギャングスケジューリング)」と呼ばれる新機能が利用できるようになりました。ギャングスケジューリング機能を活用することで、Kubernetes 上の Spark ジョブのスケジューリングがより効率的になります。 Apache YuniKorn (Incubating) とは何か Apache YuniKorn (Incubating) は、Kubernetes
yassan0627 2023/03/24
spark

YuniKorn

データ
リンク
Kubernetes上のApache Spark：Apache YuniKorn (Incubating) の仕組み
by Sunil Govindan, WeiWei Yang, Wangda Tan, Wilfred Spiegelenburg この記事は、2020/10/14に公開された「Apache Spark on Kubernetes: How Apache YuniKorn (Incubating) helps」の翻訳です。背景 Apache Spark に K8s を選ぶべき理由 Apache Spark によって、バッチ処理、リアルタイム処理、ストリーム解析、機械学習、インタラクティブクエリを1つのプラットフォームに統合できます。Apache Spark は、多様なユースケースをサポートするために多くの機能を提供する一方で、クラスタ管理者にとっては、さらなる複雑さをもたらし、高いメンテナンスコストにつながる面もあります。Spark がワンプラットフォームとして力を発揮するために、基盤と
yassan0627 2023/03/24
spark

YuniKorn

データ
リンク
How We Migrated Our Data Lake to Apache Iceberg
yassan0627 2023/02/19
Iceberg

データ
リンク
Apache Iceberg Reduced Our Amazon S3 Cost by 90%
The new generation data lake table formats (Apache Hudi, Apache Iceberg, and Delta Lake) are getting more traction every day with their superior capabilities compared to Apache Hive. They enable cost-effective cloud solutions for big data analysis with ACID transactions, schema evolution, time travel, and more. Table FormatsTable format techno logy is essential for big data environments to properly
yassan0627 2023/02/19
Iceberg

データ
リンク
前のページ 1 2 3 4 5 6 7 8 9 10 次のページ

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx