タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

lakehouseに関するtgkのブックマーク (2)

  • データレイク関連の OSS - Delta Lake, Apache Hudi, Apache Kudu

    はじめに#前回のポストではデータレイクとはどういうものかというのを調べた。 今回はデータレイクの文脈でどのような OSS が注目されているのかを見ていきたい。 以下は NTT データさんによる講演資料であり、その中で「近年登場してきた、リアルタイム分析に利用可能なOSSストレージレイヤソフト」というのが3つ挙げられている。 Delta LakeApache HudiApache Kuduこれらはすべて論理的なストレージレイヤーを担う。 こちらの講演資料に付け足すようなこともないかもしれないが、このポストではデータレイクという文脈から自分で調べて理解した内容をまとめるということを目的にする。 当然 Hadoop, Hive, Spark 等もデータレイクの文脈において超重要だが、「データレイク」という言葉がよく聞かれるようになる前から普及していたのでこのポストでは触れないことにする。 Del

    データレイク関連の OSS - Delta Lake, Apache Hudi, Apache Kudu
    tgk
    tgk 2023/12/06
    「Delta Lake は Apache Spark の読み書きにACIDなtransactionを提供するストレージレイヤーのOSSである」
  • Apache Iceberg とは何か - 流沙河鎮

    はじめに 概要 Apache Iceberg(アイスバーグ)とは [重要] Icebergの質はTable Specである Table Spec バージョン Icebergハンズオン Icebergの特徴 同時書き込み時の整合性担保 読み取り一貫性、Time Travelクエリ、Rollback Schema Evolution Hidden Partitioning Hidden Partitioningの種類 時間 truncate[W] bucket[N] Partition Evolution Sort Order Evolution クエリ性能の最適化 ユースケース Icebergのアーキテクチャ Iceberg Catalog Iceberg Catalogの選択肢 metadata layer metadata files manifest lists manifest f

    Apache Iceberg とは何か - 流沙河鎮
  • 1