タグ

datalakeとperformanceに関するsh19910711のブックマーク (2)

  • Apache Arrowの統計情報を使ったログ検索の爆速化 - KaiGaiの俺メモ

    PostgreSQLにはBRINインデックス(Block Range Index)という機能があり、ログデータに付属するタイムスタンプ値など、近しい値を持ったデータが物理的に近接するという特徴を持っているとき、検索範囲を効率的に絞り込むために使用する事ができる。 この機能はPG-Stromでも対応しており、その詳細は以前のエントリでも解説している。 kaigai.hatenablog.com かいつまんで説明すると、時系列のログデータのように大半が追記(Insert-Only)であり、かつタイムスタンプ値のように近しい値同士が近接している場合、1MBのブロック((pages_per_rangeがデフォルトの128の場合、8kB * 128 = 1MB))ごとにその最小値/最大値を記録しておくことで『明らかに検索条件にマッチしない範囲』を読み飛ばす事ができる。 例えば以下の例であれば、WHE

    Apache Arrowの統計情報を使ったログ検索の爆速化 - KaiGaiの俺メモ
    sh19910711
    sh19910711 2021/07/20
    "内部的にはRecord-Batchと呼ばれるブロックが複数並んだ構造 / ファイルの末尾にはフッタ(Footer)があり、ここを読めば、ファイルのどこにRecord-Batchが配置されているかが分かる"
  • Apache Hadoopエコシステムにおける、異なるファイル形式とストレージエンジンのパフォーマンス比較

    著者/Author: Zbigniew Branowski (Cern) 原文/Original:http://blog.cloudera.com/blog/2017/02/performance-comparing-of-different-file-formats-and-storage-engines-in-hadoop-file-system/ Zbigniew Baranowskiはデータベースシステムの専門家であり、CERNでセントラルデータベースとHadoopベースのサービスを提供、サポートしているグループのメンバーです。 このブログはもともとCERNの「Databases at CERN」ブログで公開されており、CERNの許可を得てここで公開されています。 トピックこの記事では、Apache Hadoopエコシステムで利用可能ないくつかの一般的なデータフォーマットとストレー

    Apache Hadoopエコシステムにおける、異なるファイル形式とストレージエンジンのパフォーマンス比較
  • 1