タグ

hiveとApache Drillに関するyassan0627のブックマーク (1)

  • Hive , Presto , Drill のプッシュダウンの考察 - 沼津暮らし

    最近は大きなデータを扱うクエリエンジンがたくさん増えてきました。 一昔前はデータをフルスキャンして処理するパターンが多かったのですが、やはりこの方法では処理コストが大きくなるのが課題となりました。 そこでデータの読み込みでの処理コストを削減するために最近ではデータベースのように必要なカラムだけを読み込んだり、不要な行・ページをスキップするプッシュダウンの機能を持ったビッグデータ向けのクエリエンジンが増えてきました。 今日は Hive , Presto , Drill のプッシュダウンについて見ていきたいと思います。 プッシュダウンの種類 テキストや行でデータを変換しているフォーマットの場合にはすべてのフィールドを全て読み込むことになります。 ORCやParquetなどのカラムナーフォーマットの場合には列毎にデータを保持しているため、特定のカラムや列での統計情報(MaxやMin)などを持って

    Hive , Presto , Drill のプッシュダウンの考察 - 沼津暮らし
    yassan0627
    yassan0627 2018/12/18
    HDFSから要らない行や列を取り出すpushdownの話
  • 1