タグ

HDFSとimpalaに関するkimutanskのブックマーク (2)

  • 第19回 Impalaの設計と実装[3] | gihyo.jp

    はじめに 今回は、ImpalaにおけるI/Oの高速化技法について説明します。 前回説明したように、Impalaの実行エンジンは可能な限りメモリ上で処理をすることでアドホッククエリのレイテンシを下げ、スループットを向上させる、という設計方針で開発されています。 しかし、データはストレージ(二次記憶装置)に格納されているため、当然、ストレージへのI/Oを回避することはできません。また、Impalaは実行時に十分なメモリを確保するべく、データをメモリ上に保持(キャッシュ)しないため、クエリを実行するたびにデータをストレージから読み出すことを前提として設計されています[1]⁠。 今回は、このようなユースケースを考慮しつつ、高速・高効率なアドホッククエリを実行するためのI/O処理方式とデータレイアウトについて解説します。 Short-Circuit Local ReadsによるI/Oの高効率化 Sh

    第19回 Impalaの設計と実装[3] | gihyo.jp
    kimutansk
    kimutansk 2016/04/13
    Impala on HDFS/Parquetと、Impala on Kudu、どちらがスキャンかけて集計する用途で早くなりますかね。比較図ですとHDFS側でしたが、実際はどうなのか。
  • Cloudera Standard のご案内 ~ 無償版 大幅機能強化のお知らせ | Cloudera Japan

    データを信頼し、AI を信頼する 信頼できるデータ、信頼できるモデル、信頼できる AI を実現するために、これほど多くのクラウドのさまざまなデータタイプを管理でき、オープンデータのイノベーションと大規模展開に対応できるプラットフォームは他にありません。

    Cloudera Standard のご案内 ~ 無償版 大幅機能強化のお知らせ | Cloudera Japan
    kimutansk
    kimutansk 2013/06/05
    Lucene、と思いきや、solrですか。いえ、あまり違うわけでもないんですが。
  • 1