[B! HDFS][impala] kimutanskのブックマーク

kimutansk id:kimutansk

HDFSとimpalaに関するkimutanskのブックマーク (2)

第19回　Impalaの設計と実装［3］ | gihyo.jp
はじめに今回は、ImpalaにおけるI/Oの高速化技法について説明します。前回説明したように、Impalaの実行エンジンは可能な限りメモリ上で処理をすることでアドホッククエリのレイテンシを下げ、スループットを向上させる、という設計方針で開発されています。しかし、データはストレージ（二次記憶装置）に格納されているため、当然、ストレージへのI/Oを回避することはできません。また、Impalaは実行時に十分なメモリを確保するべく、データをメモリ上に保持（キャッシュ）しないため、クエリを実行するたびにデータをストレージから読み出すことを前提として設計されています[1]⁠。今回は、このようなユースケースを考慮しつつ、高速・高効率なアドホッククエリを実行するためのI/O処理方式とデータレイアウトについて解説します。 Short-Circ uit Local ReadsによるI/Oの高効率化 Sh
kimutansk 2016/04/13
Impala on HDFS/Parquetと、Impala on Kudu、どちらがスキャンかけて集計する用途で早くなりますかね。比較図ですとHDFS側でしたが、実際はどうなのか。

HDFS

Impala
リンク
Cloudera Standard のご案内 ~ 無償版大幅機能強化のお知らせ | Cloudera Japan
データを信頼し、AI を信頼する信頼できるデータ、信頼できるモデル、信頼できる AI を実現するために、これほど多くのクラウドのさまざまなデータタイプを管理でき、オープンデータのイノベーションと大規模展開に対応できるプラットフォームは他にありません。
kimutansk 2013/06/05
Lucene、と思いきや、solrですか。いえ、あまり違うわけでもないんですが。

hadoop

cloudera

全文検索
リンク
1