[B! impala] shunmatsuのブックマーク

shunmatsu id:shunmatsu

impalaに関するshunmatsuのブックマーク (7)

『Prestoとは何か，Prestoで何ができるか』 - Arm Treasure Data
トレジャーデータはクラウドでデータマネージメントサービスを提供しています。 Hadoop Conference Japan 2014 以前に告知したHadoop Conference Japan 2014で，弊社Software Architectの古橋が発表しました。テーマは，Facebookが公開した新しい分散処理基盤，Presto。実はFacebookが彼らの超大規模なデータセットに対してインタラクティブに結果を返せるようにと開発されたものです。開発が始まってまだ2年も経っておりませんが，今ではトレジャーデータを初めとして多くのハッカー達がコミッターとして参加する活発的なプロジェクトに成長しています。 PrestoはHiveやImpalaと同じ「SQL Query Engine」であり，特に数百GBを超える大規模データに対してもインタラクティブなレスポンスを（コンマ0秒以下，遅くて
shunmatsu 2019/06/02
hadoop

Presto

impala

Hive
リンク
DMMゲームのログ解析~ログ収集と解析の概要~ - DMM.comラボエンジニアブログ
現在オンラインゲームのバックエンド、KPIシステムを担当していますマサヨシです。今回のブログでは【DMMオンラインゲームで実際に実装しているログとKPI】に関して3回にわたってご紹介致します。 DMMオンラインゲームでは、これまではオンラインゲームのプロジェクトごとに行っていたログの収集方法を統一し、プロジェクトに依存しない基本KPI機能とゲーム独自のKPI機能を実装するためのフレームワークを開発しましたのでその事例をもとにご紹介します。ログ収集、解析の概要まず、オンラインゲームのログ収集の全体像をご紹介します。オンラインゲームのログ収集ではApacheやnginx、PHPのログをfluentdで収集しています。 fluentdに集めたログをHadoopの分散処理システムに保存し、HiveやImpalaで解析をする流れになっています。ご存知の方も多いと思いますが、HiveとはHD
shunmatsu 2017/08/19
impala

Hive

fluentd

ログ解析

dmm
リンク
MPP on Hadoop, Redshift, BigQuery - Go ahead!
Twitterで「早く今流行のMPPの大まかな使い方の違い書けよ！」というプレッシャーが半端ないのでてきとうに書きます．この記事は俺の経験と勉強会などでユーザから聞いた話をもとに書いているので，すべてが俺の経験ではありません(特にBigQuery)．各社のSAの人とかに聞けば，もっと良いアプローチとか詳細を教えてくれるかもしれません．オンプレミスの商用MPPは使ったことないのでノーコメントです． MPP on HadoopでPrestoがメインなのは今一番使っているからで，Impalaなど他のMPP on Hadoop的なものも似たような感じかなと思っています．もちろん実装の違いなどがあるので，その辺は適宜自分で補間してください．前提アプリケーションを開発していて，そのための解析基盤を一から作る．簡単なまとめデータを貯める所が作れるのであれば，そこに直接クエリを投げられるPre
shunmatsu 2017/06/03
BigQuery

Presto

Redshift

hadoop

AWS

impala

mpp
リンク
HadoopのSQL対応分散クエリエンジン「Cloudera Impala」。Clouderaがオープンソースで公開
HadoopのSQL対応分散クエリエンジン「Cloudera Impala」。Clouderaがオープンソースで公開 Hadoopのディストリビューションベンダとして知られるClouderaは10月25日、SQLに対応し、データの分析速度はMapReduceよりも何倍も高速だという新しい分散クエリエンジン「Cloudera Impala」（製品名「Cloudera Enterprise RTQ」）をオープンソースで公開しました。これまでHadoopでは内部でMapReduceと呼ばれる処理が用いられていましたが、ImpalaではMapReduceを使わず、Clouderaが2年かけて開発した独自の分散クエリエンジンを用いて処理を行います。Hiveの上位互換のSQLが利用でき、Hive/MapReduceで数分かかっていた応答時間を数秒に短縮すると説明されています。グーグルのDremel
shunmatsu 2017/05/27
impala

hadoop

SQL

database

BigQuery

Cloudera
リンク
第5回　データ処理の並列化 | gihyo.jp
はじめに前回は、データ処理の方法を整理し、また、宣言型言語をインターフェースとして用いる並列データベースなどのデータ処理系を詳細に見ていく準備として、当該データ処理系における実行プランの作成の流れをかんたんに説明しました。今回は、当該データ処理系において、どのように実行プランを並列化するかについて、その概要を説明します。データ処理における並列性について並列データベースをはじめとするデータ処理系は、SQL文などの問い合わせ（クエリ）の内容に応じてデータ処理を行うものであり、問い合わせの観点においては、当該処理系において用いられる並列性（Parallelism）は、次の2つに分類することができます。問い合わせ間の並列性（Inter-Query Parallelism）問い合わせ内の並列性（Intra-Query Parallelism）問い合わせ間の並列性は、複数の異なる問い合わせ
shunmatsu 2017/05/18
データベース

hadoop

Spark

presto

parallel db

impala

distributed system

parallel processing
リンク
Prestoのパフォーマンス - Qiita
きっかけアドテクスキルアップゼミ　カラムナーデータベース検証まとめという記事が公開されたのですが，Presto/Impalaの結果があまりにも散々で，これはさすがに何かおかしいんじゃないかという話になってました．今だとすでに記事に注釈が入ってますが，Presto/Impalaは生のテキストファイルを対象にしていたのが原因でした．なので，その辺について少し書き，実際Prestoはどんなもんなのかというのを簡単に示します．列指向ファイルフォーマット Presto/Impalaが生のテキストファイルだったのに対し，他のクエリエンジンは違うフォーマットでデータを保存していて，これがかなり結果に響いてます．Redshift，BigQuery，Treasure Dataなど，データ解析系のサービスは皆列指向フォーマットを採用していて，データインポート時に勝手に変換が行われます．列指向フォーマット
shunmatsu 2017/05/04
Presto

hadoop

impala

ORC
リンク
Hadoopはどのように動くのか ─並列・分散システム技術から読み解くHadoop処理系の設計と実装記事一覧 | gihyo.jp
第21回Sparkの設計と実装［2］～Sparkにおけるデータ共有の仕組みと耐障害性の実現方法猿田浩輔，山田浩之 2016-06-08
shunmatsu 2017/05/01
hadoop

技術

ビッグデータ

データ分析
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx