タグ

hadoopに関するchiku-sanのブックマーク (4)

  • Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita

    「BigQueryは120億行を5秒でフルスキャン可能」は当か? 先日、kaheiさんがGoogle BigQuery(Googleクラウドの大規模クエリサービス)について、こんなエントリを書いていた。 とにかくパフォーマンスがすごい。(Fluentd Meetupでの)プレゼン中のデモで、ディスクに収められた5億件のデータをSQLでフルスキャンするのに3秒しかかからない。9億件のデータを正規表現を含んだSQLでスキャンしても、7秒で終わる(これ、記憶がちょっとあいまい。もう少しかかったかも)。これには驚いた。佐藤さんがGoogleに入社して一番驚いた技術が、一般公開される前のBigQueryだったと言っていたが、その気持ちはわかる。 From Fluentd Meetupに行ってきました これを読んだ時、BigQueryの検索スピードについてちょっと補足したくなった。確かにFluent

    Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita
  • 1台でHBase, Hive, Pig, HUE(旧Cloudera Desktop)を試してみる(Ubuntu + Cloudera)

    必要なもの ・Linux(Ubuntu)+Cloudera版Hadoop環境(1台)→ 構築方法はこちら ・インターネット接続 ・Cloudera社のCDH3のHBase, Hive, Pig, HUEのパッケージ(aptでインターネットからインストール) 作業手順 以下の、1. HBase, 2. Pig, 3. Hive, 4. HUEの手順は、独立して試すことができますし、一つの環境でまとめて試すこともできます。(それぞれデータの管理は別々です。) 1. HBase 1-1. インストール: Linux環境にて、rootで作業します。 1-1-1. HBaseをインストールします。 apt-get -y install hadoop-hbase apt-get -y install hadoop-hbase-master apt-get -y install hadoop-hbase

    1台でHBase, Hive, Pig, HUE(旧Cloudera Desktop)を試してみる(Ubuntu + Cloudera)
  • 「大量データ処理なら任せて」日本人技術者、世界へ挑戦【湯川】 | TechWave(テックウェーブ)

    [読了時間:2分] 次の時代の覇者は、大量のデータを取得し、分析する企業ー。国光宏尚さんの記事にある通りだが、そのデータ分析の領域で世界に挑戦しようという日技術者がいる。 Hapyrus(ハピルス)社の藤川幸一さん、鈴木健太郎さんで、大量のデータを並列分散処理する画期的テクノロジーとして注目を集めるhadoop(ハドゥープ)をクラウドベースで手軽に利用できるサービスを開発。国内のエンジェル投資家から出資を受け、ビザが取得でき次第、10月にも米シリコンバレーに渡り世界に向けサービス提供を始めるという。 ありとあらゆるものがデジタルデータとして入手、保存、分析可能になりつつある中で、問題は爆発的に増加するデータを処理するコンピューター技術。これまではサーバーにインストールするタイプのデータベース技術を向上させることでなんとかデータの増加速度に追いついてきたが、さすがに昨今のデータの爆発的増

    「大量データ処理なら任せて」日本人技術者、世界へ挑戦【湯川】 | TechWave(テックウェーブ)
  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
  • 1