タグ

APIとHadoopに関するraimon49のブックマーク (2)

  • Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita

    「BigQueryは120億行を5秒でフルスキャン可能」は当か? 先日、kaheiさんがGoogle BigQuery(Googleクラウドの大規模クエリサービス)について、こんなエントリを書いていた。 とにかくパフォーマンスがすごい。(Fluentd Meetupでの)プレゼン中のデモで、ディスクに収められた5億件のデータをSQLでフルスキャンするのに3秒しかかからない。9億件のデータを正規表現を含んだSQLでスキャンしても、7秒で終わる(これ、記憶がちょっとあいまい。もう少しかかったかも)。これには驚いた。佐藤さんがGoogleに入社して一番驚いた技術が、一般公開される前のBigQueryだったと言っていたが、その気持ちはわかる。 From Fluentd Meetupに行ってきました これを読んだ時、BigQueryの検索スピードについてちょっと補足したくなった。確かにFluent

    Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita
  • hadoopのバージョン表記について - 科学と非科学の迷宮

    (2012/01/10 追記) Cloudera 社から hadoop 1.0 に関する公式ブログ記事が公開されました。そちらの方がより分かりやすく正確に書いています。まずはそちらをご覧ください。 先日 hadoop-1.0 がリリースされたことが巷で話題になっています。 話題になること自体は構わないのですが、この 1.0 が実は 0.20 系の派生だということはあまり理解されていないように見えます。 1.0.0 は従来のバージョンナンバリングポリシーで言えば 0.20.205.1 に相当するものです。 つまり、最新版 0.23 で採用された MapReduce2 を初めとする様々な新機能はこの 1.0 には入っていないということです。 わかりやすく図にしてみました。 よって、新機能を試したいとかいう人には全くおすすめしません。 また、上記の通り既存のバージョンとなんら変わりがないので、た

    hadoopのバージョン表記について - 科学と非科学の迷宮
    raimon49
    raimon49 2011/12/31
    バージョニングポリシー 互換性
  • 1