タグ

hadoopに関するinouetakuyaのブックマーク (9)

  • どういう経緯でHadoopを使うことになるのだろう? - nkmrshn’s diary

    Hadoopのオライリー(Tom White著, 玉川竜司、兼田聖士訳, オライリージャパン, 2010)、いわゆる「象」のケーススタディを読んで、最初は「どういう経緯でHadoopを使うことになるんだろう?」と思いました。 つまり、大量のデータをバッチ集計する時に使うことは想像できたのですが、それはデータベースの構造などで解決できるのではないかと。結論から言えば、私がこのをよく読んでなかったのが原因です。 単純な事例で考えてみた 例えば、会員の入会月別・男女別棒グラフを表示したいというケースがあったとします。次のグラフは、jqPlotのBar Chartを使い、AJAXでデータを取得・表示することにします。 あえて一番、間違った実装方法を示します。この方法が駄目なのは、入会者数が増えれば増えるほど表示が遅くなるからです。 class UsersController < Applic

    どういう経緯でHadoopを使うことになるのだろう? - nkmrshn’s diary
  • へ〜たのめも:Hadoop と RDBMS の性能を比較してみた。という論文。の感想。の翻訳。 - livedoor Blog(ブログ)

    2009年04月19日 Hadoop と RDBMS の性能を比較してみた。という論文。の感想。の翻訳。 Stonebraker, DeWitt, et al. compare MapReduce to DBMS Map-Reduce (Hadoop)と Parallel DBMS (Vertica と DBMS-X) の性能を比較したところ、おおむね DB の方が性能がよく、ケースによっては 6.5倍も性能差があるという実験結果が、SIGMOD09 で発表されたらしい。原論文はここから PDF でダウンロードできる。 以下は DBMS2 というブログに書かれた、この論文を読んだ人の感想の翻訳。 Stonebraker, DeWitt, et al. MapReduce と DBMS の比較 5人の共著者(主筆者は Andy Pavlo っぽい)とともに、Map-Reduce 嫌いで知られ

    inouetakuya
    inouetakuya 2011/04/08
    ふむ。原論文にも書いてあるけど、Map-Reduce に傾倒せずに、ちゃんと両方の方式を検討してから決めなさいってことだな。
  • Hadoopのインストールとサンプルプログラムの実行

    前回はGoogleの基盤技術とそれに対応するオープンソースソフトウェアとして、Hadoop & hBaseを紹介しました(図1 参照)。今回はHadoopを1台にインストールし、サンプルプログラムを動かします。次にHDFSとMapReduceのアーキテクチャを解説します。最後にサンプルプログラムのソースコードを解説します。 2. Hadoopの概要 Hadoopは主にYahoo! Inc.のDoug Cutting氏によって開発が進められているオープンソースソフトウェアで、GoogleFileSystemMapReduceというGoogleの基盤技術のオープンソース実装です。Hadoopという名前は開発者の子供が持っている黄色い象のぬいぐるみの名前に由来しています。HadoopはHDFS(Hadoop Distributed File System)、Hadoop MapReduce F

    Hadoopのインストールとサンプルプログラムの実行
  • Hadoop、hBaseで構築する大規模分散データ処理システム

    CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

    Hadoop、hBaseで構築する大規模分散データ処理システム
  • 認証データベースへのHBase/Hadoopの適用

    1. はじめに HP IceWall SSO は、日ヒューレット・パッカード株式会社が日で開発した Webシングルサインオン製品です。1997年の販売開始より、合計4000万以上のユーザーライセンスが販売されており、日国内の市場占有率も1位となっています*1。大企業のミッションクリティカルなシステムの認証基盤としても使用されている非常に実績の高い製品です。 連載では、HP IceWall SSOの最新機能を軸とし、クラウド環境における認証システムへの新技術の適用、クラウドとの認証連携、そしてクラウドの活用事例を3回にわたり紹介していきたいと思います。 第1回はHP IceWall SSOにおける認証データベースへのHBase/Hadoopの適用に関して紹介します。 HBaseはApache Software Foundation(以下ASF)によってトップレベルプロジェクトの位置づ

  • Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、地域サービス事業部の吉田一星です。 今回は、Hadoopについて、Yahoo! JAPANでの実際の使用例を交えながら書きたいと思います。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 複数のマシンへの分散処理は、プロセス間通信や、障害時への対応などを考えなければならず、プログラマにとって敷居が高いものですが、 Hadoopはそういった面倒くさい分散処理を一手に引き受けてくれます。 1台では処理にかなり時間がかかるような大量のデータも、複数マシンに分散させることで、驚くべきスピードで処理を行うことができます。 例えば、今まで1台でやっていた、あるログ集計処理

    Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)
  • Hadoopがスケール・アウトする仕組み

    前回の記事では、Hadoopが膨大なデータをバッチ処理するための「インフラ」としての性質を備えていること、情報爆発時代の新たなインフラとして普及しつつあることを説明しました。その中で、情報爆発時代に必要とされるインフラは、「スケール・アウトが可能であること」という条件を備えていなければならないことを示しました。サーバーの台数を増やすことで容易にシステムの処理性能が増やせることは、Hadoopの重要な特徴です。今回は、Hadoopがどのようにしてスケール・アウトを可能にしているかを、「分散ファイル・システム」と「MapReduceフレームワーク」の2つの観点から解説します。 スケール・アウトとは? コンピュータ・システムを新たに構築するときは、必ず「運用」のことを考えておく必要があります。システム・トラブルが発生した場合の対応策を決めたり、将来の仕様変更に備えてプログラムに拡張性を持たせたり

  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
    inouetakuya
    inouetakuya 2011/04/08
    Hadoopの入門書や入門ページには書かれてないような構築・運用・チューニングの話が盛りだくさんなのです。
  • グーグル発「Hadoop」、日本企業も利用へ

    Hadoopは、グーグルが検索エンジン用に開発したバッチ処理システムを基に開発された、オープンソースソフトだ。グーグルが開発した分散ファイルシステム「Google File System(GFS)」を模した「Hadoop Distributed File System(HD FS)」と、データ処理機構「MapReduce」を模した「Hadoop MapReduce」で構成する。 米国では米VISAや米JPモルガン・チェースのような大手金融機関が、バッチ処理にHadoopを使用する。 そのHadoopがいよいよ、日企業でも使われ始めた。例えば楽天は、ある商品に対するお薦め商品をリストアップする「レコメンド処理」にHadoopを使用する。NTTデータは、全国の渋滞情報をリアルタイムに可視化するシステムの構築にHadoopを採用した。三菱UFJインフォメーションテクノロジーもHadoopを使っ

    グーグル発「Hadoop」、日本企業も利用へ
    inouetakuya
    inouetakuya 2011/04/08
    MapReduceの各処理はそれぞれ独立して動作するため、サーバーの台数を増やしたことに比例して、処理性能が向上する。
  • 1