タグ

MapReduceに関するkakku22のブックマーク (5)

  • Hadoopのインストールとサンプルプログラムの実行

    前回はGoogleの基盤技術とそれに対応するオープンソースソフトウェアとして、Hadoop & hBaseを紹介しました(図1 参照)。今回はHadoopを1台にインストールし、サンプルプログラムを動かします。次にHDFSとMapReduceのアーキテクチャを解説します。最後にサンプルプログラムのソースコードを解説します。 2. Hadoopの概要 Hadoopは主にYahoo! Inc.のDoug Cutting氏によって開発が進められているオープンソースソフトウェアで、GoogleFileSystemMapReduceというGoogleの基盤技術のオープンソース実装です。Hadoopという名前は開発者の子供が持っている黄色い象のぬいぐるみの名前に由来しています。HadoopはHDFS(Hadoop Distributed File System)、Hadoop MapReduce F

    Hadoopのインストールとサンプルプログラムの実行
  • Data-Intensive Text Processing with MapReduce

    Jimmy Lin and Chris Dyer. Morgan & Claypool Publishers, 2010. Our world is being revolutionized by data-driven methods: access to large amounts of data has generated new insights and opened exciting new opportunities in commerce, science, and computing applications. Processing the enormous quantities of data necessary for these advances requires large clusters, making distributed computing paradig

    kakku22
    kakku22 2012/12/01
    Data-Intensive Text Processing with MapReduce
  • EMCはHadoopをどのように展開していくのか - @IT

    2011/08/12 米EMCが5月に発表したエンタープライズ向けHadoopの国内での一般提供は年末となる。EMCジャパンは8月9日に行ったGreenplum製品群に関する説明の場で、これを明らかにした。 EMCの提供するMapReduceアルゴリズム実装「Greenplum HD」は、既報のとおり無償の「Community Edition」、有償でサポートを含む「Enterprise Edition」、そしてハードウェアとソフトウェアを構成済みのアプライアンス「Greenplum HD Data Computing Appliance」の3つの形で提供される。 Greenplum HDは、MapR Technologiesというベンチャー企業がApache HadoopをC言語で書き直したものを、EMCがOEM提供する製品。3~5倍のパフォーマンス向上が見込めるという。また、NameN

    kakku22
    kakku22 2011/08/16
    どこも似たようにHadoopを組み替えて今年の売りにしてるなー
  • 実践! 「MapReduceでテキストマイニング」徹底解説

    青空文庫」をテキストマイニング! 前回の「いまさら聞けないHadoopとテキストマイニング入門」では、Hadoopとテキストマイニングの概要や構成、MapReduceの仕組み、Hadoopの活用場面などを解説し、Hadoopの実行環境を構築しました。今回から、Hadoopを使い、テキストマイニングのMapReduceプログラムを作成していきます。 「青空文庫」というサイトをご存じでしょうか。青空文庫は、著作権が切れた日の文学作品を掲載しているWebサイトで、青空文庫の全データをDVDや、BitTorrentによる配信で入手できます。今回は、このデータを使ってテキストマイニングを行いましょう。 前回、テキスト分類で、著者の性別、年齢、地域、職業などの属性も推定できると書きましたが、青空文庫は、他のデータにはない、著者属性があります。青空文庫の作品は、著作権が切れて、作者がなくなっている場

    実践! 「MapReduceでテキストマイニング」徹底解説
  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
    kakku22
    kakku22 2011/06/21
    Hadoop 0.20.S Virtual Machine
  • 1