2015-4-28に東北大学 乾・岡崎研究室でおこなったチュートリアルの資料です。 研究室にはHadoopクラスタ(CDH5.3)があります。実験や実験の前処理といったタスクでそのクラスタを利用するためのチュートリアル、という前提です。 (追記)PMIの計算はもっと実行効率がいい手順があります。という説明を入れ忘れてました。 (追記)PMI計算でIntと書いてある部分は全部Longの間違いでした。
Google、大規模データをリアルタイムに分析できるクラウドサービス「Google Cloud Dataflow」を発表。「1年前からMapReduceは使っていない」。Google I/O 2014 大規模分散処理のフレームワークとしてGoogleが開発し、Hadoopに採用されて広く使われているMapReduce。しかしGoogleはもうMapReduceを使わず、より優れた処理系の「Google Cloud Dataflow」を使っていることが、Google I/O 2014の基調講演で明らかにされました。 GoogleのシニアバイスプレジデントUrs Hölzle氏は、「エクサバイトのスケールまで扱え、パイプライン処理を記述しやすく最適化もしてくれる。それにバッチもリアルタイム分析も同じコードで記述できる」と、Cloud Dataflowの特長を説明します。 Google I/Oの
[Harvard CS264] 08b - MapReduce and Hadoop (Zak Stone, Harvard)npinto
少し前にログの話を書いた http://d.hatena.ne.jp/naoya/20130219/1361262854 ときに、Treasure Data については後日にもう少し詳細に書くと言ったので書くとしよう。 近頃 Treasure Data (以下、時折 TD) という名前をちらほら聞いたことがある人は多いのではないかと思います。「ビッグデータのクラウドサービスである」とか「日本人が創業したシリコンバレーのベンチャー」、あるいは Yahoo! 創業者の Jerry Yang が投資したとか、Fluentd と何か関係があるといった文脈などなど。 けど、具体的に Treasure Data がどういうサービスで、どういう機能を持っていて、どんな場面で利用されるものなのかはまだあまり良く知られていないかもしれない・・・ようにも見える。今日はその辺から少し紹介していこうかなと思う。
In this article I digested a number of MapReduce patterns and algorithms to give a systematic view of the different techniques that can be found on the web or scientific articles. Several practical case studies are also provided. All descriptions and code snippets use the standard Hadoop’s MapReduce model with Mappers, Reduces, Combiners, Partitioners, and sorting. This framework is depicted in th
MapReduce処理を外部ファイルとして保存する ファイル名:count_by_hours.js // accesslogを時間帯別に集計して、 // 結果を別コレクションに保存するMapReduce //出力先コレクション名を定義 var colname = 'countbyhours'; // 自作ユーティリティ関数 var JSTDate = function (str) { return ISODate(str + "T00+09:00"); }; var getYMDH = function (d) { d.setSeconds(0); d.setMilliseconds(0); d.setMinutes(0); yyyy = d.getFullYear(); mm = d.getMonth() + 1; dd = d.getDate(); hh = d.getHours();
MongoDBをMacにインストールして動かす 1. MongoDBをインストール $ sudo port install mongodb 2. DBファイルの置き場所を作成 $ mkdir /foo/bar/mongodb_data MongoDBは大きめのディスクスペースを必要とします。その理由は以下のリンク先に。 http://www.mongodb.org/pages/viewpage.action?pageId=17596968 3. DBを起動 $ mongod --dbpath=/foo/bar/mongodb_data Sun Oct 17 23:26:51 MongoDB starting : pid=1601 port=27017 dbpath=/foo/bar/mongodb_data 64-bit Sun Oct 17 23:26:51 db version v1.
8月31日から2日間、都内で行われたイベント「Cloud Computing World Tokyo 2011」。そのイベントへの申し込み段階で最初に満員となったのが、国立情報学研究所 佐藤一郎教授のセッション「クラウドコンピューティングの将来動向」でした。 技術的な背景に基づき、ビッグデータ活用に必要な条件とは何か、クラウドのビジネスモデルはどうなるのか、データセンターの進化の方向性、などについて具体的な解説が行われています。 この記事では、そのセッションの内容を紹介しましょう。 ビッグデータ流行の背景となったMapReduce/Hadoop 国立情報学研究所 アーキテクチャ科学 研究系 教授 佐藤 一郎氏。 分散システムの研究者から見た、クラウドのインフラの話、10年先の話をしようと思います。 1つ目はビッグデータの話題。 ビッグデータの処理技術「MapReduce/Hadoop」は、
MapReduceというと集計に使うモノという人が多いと思う。 なんとなれば、MapReduce=Hadoop=ワードカウントの図式になっているからだ。 実際、Hadoopを触ってみようという人のほとんどはexampleとしてワードカウントを使うはず。その辺に落ちてるシェークスピアのログでHadoopのexampleを動かした人もおおいはず。 ところが実際に業務バッチ的な処理を行うときに、MapReduceの効果的な使い方は別にもある。個人的は、「本当のMapReduceの使いかた」はこっちだと思う。なんということはなくて「組み合わせ計算を高速に行う」だ。ある種の計算では、順序処理でギブアップしてしまうケースの一つに組み合わせの計算がある Node{ List<Node> nodeList value(){ hasNodeList() ? nodeList.traverse(value()
グーグルは同社のクラウドサービスであるGoogle App Engineで、フル機能のMapReduce機能を提供することが同社のイベントGoogle I/O 2011で明らかにしました。 これまでGoogle App EngineではMapReduceを構成する「Map」「Shuffle」「Ruduce」の3つのうち、Mapperの機能の提供が行われてきました。 Google I/O 2011で行われたセッション「App Engine MapReduce」では、MapReduceを構成するすべての機能の提供が行われることが発表されています。 セッションのポイントを紹介しましょう。 App Engine MapReduce App EngineエンジニアリングチームのMike Aizatsky氏。 MapReduceは数年前にグーグルが開発した処理。社内ではほとんどあらゆるチームがこの処理
Google Researchにて「Large-scale Incremental Processing Using Distributed Transactions and Notifications」という論文が公開されました。GoogleはこれまでMapReduceにて大規模な処理を扱っていましたが、常にデータ全体に対して行わなければならず、小さな更新をたくさん行うような処理には向いていません。これに対し、Web検索エンジンのようにクローラがWebページを取得するたびに逐次的に処理を行い、短い間隔で検索インデックスの更新を可能にしたシステム「Percolator」を構築しました。論文ではPercolatorの概要やアーキテクチャ、導入による効果検証について書かれています。 Percolatorの特徴は、ペタバイト級のリポジトリに対してランダムアクセスが可能な点です。また、利用者側がリ
今月中に実験の実装が終わるくらいでないと来月の投稿〆切に間に合わないので、今週から研究室のサーバに Hadoop をインストールしている。 研究室にはサーバが20台弱あるのだが、そのうち10台強を使うことにして設定。これくらいの規模だと「大規模」と言うのは憚られるかもしれないが(Yahoo! や Google と比べて、という意味で。)、中規模、くらいには言ってもいいだろうし、たぶん、多くの大学や企業で使える台数もこれくらいだと思うし、大企業にいないとできない研究をするのも大変価値があるが、他の人たちがやる気になれば真似できる研究をするのも(データやインフラ勝負ではなくアイデア勝負になるので苦しくはあるのだが)重要だと考えている。 たとえば、数台でも分散環境の恩恵が受けられる、というのはPFI が出した Hadoop の解析資料で知っていたので、初めて導入したときは参考になったし、こういう
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く