[B! mapreduce] a2ikmのブックマーク

a2ikm id:a2ikm

mapreduceに関するa2ikmのブックマーク (32)

Apache Spark チュートリアル
2015-4-28に東北大学乾・岡崎研究室でおこなったチュートリアルの資料です。研究室にはHadoopクラスタ（CDH5.3）があります。実験や実験の前処理といったタスクでそのクラスタを利用するためのチュートリアル、という前提です。 (追記)PMIの計算はもっと実行効率がいい手順があります。という説明を入れ忘れてました。 (追記)PMI計算でIntと書いてある部分は全部Longの間違いでした。
a2ikm 2015/05/03
spark

distributed

slide

mapreduce
リンク
Google、大規模データをリアルタイムに分析できるクラウドサービス「Google Cloud Dataflow」を発表。「1年前からMapReduceは使っていない」。Google I/O 2014
Google、大規模データをリアルタイムに分析できるクラウドサービス「Google Cloud Dataflow」を発表。「1年前からMapReduceは使っていない」。Google I/O 2014 大規模分散処理のフレームワークとしてGoogleが開発し、Hadoopに採用されて広く使われているMapReduce。しかしGoogleはもうMapReduceを使わず、より優れた処理系の「Google Cloud Dataflow」を使っていることが、Google I/O 2014の基調講演で明らかにされました。 GoogleのシニアバイスプレジデントUrs Hölzle氏は、「エクサバイトのスケールまで扱え、パイプライン処理を記述しやすく最適化もしてくれる。それにバッチもリアルタイム分析も同じコードで記述できる」と、Cloud Dataflowの特長を説明します。 Google I/Oの
a2ikm 2014/06/27
google

mapreduce

bigdata

data
リンク
Re-use Amazon Elastic MapReduce instance
a2ikm 2014/04/01
--aliveフラグをつけてcreateすればジョブフローが終わってもクラスタは生きてる。--jobflowオプションでそのクラスタを再利用できる

emr

aws

hadoop

mapreduce
リンク
ソーシャルアプリでの Amazon Elastic MapReduce 活用事例
2015 FOSS4G Track - Building Lightweight Mapping Apps with Esri Leaflet by An...GIS in the Rockies
a2ikm 2014/03/28
emr

mapreduce

aws

slide
リンク
クックパッドでのemr利用事例
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)Noritaka Sekiyama
a2ikm 2014/03/28
emr

mapreduce

cookpad

slide

sasata299
リンク
961万人の食卓を支えるデータ解析
[Harvard CS264] 08b - MapReduce and Hadoop (Zak Stone, Harvard)npinto
a2ikm 2014/01/08
hadoop

cookpad

aws

emr

mapreduce

slide
リンク
Treasure Data - naoyaのはてなダイアリー
少し前にログの話を書いた http://d.hatena.ne.jp/naoya/20130219/1361262854 ときに、Treasure Data については後日にもう少し詳細に書くと言ったので書くとしよう。近頃 Treasure Data (以下、時折 TD) という名前をちらほら聞いたことがある人は多いのではないかと思います。「ビッグデータのクラウドサービスである」とか「日本人が創業したシリコンバレーのベンチャー」、あるいは Yahoo! 創業者の Jerry Yang が投資したとか、Fluentd と何か関係があるといった文脈などなど。けど、具体的に Treasure Data がどういうサービスで、どういう機能を持っていて、どんな場面で利用されるものなのかはまだあまり良く知られていないかもしれない･･･ようにも見える。今日はその辺から少し紹介していこうかなと思う。
a2ikm 2013/03/23
treasuredata

hadoop

mapreduce
リンク
MapReduce Patterns, Algorithms, and Use Cases
In this article I digested a number of MapReduce patterns and algorithms to give a systematic view of the different techniques that can be found on the web or scientific articles. Several practical case studies are also provided. All descriptions and code snippets use the standard Hadoop’s MapReduce model with Mappers, Reduces, Combiners, Partitioners, and sorting. This framework is depicted in th
a2ikm 2012/04/16
mapreduce

algorithm

hadoop

design

pattern
リンク
PHP と MySQL でカジュアルに MapReduce する
PHP と MySQL で 1 カチャカチャカチャ...ッターン！ MapReduce (@ニコニコ超会議)Yuya Takeyama
a2ikm 2012/03/28
mysql

mapreduce
リンク
MongoDB:MapReduceの手続きを外部jsファイルに保存して実行する方法 · DQNEO日記
MapReduce処理を外部ファイルとして保存するファイル名：count_by_hours.js // accesslogを時間帯別に集計して、 // 結果を別コレクションに保存するMapReduce //出力先コレクション名を定義 var colname = 'countbyhours'; // 自作ユーティリティ関数 var JSTDate = function (str) { return ISODate(str + "T00+09:00"); }; var getYMDH = function (d) { d.setSeconds(0); d.setMilliseconds(0); d.setMinutes(0); yyyy = d.getFullYear(); mm = d.getMonth() + 1; dd = d.getDate(); hh = d.getHours();
a2ikm 2012/02/29
mongodb

mapreduce

tips
リンク
MongoDBでMapReduce - ペイパー・プログラマーズ・ダイアリー
Mongo DBをMacにインストールして動かす 1. Mongo DBをインストール $ sudo port install mongo db 2. DBファイルの置き場所を作成 $ mkdir /foo/bar/mongo db_data Mongo DBは大きめのディスクスペースを必要とします。その理由は以下のリンク先に。 http://www.mongo db.org/pages/viewpage.action?pageId=17596968 3. DBを起動 $ mongod --dbpath=/foo/bar/mongo db_data Sun Oct 17 23:26:51 Mongo DB starting : pid=1601 port=27017 dbpath=/foo/bar/mongo db_data 64-bit Sun Oct 17 23:26:51 db version v1.
a2ikm 2012/02/29
mongodb

mapreduce
リンク
国立情報学研究所佐藤教授が語る「クラウドコンピューティングの将来動向」（ビッグデータ編）
8月31日から2日間、都内で行われたイベント「Cloud Computing World Tokyo 2011」。そのイベントへの申し込み段階で最初に満員となったのが、国立情報学研究所佐藤一郎教授のセッション「クラウドコンピューティングの将来動向」でした。技術的な背景に基づき、ビッグデータ活用に必要な条件とは何か、クラウドのビジネスモデルはどうなるのか、データセンターの進化の方向性、などについて具体的な解説が行われています。この記事では、そのセッションの内容を紹介しましょう。ビッグデータ流行の背景となったMapReduce/Hadoop 国立情報学研究所アーキテクチャ科学研究系教授佐藤一郎氏。分散システムの研究者から見た、クラウドのインフラの話、10年先の話をしようと思います。 1つ目はビッグデータの話題。ビッグデータの処理技術「MapReduce/Hadoop」は、
a2ikm 2011/09/07
bigdata

mapreduce

hadoop
リンク
MapReduceのもう一つの使い方 - 急がば回れ、選ぶなら近道
MapReduceというと集計に使うモノという人が多いと思う。なんとなれば、MapReduce＝Hadoop＝ワードカウントの図式になっているからだ。実際、Hadoopを触ってみようという人のほとんどはexampleとしてワードカウントを使うはず。その辺に落ちてるシェークスピアのログでHadoopのexampleを動かした人もおおいはず。ところが実際に業務バッチ的な処理を行うときに、MapReduceの効果的な使い方は別にもある。個人的は、「本当のMapReduceの使いかた」はこっちだと思う。なんということはなくて「組み合わせ計算を高速に行う」だ。ある種の計算では、順序処理でギブアップしてしまうケースの一つに組み合わせの計算がある Node{ List<Node> nodeList value(){ hasNodeList() ? nodeList.traverse(value()
a2ikm 2011/06/11
mapreduce

algorithm
リンク
グーグル、フル機能のMapReduceをGoogle App Engineで提供へ
グーグルは同社のクラウドサービスであるGoogle App Engineで、フル機能のMapReduce機能を提供することが同社のイベントGoogle I/O 2011で明らかにしました。これまでGoogle App EngineではMapReduceを構成する「Map」「Shuffle」「Ruduce」の3つのうち、Mapperの機能の提供が行われてきました。 Google I/O 2011で行われたセッション「App Engine MapReduce」では、MapReduceを構成するすべての機能の提供が行われることが発表されています。セッションのポイントを紹介しましょう。 App Engine MapReduce App EngineエンジニアリングチームのMike Aizatsky氏。 MapReduceは数年前にグーグルが開発した処理。社内ではほとんどあらゆるチームがこの処理
a2ikm 2011/05/24
google

appengine

mapreduce

cloud
リンク
チーフデータサイエンティスト@トレジャ on Twitter: "MongoDB MRのReduceは必ずしも1回だけ行われるとは限らない。(Reduce,Reduce,…)->Reduce という動作が起こりうる事に注意。なのでReduceで平均の計算や配列の生成（結果入れ子になる）などはできない。この場合にはfinalizeを使う。"
a2ikm 2011/03/10
mongodb

mapreduce
リンク
Hadoopソースコードリーディング第3回 Hadopo MR + Cassandra
Welcome to the Jungle: Distributed Systems for Large Data Sets - StampedeCon ...StampedeCon
a2ikm 2011/03/01
cassandra

hadoop

mapreduce
リンク
連載: IBM Watson Workspace #鬼わかアプリケーション開発: 第 7 回: IBM Watson Workspace で AI を利用したアプリ連携の実現 #鬼わか解説（前編）
IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.
a2ikm 2011/02/23
hadoop

mapreduce
リンク
MapReduceを使わない大規模分散データ更新システム「Percolator」 | gihyo.jp
Google Researchにて「Large-scale Incremental Processing Using Distributed Transactions and Notifications」という論文が公開されました。GoogleはこれまでMapReduceにて大規模な処理を扱っていましたが、常にデータ全体に対して行わなければならず、小さな更新をたくさん行うような処理には向いていません。これに対し、Web検索エンジンのようにクローラがWebページを取得するたびに逐次的に処理を行い、短い間隔で検索インデックスの更新を可能にしたシステム「Percolator」を構築しました。論文ではPercolatorの概要やアーキテクチャ、導入による効果検証について書かれています。 Percolatorの特徴は、ペタバイト級のリポジトリに対してランダムアクセスが可能な点です。また、利用者側がリ
a2ikm 2010/12/27
「逐次的に処理を行い，短い間隔で検索インデックスの更新を可能にしたシステム」別物かもしれないけどHadoopも逐次流しこみをするような機構を追加した気がすけどどうだったろう

google

percolator

mapreduce
リンク
Hadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記
今月中に実験の実装が終わるくらいでないと来月の投稿〆切に間に合わないので、今週から研究室のサーバに Hadoop をインストールしている。研究室にはサーバが20台弱あるのだが、そのうち10台強を使うことにして設定。これくらいの規模だと「大規模」と言うのは憚られるかもしれないが(Yahoo! や Google と比べて、という意味で。)、中規模、くらいには言ってもいいだろうし、たぶん、多くの大学や企業で使える台数もこれくらいだと思うし、大企業にいないとできない研究をするのも大変価値があるが、他の人たちがやる気になれば真似できる研究をするのも(データやインフラ勝負ではなくアイデア勝負になるので苦しくはあるのだが)重要だと考えている。たとえば、数台でも分散環境の恩恵が受けられる、というのはPFI が出した Hadoop の解析資料で知っていたので、初めて導入したときは参考になったし、こういう
a2ikm 2010/11/29
hadoop

mapreduce

research

naturallanguageprocessing

nlp
リンク
Googleの並列ログ解析向け言語「Sawzall」が公開されたので使ってみた | Preferred Research Blog
Rapidly Realizing Practical Applications of Cutting-edge Techno logies
a2ikm 2010/11/09
machinelearning

programming

algorithm
リンク
1 2 次のページ

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx