タグ

Hadoopに関するk1LoWのブックマーク (6)

  • キー毎に値を集計する方法 - ひしだまの変更履歴

    ひしだまHPの更新履歴。 主にTRPGリプレイの元ネタ集、プログラミング技術メモと自作ソフト、好きなゲーム音楽です。 irofさんとdaiksyさんがTwitter上でキーブレイク処理について話していました。 (リストを項目ごとに集計する→「ブレイク処理」を定形のアルゴリズムとして習いました→こんな解りにくいの、なんで好んで書くんだろう) キーブレイク処理というのは、データをキーでソートしておいて順番に読み込み、キーが同じ値の間に処理(よくあるのが集計)を続ける。キーが違う値になったら(キーがブレイクしたら)集計値を出力し、集計用変数をクリアしてまた処理を続ける。というアルゴリズムです。 ひとつ前のキーの値を保持しておく変数が必要で、最初はそれをどういう値にしておくか、また、ループを抜けた後に最後のキーの集計値を出力する必要があるか、といった辺りも考慮しないといけないので、慣れないと分か

    キー毎に値を集計する方法 - ひしだまの変更履歴
  • Node で Hadoop Streaming の Map/Reduce

  • blog.katsuma.tv

    久々のBlog更新、というわけでリハビリがてらJavaScriptで軽く遊んでみたいと思います。 いま、巷で流行ってるMapReduceのオープンソース実装Hadoopは「Hadoop Streaming」という標準入出力でデータのやりとりができる仕組みを使って、 Hadoopの実装言語であるJavaにとらわれず、RubyPerlなど他の言語でもMap+Reduceの処理ができることが1つのウリになっています。 で、僕たちwebエンジニアはみんなJavaScript大好きなので、「JavaScriptでもMap Reduceやりたい!」という流れになるのは必然です。 そこで、試行錯誤でいろいろ試してみると割とさっくり出来たのでそのメモを残しておきたいと思います。 環境の整備 Mac OSX上のVMWare FusionにCentOSの仮想マシンを2台立ち上げて、環境セットアップしました。

  • クックパッドとHadoop - クックパッド開発者ブログ

    はじめまして。今年の5月に入社した勝間@さがすチームです。 入社してからは、なかなか大変なことも多いですが、最近はお酒好きが集まって月曜から飲み合う 「勝間会」なるものも発足して、仕事面でも仕事以外の面でも密度の高い毎日を過ごしています! さて、僕は「さがす」チーム所属ということで、普段はレシピを「さがす」ユーザの満足度を上げるために、 クックパッドの検索まわりについて、いろいろな開発を行っています。 一方で、ユーザの「さがす欲求」について深く知るために、大規模なデータ解析を行い、欲求の分析を行う機会も増えてきました。 ところが、クックパッドのログは膨大な数があるので、一口のデータ解析と言っても通常のバッチ処理だと間に合わないため、 分散処理環境の必要性が高まってきました。 そこで、まずは手軽に試せる分散処理の王道ということで、最近ではHadoopを使ったデータ解析環境を整備しています。

    クックパッドとHadoop - クックパッド開発者ブログ
    k1LoW
    k1LoW 2009/09/17
  • 米ヤフー、Hadoopの自社開発版をリリース

    Yahooは米国時間6月10日、Hadoopの自社開発版をオープンソースとしてリリースすると発表した。なお、Hadoopは同社の業務の多くを支えているグリッドコンピューティングフレームワークである。 Yahooは、Apache Software Foundationが主導しているHadoop開発に大きく貢献してきている。Hadoopは基的に、Googleが同社のインデックスサーバを稼働させるために使用しているソフトウェアのオープンソース版であり、Yahooも自社においてGoogleと同じ目的でHadoopを使用している。 Yahoo Grid Technologiesの品質およびリリース担当エンジニアリングマネージャーであるNigel Daley氏の10日付けのブログ投稿によると、HadoopはYahooの社内において膨大な数のサーバ上で実行されているという。他の企業や組織にとって、Ya

    米ヤフー、Hadoopの自社開発版をリリース
  • mrtoolkit - Google Code

    Code Archive Skip to content Google About Google Privacy Terms

  • 1