タグ

hadoopに関するmyfinderのブックマーク (8)

  • Tokyo HBase Meetup - Realtime Big Data at Facebook with Hadoop and HBase (ja)

    This is the Japanese translation of the presentation at Tokyo HBase Meetup (July 1, 2011) Author: Jonathan Gray Software Engineer / HBase Commiter at Facebook

    Tokyo HBase Meetup - Realtime Big Data at Facebook with Hadoop and HBase (ja)
  • 米Yahoo!、リアルタイムなMapReduceフレームワーク「S4」公開 | gihyo.jp

    2010年11月4日、米Yahoo! はリアルタイムにMapReduceを処理する「S4」をオープンソースとして公開しました。米Yahoo! ではMapReduceを行うフレームワークとして「Hadoop」を利用および開発していることで有名です。しかし、Hadoopはバッチのようないわゆるオフライン処理に向いており、リアルタイムに処理するような目的には適していません。S4はリアルタイムにMapReduceを処理する目的で開発され、すでに検索広告のパーソナライゼーションなど実際のサービスで利用されているようです。 S4はJavaで書かれており、Hadoopとはコードベースでは関係ありません。コードベースでは大きくCommunication LayerとCore Classesに分かれています。クラスタ管理にはZooKeeper、シリアライゼーションにはAvroまたはKryoを利用しています。

    米Yahoo!、リアルタイムなMapReduceフレームワーク「S4」公開 | gihyo.jp
  • Hadoop Namenodeの冗長化について。

    最速配信研究会山崎大輔 制約理論及び待ち行列理論による技術経営コンサルエンジニア起業相談やってます @yamaz なるほど!個人的には素のHDFSをフロント配信には使いたくなぁと思ってたので、それなら納得です RT @kzk_mover: yamaz あと相当手を入れてZookeeperを使ったNameNodeの冗長化を独自で実装してるらしいです。 2010-11-22 00:43:26 Tatsuya Kawano @tatsuya6502 .@yamaz @cocoatomo Facebook はHDFS Name NodeのSPoF対策として Avatar Node というホットスタンバイのしくみを開発・公開し、1500ノードの番環境で使用しています。 http://j.mp/c0W60z #HBase 2010-11-22 08:50:24 Tatsuya Kawano @ta

    Hadoop Namenodeの冗長化について。
  • rsyslog now supports Hadoop's HDFS - Rainer Gerhards

    Rainer Gerhards Tech Enthusiast. Nature Lover. Computer Geek. rsyslog lead developer. I will be releasing rsyslog 5.7.1 today, a member of the v5-devel branch. With this version, omhdfs debuts. This is a specially-crafted output module to support Hadoop’s HDFS file system. The new module was a sponsored project and is useful for folks expecting enormous amounts of data or having high processing ti

  • HadoopによるApacheのログ解析の実際

    こんにちは、ミツバチワークス stoneです。 今日は、DECOLOGで行われている、Apacheのログ解析について、 ご紹介してみようかと思います。 現在、DECOLOGでは、リバースプロキシが8台あって、 その8台の1日のApacheのログは、全部で、200Gバイト以上になっています。 これを、13台のHadoopのスレーブノードで解析を行っています。 全体の流れとしては、 1) リバースプロキシからHDFSにログを転送 2) 解析用のサーバーで、HDFSにログの転送が終わるのを監視 3) ログの転送が終わったら、Hadoopを起動、解析 4) Hadoopの解析結果をデータベースに保存 以下では、各々のステップを個別に見て行くことにしますね。 1. リバースプロキシからHDFSにログを転送 当初、Hadoopのプロセスが立ち上がっていないと、HDFSにはアクセスできない、 と思い込ん

  • 勉強会発表「プログラマのためのHadoop入門」 - 科学と非科学の迷宮

    id:kaigai の主催する勉強会で発表してきました。 Hadoop for programmerView more presentations from shiumachi. 答えられなかった質問 Shuffleフェーズって、ソートをどういう仕組みでやってるの? データ全部をなめてるの? Partitionerというクラスでデータを振り分けてる。タスクごとは独立してるのでデータをまたがってアクセスすることはないと思う。でも細かいことはちょっとわからない。 Map中にデータ追加したらどうなるのか? さすがに扱うデータは最初に決めていると思うが、やったことないのでわからない。 Streamingって具体的にどんな処理してるの? jarファイルは投げてるけど、実行時に使うスクリプトはどうやって投げてるのかわからない。 あとで調べときます。 今の世の中に出てるHadoopって構築とか運用の話

    勉強会発表「プログラマのためのHadoop入門」 - 科学と非科学の迷宮
  • Hadoop+Hive検証環境を構築してみる

    Hadoop+Hive検証環境を構築してみる:Hive――RDB使いのためのHadoopガイド(前編)(1/3 ページ) Hadoop HiveはHadoop上でSQLライクなクエリ操作が可能なDWH向けのプロダクトです。SQLに近い操作が可能なため、HBaseよりもデータベースに慣れ親しんだみなさんには使い勝手がいいかもしれません。稿ではこのHiveの使い方とレビューを行っていきます。

    Hadoop+Hive検証環境を構築してみる
  • hadoop - Open Blog - The New York Times

    Oh, OSCON, we really do heart you here at NYTimes.com. You provide such great opportunities to mingle with developers and hear about all the new and exciting open-source technologies. This year, we were very excited to talk about our freshly open-sourced cloud management system, Nimbul. We also shared our stories about moving the NYTimes.com community platform to Amazon EC2. If you missed our pres

  • 1