※本記事ではうるう秒によるjavaの異常と、それに伴って生じたHadoop 0.21.0 HDFSのメタデータ破損からの復旧手順を説明します。なお、本復旧手順は私の環境で上手くいっただけであり、他の環境で同様の手順を行ったとしても復旧できる保証はありませんので、ご注意ください。 昨日(2012/7/1)Hadoopクラスタの一部マシンでCPU負荷が突然MAXに張り付いていることに気付きました。 今日になってこの現象はうるう秒のあとにjavaに生じた不具合であることが分かりました(参考:http://d.hatena.ne.jp/sh2/20120702、このブログの記述と同様にjavaとksoftirqdプログラムが大きなCPU負荷を占め続けていました)。 この障害が起きていたのはOSがfedora10, 13のマシン群で、他のマシンはCentOSであり不具合無く動作していました。 試行錯
Amazon EMR セミナーに行ってきたので、個人的にまとめておく http://kokucheese.com/event/index/34636/ 日時: 2012/5/18 14:00 – 17:00 会場: アマゾン目黒オフィス 東京都目黒区下目黒1-8-1アルコタワーアネックス16F メインスピーカーは、EMRのSenior Product Manager の Adam Gray氏 場所は目黒のAmazonJapanの本社。渋谷の東邦生命ビルの時とは大違いで、ビル全てがAmazonという陣容。16Fのセミナールームはおそらく200名前後は余裕で入れるしっかりした部屋で、東京でのAWSのセミナーは大抵はここでやっていることが多い。 今回のセミナーはどうやら複数回やったようで、自分はこの金曜日に、同じ会社の他のメンバーは翌日に呼ばれたようだ。パートナー向けのプライベートセミナーで、「
【ノーチラス・テクノロジーズ の詳細はこちら】 http://www.nautilus-technologies.com/ http://www.facebook.com/NautilusTechnologies https://twitter.com/#!/NAUTILUS_Tech 【Asakusa Frameworkの詳細はこちら】 http://www.asakusafw.com/ https://twitter.com/#!/asakusa_hadoop 【この動画について】 この動画では、Hadoopの適用基準や、バッチ処理基盤としてのHadoopに「何が足りないのか?」、そしてHadoopの足りないところを補うAsakusa Frameworkについての解説をしています。 Hadoopは信頼性の高い、スケーラブルな分散処理基盤を提供する
ひしだまHPの更新履歴。 主にTRPGリプレイの元ネタ集、プログラミング技術メモと自作ソフト、好きなゲームや音楽です。 Amazon Elastic MapReduceの勉強会『第1回EMR勉強会(Hadoop on AWS)』に参加しましたので、そのメモです。(Twitterのタグ→#emrstudy_jp、他の人のメモ→くろのさん) (会場の最寄り駅はテレコムセンター駅。ゆりかもめは国際展示場正門以外で初めて降りたかもw) 最初はクリエーションライン株式会社の李さん。 まずAmazon Web Service(AWS)の簡単な紹介として、AWSはWeb系・業務系・Highパフォーマンス(並列)・BigData等、色々な分野で使われている。 EMRはクラウド型Hadoopサービス。 プログラムや入出力ファイル・ログはS3に格納する。(HiveのメタデータはRDSに置く) プログラムはSt
”ビッグデータで奇跡が起こる” はいどうも。まず、個人的には楽天的な進歩史観には、まったく組しない。 従って、突然に新技術ができて、なんか凄い事になる、というのはさらにまったく同意しない。すべからくブレイクスルーは課題解決により起こると思っているので、問題意識のないところに、こんなものできました的な発想は、基本的にプラスにならないことが多いと思っている。現状のビッグデータブームは2011年の秋口現在は完全にハイプになっており、バブルと言ってもいいと思う。印象として、十数年前のナノテク・ブームに似ている。 とはいえ、過度の期待という側面を除けば、それなり効果もある部分もあり、”そこだけ”を見ていけばそれなりに効果はある(と思う)。大体において、今後は以下の二つのユースケース・カテゴリーに集約されると思う。すなわち、ビッグデータの拠り所はまずもって以下の2点だ。 1 Webのログ解析 というか
昨日の深夜に某氏講師による「JavaエンジニアのためのHadoop入門」 の話題がネタになってましたが、僕はJavaエンジニアとしてキャリアを積んできてHadoopに入門しました。キリ HadoopはJavaで書かれているのでJavaエンジニアのキャリアのひとつとしていいと思いますけどね。 当初はHiveでデータ処理をしていましたがうまくHiveQLが書けず、DBエンジニアからHadooperになった人にSQLやデータモデルについて教えてもらったりしてました。 最近はインフラまわりをやるようになって、HeartBeatわかんねーーーーってなって、インフラエンジニアからHadooperになった人にいろいろ教えてもらったりしてました。 かようにHadoopを使う場合はいろいろなスキルが求められます。 まずインフラ構築、運用ならざっと下記のような作業が必要になるでしょう。 ハードウェア選定 ハー
Heroku has added automated support for Hadoop through Treasure-Data, a startup that is still in “stealth,” mode, according to its Web site. Heroku currently offers Hadoop support with Amazon Elastic MapReduce as a manual set up. But Treasure-Data adds something more. It helps remove the complexity that comes with managing Hadoop clusters. According to the Heroku Web site: Through Treasure Data Had
まず、社内のオープニングで説明した内容だったりするのですが、一回まとめておきたいので。 断っておくとこの言い方はニコラス・ネグロポンティから取っています。彼の主張は明確でいままでアトム(物質)的な存在だったものが、ビット(電子情報)的な存在に凌駕される、いや大きく姿を変えてるという指摘でございますね。Being digitalが出版されたのが95年なので、もう15年以上になるわけですね。ま、ざっくりすぎてアレですが。・・ワーディングとして便利なので利用させてもらいます。 まず、主題は何かというと、「バッチが速くなって何がうれしいのか?」という問題の背景をちゃんと説明しておきたい。もともとHadoopで何がしたかったのかというと、そもそもバッチのスピードを上げたかった。そもそもRDBMSではまぁ限界があったというのが事の起こり。んで分散処理を行うとIOが分散されるので、スピードがあがりますね
WELCOME TO HPE E Z M E R A L LEARN ON-DEMAND Click a tile and start your journey
Hadoop World 2011でClouderaの人が発表した資料を見つけたのではっておく。 Hadoop Troubleshooting 101 - Kate Ting - Cloudera View more presentations from Cloudera, Inc. Clouderaのサポートチームの極意が詰め込まれているようだ。 内容的にはHadoop徹底入門の10章の「性能向上のためのチューニング」と若干かぶっているが参考になります。 io.sort.mb < mapred.child.java.opts とすることとか(ていうかmapred.child.java.optsを増やすことはあるかもしれないがio.sort.mbっていじるもんなのかな)、プロセス数やファイルディスクリプタいじれとか、map出力のスレッドいじれとか、Jetty 6.1.26は使うなとか、盛り
次世代Hadoopの開発が進んでいる。現状の推移では、少なくとも分散クラウドでの「OSSインフラ」としてはHadoopが最有力候補であることは間違いない。クラウド上での分散処理基盤での技術競争ではGoogleやAmazonが相当抜きんでいる現在、それに対抗しうる可能性があるOSSはHadoopの潮流の延長線上にしか考えられない。その形としてHadoop-MapReduce2.0があるように見える。現在の状態で自分なりの次世代Hadoopの理解をまとめておく。基本的に全部は見切れていないので、そのあたりはあしからず。基本的に次世代Hadoopの仕組みは大きく二つの要素からなる 現在のところの柱はHDFSとMapreduce2.0の二つだ。 まずMapReduce。これは従来の「MapReduce」というものからはほど遠い。むしろ「任意」の分散処理実行フレームワークにたいして、適切なリソースを
2011/10/16 "第14回 データマイニング+WEB 勉強会@東京"を開催しました。 第14回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 14th)−大規模分散データマイニング 祭り−: Eventbrite Google グループ 会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。 参加者ID・バックグラウンド一覧: 以下、全講師資料、関連資料、ツイートまとめです。 AGENDA: ■Opening Talk: O1.「データマイニング+WEB勉強会@東京 について」(10分) 講師 : id:hamadakoichi [Twitter:@hamadakoichi] オープニングト
まあ以下の文章をダシにする必要は無い内容になっちゃったけど: さてHadoop関連の某セミナーへの参加者が900人を越えたそうです。個人的にはHadoopを必要としている人、またはHadoopに関わる人というのはそれほど多くないと思うのですがね。HadoopのもととなったMapReduceは良くも悪くも、きわめて癖が強い分散処理手法。それをベースにしたHadoopも当然、汎用的なシステムではなく、データ特性や処理内容を選びます。どちらかというと既存のデータ処理に問題を抱えている方で、その中で問題解決にHadoopがたまたま向いている方になると思うのですがね。 それとHadoopを使うと分散システムは様々な難しい問題を解決すると思っている方が多いのも気になります。分散システムのは難しい問題のほとんどは、元を辿れば通信遅延に起因します。つまりコンピュータ間で情報共有する場合、他のコンピュータに
Hadoop Conference Japan Fall 2011が 終わったので、その印象を記録しておきたい。 詳細は、日経の中田さんの記事が 今のところ一番的確な感じ。 Hadoopカンファレンスが開催、本格普及を見据えた支援サービスや先進事例が充実 | 日経 xTECH(クロステック) 内容はこの方の記事がすげーので Attending Hadoop Conference Japan 2011 Fall in Shinbashi, Bellesalle Shiodome! #hcj11f - #garagekidztweetz また別の方のブログ記述もあるので、参考に。 http://d.hatena.ne.jp/smg-engineer/20110926/1317067540 まずは、主催して頂いたリクルート社の方々に 厚く御礼申し上げたい。本当にありがとうございました。 凄く大変
もともとHadoopは注目の仕組みであったけど ここに来てさらに大きな流れになろうとしてる。 各種のイベントや記事にしても大型のものが多く 一種のHype状態になってきている。 Hadoop Japan Conference 2011 Fall Hadoop Conference Japan 2011 Fall Tickets, Mon, Sep 26, 2011 at 10:00 AM | Eventbrite 登録人数で1000人を超えている。 Cloud Computing World Tokyo 2011 & Next Generation Data Center2011 Apache Hadoop: A New Paradigm for Data Processing http://www.idg.co.jp/expo/ngdc/2011/index.html このイベントがあっ
データモデル データをHiveで読む [/2014-12-13] データをPigで読む [2011-08-15] テキストファイルを扱う [2015-12-05] シーケンスファイルを扱う [2012-07-11] バイナリーファイルを扱う [2012-07-10] データモデルドライバー [/2015-07-25] テストドライバー [2011-08-27] dmdlファイルの読み込み [2018-11-25] サンプル Oracleシーケンス [/2018-11-01] Asakusa Frameworkの概要 AsakusaFWは、(複数のマシンで)分散して処理を行うバッチアプリケーションを開発する為のフレームワーク。[/2015-07-04] AsakusaFWの独自言語(Asakusa DSL)で処理を記述し、コンパイルすることで、実行用のバイナリーを生成する。 AsakusaF
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く