タグ

hadoopとtroubleshootingに関するmuddydixonのブックマーク (3)

  • Fluentd+WebHDFSの書き込み問題 | 外道父の匠

    以前に晒したFluentdからWebHDFSに対してログを流し込むフローの部分を、 少しキツ目の環境にブっこんで運用したら色々問題点がでてきたので記しておきます。 どちらかというとFluentdというよりはHDFSよりの話になります。 HDFSファイルのCREATEエラー 複数のFluentd CollectorからHDFSの1ファイルへ共通して書き込むというスタイルをとってみました。こんな感じに1分毎のHDFSファイルとして。 Collector-01 ─┐ Collector-02 ─┤ Collector-03 ─┼─> HDFS %Y%m%d-%H%M.log Collector-04 ─┤ ...

    Fluentd+WebHDFSの書き込み問題 | 外道父の匠
  • Fluentd+WebHDFS&DataNode半死で起きた問題 | 外道父の匠

    Fluentd CollectorからHDFSに書き込むのに fluent-plugin-webhdfs を利用していますが、 DataNodeが1台変死した際に色々おかしくなったので書き留めておきます。 原因特定と解決方法の確立はできていません!あしからず。 直接の原因はSLAVEサーバ(DataNode)が中途半端に落ちたこと 1台のSLAVEサーバに異常が発生したことが直接の原因であり、状態としては SLAVEサーバがKernel Panic!! ホストへのPingは通る 各種デーモンへのTCP接続は確立できる 各種デーモンは一切お返事をしてくれない 試したのがDataNodeでないのが心苦しいですが、復旧前に確認できたのはSSH接続で、 ssh -p22 host は無応答で、telnet host 22 はリクエスト待ち状態になる半死状態でした。 この状態が、Fluentdまたは

    Fluentd+WebHDFS&DataNode半死で起きた問題 | 外道父の匠
  • Hadoop SecondaryNameNodeのメモリ不足エラー | 外道父の匠

    少々可愛がり方が足りなかったのか、SecondaryNameNodeでメモリ不足が発生して、機能が停止してしまいました。 その際の調査や修復の記録になります。 SecondaryNameNodeのおさらい SNNの機能を復習するとこんな感じ。 SNNが定期的にNameNodeからfsimageとeditsログを取得する SNNでfsimageにeditsを適用する NameNodeにfsimageを送り返す NameNodeとSNNにデフォで2世代分のfsimageが残る NameNodeのedits_inprogressがeditsにローテートされて新しいedits_inprogressが始まる 障害内容 現象 SNN起動時は正常にfsimageを送り返してるように見える period秒後の2回目以降はNameNodeに接続しようとすらしない SNN管理画面 http://localho

    Hadoop SecondaryNameNodeのメモリ不足エラー | 外道父の匠
  • 1