My Philosophy on Alerting 共有ログインお使いのブラウザのバージョンはサポートが終了しました。 サポートされているブラウザにアップグレードしてください。閉じる ファイル編集表示ツールヘルプユーザー補助機能デバッグ
前のブログの続きで、もにかじ7で話した小ネタその2。 実際にサービスでなんかやったというのじゃなく、こういうこと考えてるんだけどみんなどうしてます?って話です。 まずオンプレ時代はサーバのスペックダウンはけっこう大変だったし、頑張ってメモリやCPU引っこ抜いてもそんなに節約にならなかった。 ※CPUやメモリはサーバ価格の一部でしかないし、ラック費用(消費電力)もあるし。 でもクラウド前提だとスペックダウンはとても簡単で、スペック半分にすると価格も半分になる。 そうすると、 『イベントで一時的にc4.4xlarge(8万/月)にして、そのまま最大CPU使用率10%とかで数ヶ月放置されている』 みたいなのはビジネス的な損失という意味で明らかに障害で、監視すべきじゃないだろうか? みんななんかやってますか? というようなことを参加者に聞いてみました。 参加者の中では、AutoScalingしてい
My Philosophy on Alerting - Google ドキュメント http://robewaschuk.tumblr.com/post/48822960728/my-philosophy-on-alerting My Philosophy On Alerting 元 Google "Site Reliability Engineer" で現 Tumblr? の著者 Rob Ewaschuk による、サービスモニタリングとアラートに関する原則。 アラートによる呼び出し(page)は以下の要件を具えていなければならない。 緊急のものであること。 重要なものであること。 行動を起こすことが可能であること。 知性が必要なものであること。機械的対応でよいのなら、アラートは無意味。 現実に則したものであること。 現在サービスに起こっている・起ころうとしている問題をあらわしていなければ
完全に個人の日記レベルの話ですが、コンピュータのログと通知の話を書きます。 ログといってもまぁいろいろあるわけですが、何のためにログ取ってるかというと、異常なことが起こったことが分かるように、とか異常が発生したときに原因が分かるように、とかもっと進んだ考え方でいえば異常の予兆をとらえるとか、そんな感じかと思います。 なので最初はとりあえず異常なことが起こったら分かるようにログに記録するというのが最初に一歩になります。それが出来たら異常が発生したときの原因究明がすぐできるように詳細な情報をログに残すようにして、最後に正常な処理もログに残していけば危険な予兆をとらえることができるようになるかなと。なんか書いてみたら至極当たり前っぽい感じになりました。おそらく運用をやっているエンジニアはみんな気をつけていることだと思います。 ログというのは大量に存在して価値があるものなので、記録することに価値が
本日、Mackerelをベータ公開しました。 Mackerelは、ウェブアプリケーションのパフォーマンスとインフラを管理するための新しいサービスです。 Mackerelとは Mackerelは、次のような問題を解決することを目指しています。 複数のサーバのリソース状況を効率的に可視化 各種ツールと連携することでサーバ情報の多重管理を解消 複数のクラウド環境を一元管理 リソース消費状況を可視化するだけではなく、APIによる各種ツールとの連携で、開発と運用の自動化をより促進させていきます。 詳細は、下記のリンクからどうぞ。 利用開始 https://mackerel.io/ja/ ヘルプページ https://mackerel.io/ja/docs/ 正式化に向けて ベータ期間中は、すべての機能を無料でご利用いただけます。正式版では無料でご利用いただける範囲に制限がつきます(料金などの詳細は正
sysdig とは? Sysdig is open source, system-level exploration: capture system state and activity from a running Linux instance, then save, filter and analyze. Think of it as strace + tcpdump + lsof + awesome sauce. With a little Lua cherry on top. http://www.sysdig.org/ 上に書いてある通り、一言で言うと strace + tcpdump + lsof + α。tcpdumpのように-wで書き出して-rで読み込めるのがありがたい。 高機能過ぎてまだ全然使いこなせてないけど、ぱっと触った感じ使えそうだなと思ったものを紹介。 1. プロ
ES + kibanaでサーバモニタリングをやってみたのですが、ESのCPU負荷がかなり高くて、リアルタイムにモニタリングできない状況だったので、graphite + grafanaにしてみた。ちなみに、ESのサーバのCPU負荷はこんな感じ。 GrafanaはGraphite用のDash boardを作るツール。最近、influxDBにも対応していてなかなか野心的。 Grafana - Graphite Dashboard kibanaをforkしただけあって、画面はそっくり。まだ修正もれがあるのか、メッセージにkibanaって文字がでてくることもある セットアップ もろもろのセットアップのメモ 監視サーバ まず、監視サーバにGraphiteとGrafanaをいれる。環境はCentOS6 CentOS6.x - CentOSにRPMでGraphite+Diamondをインストールする -
Features Why choose Mackerel? Mackerel is a server monitoring service provided by Hatena Co., Ltd.that offers all the functions necessary for cloud monitoring and service operation. Overwhelmingly Simple Installation Simply install the monitoring agent on your server and you're ready to start monitoring. See details Full-fledged Monitoring The ability to integrate various communication tools promo
異常値検知、素敵な響きですね!fluent-plugin-anomalydetect 作りました - PolyPeaceLight あらかじめ固定値でアラートの条件を決めておかなくても、通常と異なる数値変化を検出してアラートできたら大変嬉しい、ということでインストールして一週間ほど運用してみました。 fluent-agent-lite で送信されてくる nginx のアクセスログの数を対象 60秒間隔で集計 <match nginx.access.**> type copy <store> ... </store> <store> ... </store> <store> type anomalydetect tag nginx.anomaly.access_log tick 60 store_file /var/log/td-agent/anomalydetect.dat </store
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く