タグ

運用とトラブルに関するhateq567のブックマーク (2)

  • 【社内資料公開】AWSトラブルシューティングページまとめ/より早い原因把握のために心がけること | DevelopersIO

    はじめに こんにちは植木和樹です。オンプレで10年近くサーバーの保守運用をやっていた経験からいいますと、AWSの障害発生率は非常に低くて驚きます。数百台規模のサーバーを扱ってますと、毎日どこかでのサーバーでディスク、CPUファン、メモリーパリティエラーなんかの故障が起きていて日々対応に駆けまわってた覚えがあります。 さてAWSの障害発生率が低いといってもゼロというわけではありません。仮に0.1%だとしても1000日つまり3年運用していれば1回くらい障害に遭遇するものです。0.01%だったとしてもサーバーが1万台あれば1日1回なにかしらのトラブルに遭遇しても不思議ではありません。 トラブルに遭遇すると、当然サービスや処理に影響をきたしてしまうわけで早期の暫定処置と、その後に恒久的な対策が求められます。その時に重要なのは早く正しく原因を特定することです。トラブルシューティング力が重要です。 A

    【社内資料公開】AWSトラブルシューティングページまとめ/より早い原因把握のために心がけること | DevelopersIO
  • 人間は誰でもミスをする、システムは必ず障害を起こす──トラブルを減らす“6つの知恵”

    「To Err is Human」、これは、1999年に米国の有識者機関である米国医学研究所(IOM: Institute of Medicine)から刊行された報告書のタイトルだ。日語に訳すと「人間は誰でもミスをする」という意味になる。 毎年約10万人が医療事故で死亡、米の死亡原因8位に この報告書によると、当時の米国では、毎年4万4000人~9万8000人もの患者が医療事故によって命を落としていた。これは、自動車事故やエイズによる死亡をはるかに上回り、第1位~3位の死亡原因を占める心臓病、がん、脳卒中といった三大疾病から順に数えても、米国の第8位の死亡原因と報告された。

    人間は誰でもミスをする、システムは必ず障害を起こす──トラブルを減らす“6つの知恵”
  • 1