タグ

障害に関するtanorityのブックマーク (2)

  • みずほ銀行のシステム障害特別調査委員会報告書を読んで|つっちーさん

    おはよう人類。 2月28日のみずほ銀行のシステム障害を発端として、3月に計3回、その後も8月に3回のシステム障害が発生し世間を騒がせている。メガバンクの中でも最新かつ先進的なシステムを採用し、しかも格稼働してすでに2年以上たっているシステムで、なぜこのような障害が連続するのか、なかなか理解しがたいものがある。 このうち、2月28日の第1回目障害から3月中に発生した計4回の障害については、6月15日に外部の有識者によって構成されたシステム障害特別調査委員会による報告書が発表されている。文は167ページに渡るボリュームなのだが、結構内容に目を通している方も多く、TwitterBlog、Yotubeなどでも報告書の解説を試みている方もおられる(あまり目を通してはいないが)。 みずほFGの全面的なバックアップがあったとはいえ、限られた時間でこれだけの内容をまとめ上げるのも大変だったと思うし、

    みずほ銀行のシステム障害特別調査委員会報告書を読んで|つっちーさん
  • 障害対応時にまずはissueを作ると良い - そーだいなるらくがき帳

    先日のAmazon SQSの障害には色々と肝を冷やした人も多いのではないでしょうか。 classmethod.jp 今回のようなケースとは別に障害は大小あれど、みなさん日々戦っていることだと思います。 障害対応はエンジニアの花形であるものの、サービスに対する知識やソフトウェアの知識など経験と技術の両方が必要です。 そのため、どうしてもトラブルシューティングはエースエンジニアなどの一部の人に依存してしまう…などの問題が発生しがちです。 そこで今日は私の経験から障害対応のいろはを書いて行きたいと思います。 今回のスコープの外 実際に障害時の具体的な対応、例えば障害切り分けやRDBMSのボトルネックの探し方などの話はしません。 まずissueを作ると良い 題です。 トラブルを認知したらまずはissueを作りましょう。 issueを作るときはtemplateが事前に設定されていると便利です。 g

    障害対応時にまずはissueを作ると良い - そーだいなるらくがき帳
    tanority
    tanority 2020/04/30
    障害対応時
  • 1