[B! エンジニア][trouble] luccafortのブックマーク

luccafort id:luccafort

エンジニアとtroubleに関するluccafortのブックマーク (2)

AWS でいままで起きた大規模障害を振り返る - Qiita
目的 2017/3/1 に us-east-1 の S3 大規模障害がありました。過去にもいくつか発生しているのと、いつ使っているリージョンで同じ事態が起きてもおかしくないと思い、これを機に過去どのような障害があったのか遡って調べました。所感毎年どこかのリージョンで大規模な障害が起きている ap-northeast-1 で起きていないのはたまたま、運がいいだけ AWS は復旧時間の改善・可用性向上に全力を尽くしているものの、未知の障害はいつかどこかで起きるものステータスダッシュボードは時に嘘をつくクラウドシェアトップである AWS はインターネット全体の SPOF になりつつある Chaos Monkey の思想は必須報告書読むの面白い AWS の中身がすこし透けて見えてきます前回データセンターについて調べたことが役に立った AWS のデータセンターに侵入する（妄想で） - Q
luccafort 2017/03/04
読んだ。

aws

Amazon

cloud

障害

運用

trouble

システム障害

エンジニア
リンク
システム障害と僕達はいかにして戦えば良いのか、障害対応について考えた - Qiita
IT界隈でエンジニアしていると、よく出くわすのが障害対応です。できれば会いたくないという人が多いと思うんですが、僕はけっこう好きです。障害対応。どこに原因があるのか調査をして、バランス良くベターな対応をしたときの楽しさは、プログラミングとはまた違ったものがあります。探偵っぽい感じが面白いですよね。もちろん、障害が発生しない状況を作るのが一番です弊社では数多くのWebサービス／アプリを運営しているので、過去様々な障害対応をしてきました。その際に、解決までどんな道筋を僕がたどるのかを振り返ってまとめてみました。これが大正解なんてことはなく、人や事象によって違うとは思いますが。なお、障害検知手法とか、サーバのコマンドとか、コードのデバッグ手法とか、具体的なことは一切出てきません。手続きと思考プロセス的な話です。障害対応フローチャート一般的な感じだと思いますが、障害報告から対応完了までのフ
luccafort 2015/12/17
全体的に良いまとめで社内で共有したい。月一で全エンジニアで共有するTGIFがあるのが最高にいい。

IT

サーバ

重要

障害対応

運用

エンジニア

障害

プログラマ

trouble
リンク
1