タグ

incidentに関するhdkINO33のブックマーク (4)

  • 毎日2000個のコンテナをstartする鯖が突然死して僕が驚愕した話

    #dockerlt での発表資料です。 http://connpass.com/event/20561/

    毎日2000個のコンテナをstartする鯖が突然死して僕が驚愕した話
  • Expired

    Expired:掲載期限切れです この記事は,産経デジタル との契約の掲載期限(6ヶ月間)を過ぎましたのでサーバから削除しました。 このページは20秒後にITmedia ニュース トップページに自動的に切り替わります。

    hdkINO33
    hdkINO33 2016/05/13
    「夜の校舎 窓ガラス 壊して回った」との関連性は不明。(でも何か似てる
  • 判明、ANAシステム障害の真相

    大型のシステム障害の詳細が見えてきた。全日空輸(ANA)が2016年3月22日に起こした国内線旅客システム「able-D(エーブルディ、以下では便宜上開発コード名のANACore:アナコアと称す)」のシステム障害では全国49の空港で搭乗手続きができなくなり、ANAと提携航空会社5社の合計で719便、7万2100人以上に影響を及ぼした。インターネットや予約センターでの予約などもできなかった。 ANAは障害発生から8日後の3月30日に経緯や原因を公表、さらに4月11日に弊誌のメール取材に応じ、一段詳しい真相が判明した。 4台のSuperdomeをRACでクラスタリング 今回のシステム障害の中身は3月20日のニュースで報じた通り、4台のデータベース(DB)サーバーが停止したというもの(関連記事:ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン)。今回、弊誌

    判明、ANAシステム障害の真相
    hdkINO33
    hdkINO33 2016/04/19
    ServiceguardのIPモニター設定してたら回避できた、かもね。(しらんけど https://t.co/ouKY6z1FCA / メイン用途がL2SWとしてだと、やっぱIC用セグのVLAN I/FにはIPアドレス振ってなかったんだろうなあ。必要ないと思っちゃうだろうし
  • Google Compute Engine、全世界のリージョンが同時に外部とのネットワーク接続を失うという深刻な障害が発生。ネットワーク管理ソフトウェアにバグ

    Google Compute Engine、全世界のリージョンが同時に外部とのネットワーク接続を失うという深刻な障害が発生。ネットワーク管理ソフトウェアにバグ クラウドのどこかで障害や災害が発生したとしても、その影響はアベイラビリティゾーンを超えることはなく、そのために複数のアベイラビリティゾーン(Google Compute Engineでは「ゾーン」)にシステムを分散して配置することで、クラウドの障害の影響を受けない高い可用性を備えたシステム構築ができる。これはクラウド(IaaS)に対応したシステム構築におけるもっとも基的な考え方です。 しかし先週、2016年4月11日にGoogle Compute Engineで発生した通信障害は、アベイラビリティゾーンどころかリージョンの境界も越え、世界中にあるすべてのリージョンのインスタンスが同時に外部とのネットワーク接続を18分間に渡って失う

    Google Compute Engine、全世界のリージョンが同時に外部とのネットワーク接続を失うという深刻な障害が発生。ネットワーク管理ソフトウェアにバグ
    hdkINO33
    hdkINO33 2016/04/19
    "直前のコンフィグレーションに戻る代わりに、新しいコンフィグレーションからすべてのIPブロックを削除したものを適用して、その設定を伝播させはじめたのだ" こわい……
  • 1