タグ

システム障害に関するwata300のブックマーク (3)

  • ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン

    同期処理が失敗した原因は、4台をつなぐスイッチの不具合。具体的には、スイッチが故障状態であるにもかからず、故障を知らせる「故障シグナル」を発信しなかった。国内線システムは故障シグナルを検知するとスイッチを予備機に切り替えるが、今回はその機能そのものを作動できなかった。 スイッチは完全に停止したわけではなく、「不安定ながらも動作していたようだ」(同)。そのため、DBサーバー間の同期は順次失敗し、停止していったと見られる。 ANA広報によると、スイッチは米シスコシステムズ製「Catalyst 4948E」という。「2010年6月の発売開始以降、世界で4万3000台、うち日で8700台を販売しているが、今回の不具合は初めての事象と聞いている」(ANA広報)。なぜ「故障シグナル」が発信できなかったかは分かっていない。 1台での縮退運転を決断 4台の完全停止から37分後、ANAは1台のDBサーバー

    ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン
  • みずほ銀行の3月のシステム障害の調査報告pdfが超面白いのでマはみんな読むべき « おれせん。

    みずほ銀行:システム障害に関するお知らせおよびお問い合わせ先 http://www.mizuhobank.co.jp/oshirase.html 中段の「システム障害特別調査委員会の調査報告書について」のリンク 直リンクはこれ(5/20掲載) 前半しばらく「グダグダ陶しい能書き」が続きますが9ページ目の「3. 障害発生以前のシステム障害及び対応状況」あたりからギアが入って、11ページ目の「4. 障害の発生事実」からトップギアというかちょっとしたヘル絵図であります。 ……ああ、その前にここを引用しておこうかな、4-5ページの「2. システムの概況」内「(3) 次期システムの概要」箇所。 (3) 次期システムの概要 次期システムについて、ビジネス環境の急激な変化に対応すべく、肥大化・複雑化した現行システムを新たなシステムとして再構築するために、2004 年から MHFG を中心に検討

    wata300
    wata300 2011/05/31
    《システム機能上の不備、未然防止に至らなかったシステムリスク管理態勢上の不備、復旧対応における緊急時態勢の不備、人材の育成・配置の遺漏並びに経営管理及び監査の不備等》バッサリだー!
  • みずほ銀行、障害の発端は人為ミス - 日経コンピュータReport:ITpro

    「社会インフラを担う銀行として、あってはならないトラブル。ご迷惑をおかけした皆様におわび申し上げる」。みずほ銀行の西堀利頭取は、3月15日から続く大規模システム障害に関する記者会見でこう陳謝した。 15日朝に表面化した障害は、振り込みシステムから起きた。「初動対応に不手際があった」(西堀頭取)ため、これが勘定系システムに波及(図)。その結果、最大で116万件の振り込みが未処理になった。窓口業務やATMもたびたび停止した(表)。

    みずほ銀行、障害の発端は人為ミス - 日経コンピュータReport:ITpro
  • 1