タグ

し:システム障害に関するchiaki99のブックマーク (47)

  • [ネットワーク]使いものにならない光回線、グーグル発の大規模障害が話題に

    ネットワーク分野で2017年に最も人気を集めた記事は「『遅くて使いものにならない』という光回線への声、定額制も限界か」だった。“高速”が売り物のはずの光回線サービスで使い物にならないくらい遅くなる事態が実は発生しており、その背景としてNTT東西とプロバイダーの裏事情があるという、多くの人が気付いていなかった点をいち早く解説した記事だ。同様のことを感じている人が多く、それらの間でソーシャルネットワーク(SNS)などを通じて拡散したことで話題となった。 1位と肩を並べるアクセス数だったのが2位の「米グーグルの設定ミス、なぜ日の大規模ネット障害を引き起こしたのか?」だ。これは8月25日の昼ごろに日国内で発生した大規模な通信障害について、米グーグルの誤設定が原因だということを伝えた記事である。単純にニュースとして事実を伝えるだけではなく、「なぜそうなったのか」ということをインターネット上の経路

    [ネットワーク]使いものにならない光回線、グーグル発の大規模障害が話題に
  • 優秀なシステムほど恐ろしい、たまの緊急事態に対処できず

    読者のみなさんに簡単な問題を出したい。「トラブルが半年に一度発生するシステムと、5年に一度しか発生しないシステムでは、どちらが深刻な事態になるか」。まずは最近発生した事件について見たうえで、答えについて検討してみたい。 2017年8月29日、北朝鮮がミサイルを発射した際、Jアラート(全国瞬時警報システム)は警報を発したものの、各地で情報伝達がうまくいかないトラブルが「また」発生した。 総務省消防庁によると警報の対象は12道県617市町村だが、24市町村において情報伝達に支障が生じたという。理由は様々だが、「Jアラート関連機器の設定誤り」が5件、「登録制メール配信システム関連機器の設定誤り」が8件など、人為的ミスをうかがわせる要因が大多数を占めた。 「また」と書いたのは、Jアラートはこれまで何度も、動作不良や誤報を繰り返してきたからだ。2016年11月にも、茨城県の自治体で震度5弱の地震が発

    優秀なシステムほど恐ろしい、たまの緊急事態に対処できず
  • 8月25日に発生した大規模通信障害をまとめてみた - piyolog

    2017年8月25日12時過ぎより、Webサイトにつながらない等の接続障害とみられる事象が複数発生しました。また同時間帯にNTTコミュニケーションズ、KDDIから障害報告が発表されています。ここでは関連情報をまとめます。 インシデントタイムライン 日時 出来事 8月25日 正午過ぎ Googleが誤った経路情報を送信。 〃 12時22分 NTTコミュニケーションズのOCNバックボーンで通信障害発生。 〃 12時24分 KDDIのサービスで通信障害発生。 〃 以降 日国内の複数のサービス等で接続障害が発生。 〃 送信後8分以内 Googleが誤設定情報を修正。 〃 12時39分 KDDIの通信障害が復旧。 〃 12時45分 NTTコミュニケーションズの通信障害が復旧。 〃 夕方頃 各組織で発生した障害が概ね復旧。 8月26日 Googleが誤設定を認め、謝罪する声明を発表。 8月29日 総

    8月25日に発生した大規模通信障害をまとめてみた - piyolog
  • [続報]OCNの通信障害、米グーグルによる誤った経路情報の大量送信が原因か

    2017年8月25日、NTTコミュニケーションズ(NTTコム)のインターネット接続サービス「OCN」で発生した通信障害に関して、インターネット通信関連の識者は誤った経路情報が大量に流れたことが原因ではないかとの見方を示した。ここでいう経路情報はルーターがBGP(Border Gateway Protocol)というプロトコルを使って交換するものだ。 日ネットワークインフォメーションセンター(JPNIC)の岡田雅之氏は、NTTコムは複数の組織と対等な関係でネットワークの経路情報をやり取りしているが(これを「ピアリング」という)、そのうちのある組織が誤った経路情報を大量に流したのではないかと話す。その結果、「NTTコムを介してインターネットに接続していた企業のルーターが、大量の経路情報を受け取り高い負荷がかかり、一部はフリーズしたような状態に陥るなどして通信障害につながったのではないか」(岡

    [続報]OCNの通信障害、米グーグルによる誤った経路情報の大量送信が原因か
  • システムに完ぺきを求め、不幸を撒き散らす疫病神はあなたです

    「なぜ皆さんはプログラムに完ぺきを求めるのですか。そんなの無理に決まっているでしょ!」。某官庁の大会議室。居並ぶ大手ITベンダーの経営者や著名学者らが、システム障害ゼロを目指す取り組みの重要性を説く中、つまらなそうに聞いていたITベンチャーの若手経営者は、官僚から発言を求められ、そう言い放った。会議室の空気はブリザードに襲われたように凍りついた。 随分前の話とだけ書いておくが、当時は大規模なシステム障害が多発し社会問題になっていた。この会合は、システム障害を防ぐ抜対策という非現実な命題を検討するためのもの。出席した誰もが内心では「そんなこと無理!」と思っていたはずだが、官僚の要請なので、出来もしない解決策を順番に開陳していた。それなのに若手経営者の発言。「そいつを言っちゃあおしまいよ」。出席者たちの心の声が聞こえてきそうだった。 この会合でどんな成果物が出来たのか記憶に無いし、過去の話を

    システムに完ぺきを求め、不幸を撒き散らす疫病神はあなたです
  • 判明、ANAシステム障害の真相

    大型のシステム障害の詳細が見えてきた。全日空輸(ANA)が2016年3月22日に起こした国内線旅客システム「able-D(エーブルディ、以下では便宜上開発コード名のANACore:アナコアと称す)」のシステム障害では全国49の空港で搭乗手続きができなくなり、ANAと提携航空会社5社の合計で719便、7万2100人以上に影響を及ぼした。インターネットや予約センターでの予約などもできなかった。 ANAは障害発生から8日後の3月30日に経緯や原因を公表、さらに4月11日に弊誌のメール取材に応じ、一段詳しい真相が判明した。 4台のSuperdomeをRACでクラスタリング 今回のシステム障害の中身は3月20日のニュースで報じた通り、4台のデータベース(DB)サーバーが停止したというもの(関連記事:ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン)。今回、弊誌

    判明、ANAシステム障害の真相
  • JALシステム障害、前週に追加の排他制御がデッドロックを誘発

    航空(JAL)は2016年4月6日、4月1日に発生した重量管理システムの障害について公表した。開発元から適用されたパッチの中に、キャッシュの排他制御を追加する設計変更があり、もともと実装されていたディスクの排他制御との間でデッドロックが発生したことが引き金になった。 システムはルフトハンザ子会社製 問題となった重量管理システムは、独航空大手Lufthansaの子会社である独Lufthansa Systems(LHS)製の「NetLine/Load」。乗客の人数や座席配置、貨物や燃料の量を基に重心を計算し、貨物の最適な搭載位置を算出して指示を出す役割を担う。JALのほか独LufthansaやカナダのAir Canadaなどが導入している。JALの場合、サーバーは東京都内のJAL拠点にあり、主要9空港からアクセスして業務に使っている。 JALは自社開発の重量管理システムをメインフレーム上で

    JALシステム障害、前週に追加の排他制御がデッドロックを誘発
  • [続報]JALシステム障害、サーバー内の「滞留メッセージ」と関係か

    航空(JAL)は重量管理システム「Netline Load」で2016年4月1日午前中にシステム障害が発生した件について、Netline Load内に滞留したメッセージを削除したところ正常稼働したと明らかにした。システム障害の影響で国内線46便が欠航し、6670人の足に影響が出たことも分かった(関連記事:JALでもシステム障害、重量管理システムの不具合で遅延・欠航相次ぐ)。 現在もJALは原因を調査中で、「滞留したメッセージ」の具体的な内容や障害との因果関係は明らかにしていない。Netline Loadは午前7時48分ころに不具合が発生し、午前9時40分に再稼働させた。 この時「サーバーを再起動し、滞留したメッセージを削除したところ、正常に再稼働した」(JAL広報)という。なぜサーバー再起動に加え、「滞留したメッセージ」を削除したかは明らかにしていない。現在JALはシステムの監視を強化

    [続報]JALシステム障害、サーバー内の「滞留メッセージ」と関係か
  • ANAのシステム障害、イーサネットスイッチが故障 篠辺社長ら減給

    3月22日に国内線旅客システム「エイブル」で発生した障害について、全日空輸(ANA/NH)は3月30日、4台あるデータベース(DB)サーバーの同期処理を中継する「ネットワーク中継機」の故障が原因だったと発表した。障害発生により、篠辺修社長ら経営陣3人の報酬を1カ月間減額する処分を下した。 —記事の概要— ・同期処理に障害 ・7万人以上に影響 同期処理に障害 ANAによると、日ユニシス(8056)が構築した国内線旅客システムのうち、故障したのはネットワーク中継機として使用していた、米シスコシステムズ製イーサネットスイッチ「Catalyst 4948E」。一般的に、有線LANによるネットワーク上の機器などを接続するために使用するもので、障害が発生したシステムでは、4台あるDBサーバー同士を接続するのに使われていた。ネットワーク用語では、「スイッチ」と略されることが多い。 スイッチが故障した

    ANAのシステム障害、イーサネットスイッチが故障 篠辺社長ら減給
    chiaki99
    chiaki99 2016/03/31
    スイッチですか、、、
  • 全日空システム障害の原因は?評論家は相変わらず何もわかってない! | IT虎の穴

    ※ANAの記者会見にて原因が発表されました。原因について追記してます。 全日空のシステムトラブルで連休開けの空港はまさに混乱状態だったみたいですね。 全日空では、22日午前8時20分ごろからシステムトラブルのため、羽田や大阪、それに福岡など各地の空港で、国内線の搭乗手続きができなくなりました。 このため一部の便が欠航したり、出発便に遅れが出たりしていましたが、復旧作業を進めた結果、全日空によりますと午前11時半すぎにシステムが復旧し、順次、搭乗手続きを再開しているということです。全日空は「ご迷惑をおかけし申し訳ない」と話しています。 全日空では先月24日にも同じシステムがダウンし、全国の空港で30分間、搭乗手続きができなくなるトラブルが起きています。 全日空によりますと、システムトラブルのため、午後1時40分現在、羽田を発着する便など合わせて116便が欠航し、およそ1万5000人に影響が出

    全日空システム障害の原因は?評論家は相変わらず何もわかってない! | IT虎の穴
  • 新R25 - シゴトも人生も、もっと楽しもう。

  • [続報]CAFIS障害はFEPサーバーのダウンが原因、3割のクレカ決済に影響

    NTTデータは9月6日、5日にクレジットカード決済インフラ「CAFIS(キャフィス)」に障害が発生した原因について、ハードウエア障害によるサーバーダウンだったことを公表した(画面)。5日の午後4時6分ころから午後5時39分までCAFIS経由でのクレジットカード取引に影響が生じた(関連記事:CAFISに障害、全国的にクレカ決済が2時間ほど利用できず)。「障害中は3割の取り引きを処置できなかったり遅延したりした」(NTTデータ広報)という。 障害の直接原因はFEP(フロントエンドプロセッサ)サーバーと呼ぶ、大量の処理を振り分けるサーバーがダウンしたこと。ハードウエアが不安定になり、それをコントロールするミドルウエアも制御しきれず、ダウンしたという。 FEPサーバーは複数台あるが、そのうちの1台がタウンした。SEが状況を把握、判断した上で待機系のサーバーに切り替えて復旧させたという。サーバーが不

    [続報]CAFIS障害はFEPサーバーのダウンが原因、3割のクレカ決済に影響
  • 障害の概況

    © 2012-2024 Ookla, LLC., a Ziff Davis company. All Rights Reserved. Downdetector® is among the federally registered trademarks of Ookla® and may not be used by third parties without express written permission.

    障害の概況
    chiaki99
    chiaki99 2015/03/09
    こんなサイトもあるんですね。しらなんだ。
  • プレス発表 重要インフラを支えるシステムの障害情報や対策を分析した2種類の教訓集を公開:IPA 独立行政法人 情報処理推進機構

    IPA(独立行政法人情報処理推進機構、理事長:藤江 一正)SEC(ソフトウェア高信頼化センター)は、ソフトウェアに起因するシステム障害において、類似障害の発生防止と影響範囲の縮小を目的に、障害情報の分析や対策の整理・体系化を行い、企業・業界を超えて共有・応用できる「教訓」として普遍化して取りまとめ、「情報処理システム高信頼化教訓集(ITサービス編/製品・制御システム編)」の2種類の教訓集を2014年5月13日に公開しました。 URL: http://www.ipa.go.jp/sec/reports/20140513.html (ITサービス編) http://www.ipa.go.jp/sec/reports/20140513_2.html (製品・制御システム編) 電気・水道などのライフラインの制御や、金融・通信といったサービスの実現など、情報システムは今や私たちの生活や経済を支える社

  • みずほ銀行の3月のシステム障害の調査報告pdfが超面白いのでマはみんな読むべき « おれせん。

    みずほ銀行:システム障害に関するお知らせおよびお問い合わせ先 http://www.mizuhobank.co.jp/oshirase.html 中段の「システム障害特別調査委員会の調査報告書について」のリンク 直リンクはこれ(5/20掲載) 前半しばらく「グダグダ陶しい能書き」が続きますが9ページ目の「3. 障害発生以前のシステム障害及び対応状況」あたりからギアが入って、11ページ目の「4. 障害の発生事実」からトップギアというかちょっとしたヘル絵図であります。 ……ああ、その前にここを引用しておこうかな、4-5ページの「2. システムの概況」内「(3) 次期システムの概要」箇所。 (3) 次期システムの概要 次期システムについて、ビジネス環境の急激な変化に対応すべく、肥大化・複雑化した現行システムを新たなシステムとして再構築するために、2004 年から MHFG を中心に検討

    chiaki99
    chiaki99 2014/06/23
    改めて、教訓として、リマインド
  • https://www.mizuhobank.co.jp/company/release/bk/2011/pdf/news110520_4.pdf

    chiaki99
    chiaki99 2014/06/23
    改めて、教訓として、リマインド
  • みずほ銀障害に見る、人災と人為ミスの違い

    みずほ銀行が3月に引き起こした大規模システム障害は、東日大震災の義援金が引き起こした「天災」ではなく、明らかに「人災」だ。しかもシステム障害の原因は、現場の担当者の不手際といった人為ミスにあるのではなく、経営陣のITガバナンスの欠如にある。同行が5月に発表した調査報告書(pdf)が、そのことをはっきりと物語っている。 日経コンピュータでは6月9日号で、みずほ銀行が第三者委員会「システム障害特別調査委員会」に依頼して作成した調査報告書を独自に読み解き、分析した。その結果、みずほ銀行のシステム障害は、30の「不手際」が積み重なることで長期化したことが分かった(表)。 30の不手際の詳細は、日経コンピュータ6月9日号の「緊急特集」としてまとめたほか、同記事は6月13日から1週間に分けてITproにも転載する予定である。みずほ銀行のシステム部門が、多くの人為ミスを犯したのは事実だ。混乱のさなか、

    みずほ銀障害に見る、人災と人為ミスの違い
    chiaki99
    chiaki99 2014/06/23
    改めて、教訓として、リマインド
  • 重要インフラ障害情報の分析に基づく「情報処理システム高信頼化教訓集(ITサービス編)」 ~障害の再発防止のため、業界を越えて幅広く障害情報と対策を共有する仕組みの構築に向けて~:IPA 独立行政法人 情報処理推進機構

    HOME社会基盤センター報告書・書籍・ツール・教材報告書等重要インフラ障害情報の分析に基づく「情報処理システム高信頼化教訓集(ITサービス編)」 ~障害の再発防止のため、業界を越えて幅広く障害情報と対策を共有する仕組みの構築に向けて~ 重要インフラ障害情報の分析に基づく「情報処理システム高信頼化教訓集(ITサービス編)」 ~障害の再発防止のため、業界を越えて幅広く障害情報と対策を共有する仕組みの構築に向けて~

  • 重要インフラ情報システム信頼性研究会報告書:IPA 独立行政法人 情報処理推進機構

    経験を共有し、みんなの力でIT社会の安全・安心を築くしくみ 私たちの生活や社会・経済基盤を支える重要インフラ分野等における情報処理システムの信頼性向上のため、システムの障害事例情報の分析や対策手法の整理・体系化を通して得られる「教訓」を業界・分野を越えて幅広く共有し、類似障害の再発防止や影響範囲縮小につなげる仕組みの構築を目指しています。 そのために、このようにして導かれる教訓の有用性を示すとともに、障害情報の分析等により導かれる教訓を分野横断で共有するための、障害情報や教訓の共通様式、それらの公開に際しての機密保持等のルールを取りまとめています。また、得られた教訓に基づき、類似障害の再発防止に向けたシステム開発や運用・管理の継続的なプロセス評価・改善手法を取りまとめるとともに、広くその導入を促進する活動に取り組んでいます。

    重要インフラ情報システム信頼性研究会報告書:IPA 独立行政法人 情報処理推進機構
  • みずほ銀行のシステム障害調査報告書が、涙あり笑いありで面白かった

    2011年3月、大震災の後に発生したみずほ銀行のシステム障害。 その障害に関する調査報告書がみずほ銀行ホームページの一角に配置されています。 システム障害特別調査委員会の特別調査報告書 http://www.mizuhobank.co.jp/oshirase.html この調査報告書、最近読んだ文書では特におもしろいものでした。 ただの報告書かと思っていたら、涙あり・笑いありの波乱万丈な内容だったからです。 ・笑いどころ えっ、そんな障害対応してるの?www 信じられないwww 素人さんが管理監督してるんですか?wwwwww という箇所がいくつかありまして。 手動対応してさらに障害が拡大するところとか、かなり笑えます。 そんなのが複数個所にあるんですよね~ ・泣きどころ みず○ほのえらい人「おい、早く障害対応しろ!オンラインが遅れるだろうが!」 み○ほのえらい人「営業開始が遅れたらお前、責

    みずほ銀行のシステム障害調査報告書が、涙あり笑いありで面白かった