タグ

障害に関するot2sy39のブックマーク (38)

  • 大田区、NECに賠償金480万円を請求 10月のシステム障害巡り SSD3台の同時故障想定できず

    大田区は4月17日、2023年10月に発生したシステム障害の検証結果を公開し、システムの運用・保守を担っていたNECに対し損害賠償金486万8437円を請求すると発表した。障害の原因はNECによる情報共有の不足と結論付けている。同社も結果や損害賠償に同意しているという。 障害が発生したのは、23年10月9日から10日未明にかけて。システムを構成していたSSD3台がほぼ同時に故障し、データが全損して使用できない状態になった。これにより、大田区の住民記録システムや国保年金システム、税務システムなどが影響を受け、18日の完全復旧まで、区の業務に支障をきたした。 大田区は障害の原因について、SSD3台の同時故障を想定していないシステム構成にあったと説明。「システム基盤は19年に構築し、構築当時からSSDの故障について2までは耐えうる構成をとっていたが、今回はその想定を大幅に上回る障害が発生したた

    大田区、NECに賠償金480万円を請求 10月のシステム障害巡り SSD3台の同時故障想定できず
    ot2sy39
    ot2sy39 2024/04/18
    これ、金を取ってのバージョンアップ作業を提案できる関係性だったのか知りたいね。
  • ルーター不具合による韓国行政ネットワークの大規模なシステム障害についてまとめてみた - piyolog

    2023年11月17日、韓国の地方行政システムで3日にわたる大規模なシステム障害が発生し、韓国内の多くの行政機関の業務に支障が生じ、手続きが行えないなど市民の生活にも大きな影響が及びました。その後の調査を経て、韓国政府はネットワーク機器の異常によるものだったと原因について明らかにしています。ここでは関連する情報をまとめます。 56時間にわたり行政ネットワーク使えず システム障害は認証基盤である行政電子署名証明書(GPKI)システムで発生。韓国では公務員はシステム接続を行う際にGPKIシステムで認証を行っているため、全国の自治体で業務システムを利用できない事態となった。GPKIシステムと接続していた、閉域ネットワーク運用されている韓国内のすべての自治体が利用する「市道セオル行政システム」や行政プラットフォームの「政府24(정부24)」が利用できなくなった。 GPKIシステムは物理サーバー15

    ルーター不具合による韓国行政ネットワークの大規模なシステム障害についてまとめてみた - piyolog
    ot2sy39
    ot2sy39 2023/11/29
    一度経験すると、pingが通るのに実通信に失敗するケースでは、ロングパケットでping試験(ping -l 1500)をするようになる。
  • NTT東西で「4月3日の通信障害」はなぜ起きたのか

    NTT東西で「4月3日の通信障害」はなぜ起きたのか
    ot2sy39
    ot2sy39 2023/04/29
    ふむ。キャリアグレードの機器だから、未パッチ品が放置されることもないと思うので、メーカーパッチが提供された時点で「複数ある特定の条件」が何だったのか公開してほしいな。
  • NTT東西の「フレッツ光」大規模障害、原因は特定のサーバから届いた“特殊なパケット”だった

    4月3日の午前中に発生した「フレッツ光」と「ひかり電話」の障害ではNTT東日NTT西日を合わせて最大約44万6000件に影響が出た。原因は新しい加入者装置に特殊なパケットが届いたこと。ただし「アタックである可能性は限りなく低い」としている。 障害が発生したのは午前7時10分ごろ。複数のNTT局舎内にある加入者収容装置が特殊なパケットを受信後にリブートした。フェイルオーバー機能が働き、自動的に別の装置に切り替わったものの、そちらも同じ障害が発生した。 NTT東では49拠点89台、NTT西は21拠点27台の加入者収容装置で同時に障害が発生し、ネット接続サービスの「フレッツ光」と光回線を使う電話サービス「ひかり電話」が一時つながりにくい状態になった。ひかり電話は緊急通報にも支障をきたし、消防庁が公式Twitterアカウントで「携帯電話や公衆電話の利用、消防への直接駆け込み」を促すツイートを

    NTT東西の「フレッツ光」大規模障害、原因は特定のサーバから届いた“特殊なパケット”だった
    ot2sy39
    ot2sy39 2023/04/03
    何をもって「アタックである可能性は限りなく低い」と判断してるのか気になる(アタックだと思っているわけではない)。
  • 立川市役所の庁内LAN障害、原因は「Edgeブラウザーへの移行」

    2022年6月27日、東京・立川市役所で大規模な通信障害が発生した。出先機関を含めた1000台以上のパソコンで終日、窓口作業ができなくなった。庁内LANの心臓部となるコアスイッチの障害が原因だった。コアスイッチに向けて大量の通信が発生し、メモリー不足に陥った。原因特定に時間がかかり、完全復旧に1週間を要した。 グループウエアの挙動がどうもおかしい――。東京都立川市役所の庁舎内がざわつき始めたのは2022年6月27日、始業時刻である午前8時半ごろのことだ。ほどなく市役所のITインフラストラクチャー運営を担う総合政策部情報推進課のもとに、「窓口業務用の情報システムにアクセスしづらい」「内線電話が通じなくなった」といった職員らの困惑した声が続々と寄せられるようになった。 情報推進課はただちに障害箇所の特定に乗り出した。庁内ネットワークのメンテナンスを委託している保守事業者と連絡を取り合い、担当

    立川市役所の庁内LAN障害、原因は「Edgeブラウザーへの移行」
    ot2sy39
    ot2sy39 2022/12/23
    「コアスイッチは7台構成で冗長化してあった」とあって、へぇどんな構成だろうと興味を持ったが、図を見るかぎりスタック構成のコアスイッチ1組(2台)と、フロアスイッチ5台じゃん。
  • 障害報告書を書こう! - Qiita

    担当しているITサービスなどに何かしらのインシデントや障害が発生した時に、対処後のアクションとして報告書を提出して事象の内容を報告(レポート)する場合がある。 提出先は会社の偉い人だったりクライアントだったり。場合によってはユーザー向けに発表したり。事の顛末を報告して「今後同様のことを起こさないように努力します、ごめんなさい」をするのだ。どのように再発防止の努力するのかを書くものでもある。 主にクライアント向けのビジネス内容ではあるが、自分が使っているテンプレパターンを共有するので参考にしてもらえればと思う。1 全般的なポイント 心得のようなもの。次の点は留意してて欲しい。 淡々と冷静な説明をこころがける 当然のことながら事実は脚色しない。無駄な修飾も要らない。客観的な事実を簡潔に述べる。 例: ❌「一生懸命頑張って対応したが…」 ❌「寝ないで対応したが…」 ❌「当の原因は…」 できるだ

    障害報告書を書こう! - Qiita
  • KDDI高橋社長が通信障害を陳謝、原因はコアルーター交換時の不具合とアクセス集中

    今回の通信障害では、音声電話やSMSが一時つながらなくなったほか、データ通信がつながりにくかったり途切れたりといった状態になった。影響を受けた回線数は7月3日午前11時時点の概算で最大約3915万回線。内訳はスマートフォン・携帯電話が同約3580万回線、MVNO(仮想移動体通信事業者)向け回線が同約140万回線、IoT(インターネット・オブ・シングズ)回線が同約150万回線、「ホームプラス電話」回線が同約45万回線。 通信障害のきっかけとなったのは、メンテナンスの一環としてモバイルコア網と全国各地の中継網をつなぐコアルーターのうち、1拠点で旧製品から新製品へ交換する作業。これに伴い通信トラフィックのルート変更を実施している際に「VoLTE交換機でアラームが発生した」(高橋社長)。確認したところ「ルーターのところで何らかの不具合が起き、一部の音声トラフィックが不通になったことが判明した」(同

    KDDI高橋社長が通信障害を陳謝、原因はコアルーター交換時の不具合とアクセス集中
    ot2sy39
    ot2sy39 2022/07/03
    これ、コアルータが単純に故障した場合でも同じことが起こると読めるのだが、大丈夫か?
  • KDDIの通信障害についてまとめてみた - piyolog

    2022年7月2日、設備障害によりKDDIの携帯電話サービスで障害が発生しました。ここでは通信障害に関連する情報をまとめます。 通信障害発生から復旧発表まで3日以上 au携帯電話サービスがご利用しづらい状況について 障害発生同日8時以降から1時間おきに障害報告が公表されていた。 障害発生・復旧の状況は以下の通り。 対象地域 障害発生日時 復旧作業終了時間 復旧完了日時 西日 2022年7月2日 1時35分頃 2022年7月3日 11時頃 2022年7月5日15時36分 東日 2022年7月2日 1時35分頃 2022年7月3日 17時30分頃 2022年7月5日15時36分 影響を受けたのは全国の個人・法人向けのau携帯電話、UQ mobile携帯電話、povo、au回線利用事業者の音声通信、ホームプラス電話、ホーム電話、auフェムトセル、SMS送受信。7月3日11時時点の概算では約3

    KDDIの通信障害についてまとめてみた - piyolog
  • Twitterに不具合? Wi-Fiからモバイル回線に切り替えると解決する状態(復旧済み)

    Twitterの日のトレンドに7月1日午前7時現在、「Twitter不具合」が5位に入っている。Wi-Fiで接続している端末で新しい投稿が表示されない状態で、Wi-Fiを切ってモバイル回線で接続すれば読み込める。 この状況は日時間の午前4時ごろから発生しているが、午前7時現在、Twitterの公式API Statusページは異常なしとなっており、サポートアカウントからも特に報告はない。 【UPDATE】午前10時40分ごろ、Wi-Fiでもつながるようになった。原因についてはTwitterに問い合わせ中だ。 関連記事 Twitterで「プードルが表示される」との報告相次ぐ ブラウザ版で一時障害発生か Twitterで「Webブラウザ版Twitterを開くと、プードルの画像が表示され、『表示する内容がありません』と読み込みエラーになる」との報告が相次いだ。 AppleのApp Storeな

    Twitterに不具合? Wi-Fiからモバイル回線に切り替えると解決する状態(復旧済み)
    ot2sy39
    ot2sy39 2022/07/01
    WiFiだとダメでモバイル回線だと解決って、最高に頭悪い見出しだな。
  • ドコモ通信障害の原因わかる、1万8000人に影響――IPv6導入でサーバー負荷上昇

    ドコモ通信障害の原因わかる、1万8000人に影響――IPv6導入でサーバー負荷上昇
    ot2sy39
    ot2sy39 2022/02/08
    何のサーバが高負荷になったのか分からない。何か対処したのか自然収束したのかも分からず、そのため結局シングルスタック化したままなのか切り戻したのかも分からない。ニュースとしてダメだろ。
  • 入門監視やSRE本に学ぶ障害対応フォーメーション - An Epicurean

    システム障害が起こったときにどういう体制で望むか、エンジニア個人が障害に直面した時にどのような役割を受け持つのが良いのか。組織によって色々なパターンはあるでしょう。しかし、幸いにも「入門 監視」やSREに書かれている4つの役割分担が浸透しているので、それをベースに考えるのがファーストステップとしては良いのではないでしょうか。 入門 監視 ―モダンなモニタリングのためのデザインパターン 作者:Mike Julianオライリー・ジャパンAmazon SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム オライリージャパンAmazon ただ、小さな組織では障害時に4人もすぐに揃わない場合もあるでしょうし、そもそも4人もスタッフがいない、と言う場合もあるでしょう。そういった場合にもどうすればいいのか考えていきます。 役割分担の基 「入門 監視」に

    入門監視やSRE本に学ぶ障害対応フォーメーション - An Epicurean
    ot2sy39
    ot2sy39 2021/12/03
    書記が重要だと思う。ボヤに抑え込めたときは書記なんかと軽視されがちだが、大火になったとき効いてくる。書記がいない状態は、「いま書記がいない」ことをメンバーが強く意識しなければいけない。
  • みずほ幹部「システム使いこなせず」 機器の故障頻発 - 日本経済新聞

    みずほフィナンシャルグループは8日、8月と9月に起きたシステム障害の原因分析と再発防止策をまとめた。8月20日の大規模障害は特定の機器で故障率が上がっていたのに見落とし、マニュアルの不備もあって適切に対応できなかったと総括した。記者会見した石井哲最高情報責任者(CIO)は「システムを使いこなせていない」と述べ、運用に問題があるとの認識を示した。みずほ銀行は2021年に入り8度のシステム障害を起

    みずほ幹部「システム使いこなせず」 機器の故障頻発 - 日本経済新聞
    ot2sy39
    ot2sy39 2021/10/09
    「故障の予兆を厳格に管理することも再発防止策」って、予兆が顕在化するかは確率の問題なのだから、厳格かどうかではなく、予防交換にコストをいくらかけるかなんだけどな。厳格にやれば完全に防げると思ってそう。
  • フェイスブックやインスタグラムなどで障害 影響は世界的か | NHKニュース

    5日未明、SNSのフェイスブックやインスタグラムで何らかの障害が起き、利用できない状態になっています。 影響が出ているのは、いずれもアメリカIT大手、フェイスブック社やその傘下の企業が運営する、SNSのフェイスブックやインスタグラム、それにワッツアップです。 日時間の5日午前1時前後から、これらのサービスに何らかの障害が起きて利用できない状態になっていて、影響は世界的に出ているとみられます。 会社は「一部の人がアプリなどに接続できない問題が起きているのを認識している。なるべく早い復旧を目指しているが、ご不便をかけ、おわびします」などとコメントしています。 アメリカメディアによりますと、フェイスブックではおととしも同じような障害が起き、このときにはおよそ1時間で復旧したということです。

    フェイスブックやインスタグラムなどで障害 影響は世界的か | NHKニュース
    ot2sy39
    ot2sy39 2021/10/05
    BGPのオペミスらしいよ?
  • みずほ銀行のシステム障害(2/28~3/12)の調査報告書、経営陣も現場もエンジニアも全てが残念 : 市況かぶ全力2階建

    日刊SPA!に登場の医学生投資家、儲け自慢に熱を入れるあまり「11歳から親の口座で投資を始めた」と借名取引をうっかり告白

    みずほ銀行のシステム障害(2/28~3/12)の調査報告書、経営陣も現場もエンジニアも全てが残念 : 市況かぶ全力2階建
  • fastlyのCDNで発生したシステム障害についてまとめてみた - piyolog

    2021年6月8日、fastlyのCDNサービスで障害が発生し、国内外複数のWebサイトやサービスに接続できないなどといった事象が発生しました。ここでは関連する情報をまとめます。 原因はソフトウェアの潜在的な不具合 fastlyより6月8日付で今回の障害の顛末が公開されている。 www.fastly.com 障害原因はソフトウェアの潜在的な不具合で特定状況下かつ顧客構成で発生する可能性があった。このソフトウェアは5月12日に展開が開始されていた。 6月8日早くにこの不具合を発生条件を満たす構成変更が顧客によって行われネットワークの85%がエラーを返す事態が発生した。サイバー攻撃の可能性は否定と報じられている。*1 障害は発生から1分後にfastlyに検知され、49分以内にネットワークの95%が復旧した。 今回の障害を受け、短期的には修正プログラムの早期適用、復旧時間の短縮、テスト時に不具合

    fastlyのCDNで発生したシステム障害についてまとめてみた - piyolog
  • 2021年4月12日に発生した「LINE」アプリ障害について | ニュース | LINE株式会社

    平素はLINEをご利用いただきありがとうございます。 「LINE」アプリにおきまして、2021年4月12日 15時9分から16時1分の約50分間、メッセージを送受信できない等の障害が発生しました。 ユーザーの皆様にご迷惑やご不便をおかけしましたことをお詫び申し上げます。障害の詳細と対応状況は以下の通りです。 1. 障害の詳細 当社が利用している国内データセンター提供事業会社の誤作業に起因し、「LINE」のメッセージを送受信できない等の障害が発生しました。同外部事業会社において、来電源停止を伴わずに電源設備のメンテナンス作業を行うべきところ、同社の誤作業により複数のネットワークやサーバー機器の電源断が発生し、通信ができない状態が続きました。メッセージの送受信や通話ができない等の状態となり、日国内に加え海外のユーザーも影響を受けました。LINEは15時9分に障害が発生した後、事象を認識して

    2021年4月12日に発生した「LINE」アプリ障害について | ニュース | LINE株式会社
    ot2sy39
    ot2sy39 2021/04/13
    1つのDCが落ちると止まっちゃうんだな。影響範囲は全体だったのだろうか。
  • データ移行で発生したみずほ銀行のシステム障害についてまとめてみた - piyolog

    2021年2月28日、みずほ銀行でシステム障害が発生し、全国で同行のATMが利用できなくなる、キャッシュカードが取り込まれたまま戻ってこないなどのトラブルが発生しました。ここでは関連する情報をまとめます。 取り込まれ戻ってこないキャッシュカード みずほ銀行サイト上に掲載されたシステム障害発生の案内障害が発生したのは2021年2月28日11時頃。障害により各地で生じた影響は以下が報じられるなどしている。なお、法人向けに提供されるサービスでは今回のシステム障害による不具合は確認されていない。*1 障害発生から30時間後に全面復旧をした。 みずほ銀行の自行ATM5,395台の内、54%にあたる2,956台が停止し(2月28日19時40分頃時点)、預金引き落とし等が出来なくなった。*2 台数はその後訂正され、最大4,318台が停止していたことが明らかにされた。 *3 障害発生中は、ATMよりキャッ

    データ移行で発生したみずほ銀行のシステム障害についてまとめてみた - piyolog
    ot2sy39
    ot2sy39 2021/03/01
    「みずほ銀行は障害の発生原因を定期預金取引のデータ移行作業によるものと発表」って、突然の不具合ではなく、計画作業で発生した障害なのか。なのにATMで客を何時間も放置って、準備も障害後の対応もひどすぎない?
  • 気象庁でシステム障害 一時的に気象や地震の情報配信できず | 気象 | NHKニュース

    26日午後、気象庁の情報処理システムに障害が発生し、気象や地震の情報の配信が一時的にできなくなったほか、ホームページにも一部の情報が掲載されない状態になりました。気象庁が原因を調べています。 気象庁によりますと、26日午後4時40分ごろ、気象庁が気象や地震などの情報を処理するシステム「アデス」のうち、東京・清瀬市にある「東日アデスシステム」に障害が発生し、気象や地震のデータが配信できなくなりました。 このため気象庁は、大阪市にある「西日アデスシステム」を経由した配信に切り替えましたが、作業を終えるのに1時間余りかかり、民間の事業者などにデータ配信の遅延などが起きたということです。 緊急地震速報は別の回線を利用しているため、影響は無かったということです。 また、気象庁のホームページでも各地のアメダスの情報や積雪深を解析した情報などが一時的に表示されなかったほか、北海道の一部では気象注意報

    気象庁でシステム障害 一時的に気象や地震の情報配信できず | 気象 | NHKニュース
    ot2sy39
    ot2sy39 2021/01/27
    障害はないに越したことはないけど、今回特にこれ起因の事故とかないみたいだし、今後に生かしてくれたらいいよ。興味本位だが原因は知りたい。
  • Googleの45分間ダウンの原因は認証ツールのストレージクォータの問題

    Googleの「Workspace」を含む同社の多くのサービスが12月14日の午後9時ごろから約45分間使えなくなっていた障害の原因は、各種サービスにログインするための認証ツールのストレージクォータの問題だったと、Googleが同日、英Guardianなどのメディアに声明文を送った。 Googleの広報担当者によると、このダウンの原因は、Googleとサードパーティのサービスへのログイン方法を管理する認証ツールの障害だったという。認証を処理するサービスのためのストレージが不足すると自動的に割当を増やす(ストレージクォータ)ツールが正常に動作しなかった。 この問題により、GmailやGoogleカレンダーなど、利用するためにログインが必要なサービスが利用できなくなった。また、Googleの認証プラットフォームを利用するサードパーティのサービスでも、ユーザーがログインできなくなっていた。Go

    Googleの45分間ダウンの原因は認証ツールのストレージクォータの問題
    ot2sy39
    ot2sy39 2020/12/15
    45分と短時間で修正されたが、気づいて動き出したのは実際に溢れてからではないのだろうと思う。使用率90%とかでオートスケールするはずがしないというアラートが出て、すでに動き出してたんじゃなかろうか。
  • 東京証券取引所様の株式売買システム「arrowhead」で発生した障害の原因と対策について : 富士通

    2020年10月19日 富士通株式会社 東京証券取引所様の株式売買システム「arrowhead」で発生した障害の原因と対策について 日、株式会社東京証券取引所(以下、東京証券取引所)様より、さる10月1日に発生した東京証券取引所様の株式売買システム「arrowhead」の障害に関しての発表がありました。 東京証券取引所様、ならびに投資家の皆様、市場関係者をはじめ多くの皆様方に多大なるご迷惑をおかけいたしましたこと、あらためてお詫び申し上げます。 下記のとおり、障害の根原因および当社の品質保証体制の強化について、ご説明させていただきます。今後こうした事態を二度と起こさぬよう、再発防止に向け、全力を挙げてまいります。 記 東京証券取引所様の株式売買システム「arrowhead」障害の根原因について (1)発生事象について 東京証券取引所様に共有ディスク装置として納入した当社ストレージ製

    東京証券取引所様の株式売買システム「arrowhead」で発生した障害の原因と対策について : 富士通
    ot2sy39
    ot2sy39 2020/10/20
    後からの仕様変更でデフォルト設定が変わっていたが気づかなかったってことか。これを逃さず気づけというのはつらいなー。