タグ

障害に関するindicationのブックマーク (18)

  • 【保存版】東京リージョンの AWS 障害発生時にクラスメソッドのテクニカルサポートチームがやっていること | DevelopersIO

    どのような事前準備をしているか 有事の際は想定外のことが発生しやすく、事前準備をしていないと冷静な対応が難しくなります。 いきなりしっかりした事前準備をすることは難しいので、徐々に成熟度を上げていきます。 章では以下の観点で、事前準備についてご紹介します。 手順書 自動化 訓練 手順書 フローやチェックリストを含む手順書を準備しています。 手順書の内容は後述します。 分かりやすい手順書を準備することも重要ですが、その手順書への導線づくりも大切にしています。 運用周りのドキュメントは数が多く、目的のドキュメントが埋もれてしまい他のメンバーが見つけられない場合があるからです。 周知に加えて、ドキュメントの階層を見直したり、特定チャンネルに手順書の URL をピン留めしておくなど、手順書に辿り着きやすくする工夫をしています。 分かりやすい手順書の書き方については、以下のブログが参考になります。

    【保存版】東京リージョンの AWS 障害発生時にクラスメソッドのテクニカルサポートチームがやっていること | DevelopersIO
    indication
    indication 2021/03/30
    スゴい
  • みずほ銀行ばかり障害を起こす理由

    直接の原因は知らないので非エンジニア向けの戯言、はいはい嘘松程度に聞き流してくれ。 タイトルは釣りみたいなもんだ。データも客観的な観測もない。当の理由なんて外部からわかるはずがない。 単に一個人が中の人らに酒を注がれつつグチられた内容の総集編だ。 前提として、社会インフラ系のIT基盤は設計や運用に企業体質が出やすい。 わかりやすいのはSuicaとかで、ハードウェアのFelicaこそソニーの技術だが、Suicaのシステムアーキテクチャは完全に鉄道屋のそれだ。 アプリやWebなんぞは使い勝手がイマイチだが、Suica自体のシステムダウンで首都圏の自動改札が全滅、復旧するまで使えませーん、なんて事態は聞いたことがないだろう。 安全が全てに優先する。 そういう作りにしてあるのだ。 じゃあみずほ銀行はどうなってるかというと、とりあえず止めない、安定運用できたら3社統合の負債を返そうとする、それだけ

    みずほ銀行ばかり障害を起こす理由
    indication
    indication 2021/03/01
    カードを吸い込んだままにするのは、途中のデータを弄られないようにガードする目的もあるはず。定期関連だと、自動貸付とかあるから、その辺の整合性がやられてるんだろうな(本当に知らないけど)。カードだけに。
  • 東証、障害の原因を特定 設定値に不備、切り替え失敗

    取引所グループは同日、調査結果を踏まえ、再発防止策などを検討する調査委員会を設置した。委員長の久保利英明弁護士をはじめ、4人の社外取締役で構成する。 関連記事 東証、10月2日は通常通りの売買へ システム障害を起こし全銘柄の売買を停止していた東京証券取引所は、明日、10月2日は通常通り売買を行うと発表した。 東証のシステム障害、解消は「明日以降」 「バックアップへの切り替え」で異常 東京証券取引所が、システム障害について「明日以降、正常な売買ができるよう対応している」と発表した。 東証にシステム障害 終日、全銘柄売買停止に【更新】 東京証券取引所は10月1日、相場情報に障害が発生したため、朝から全銘柄の売買を停止している。1日は終日売買停止となる。復旧については未定。 “東証を変えた男”が語る、金融業界の伝説「arrowhead」誕生の舞台裏――“決して落としてはならないシステム”がで

    東証、障害の原因を特定 設定値に不備、切り替え失敗
    indication
    indication 2020/10/06
    キャッシュに乗らないデータの扱いによって、遅延が発生して障害に発展したという理解でよいのか、わからない。
  • システム障害の本のカット「重大障害時におけるCIOの取組み(悪い例)に「あらゆる闇」が内包されていた…見た人「あれ、俺、なんで泣いてるんだろう」

    良太郎 @ryota_hnk 自称インフラエンジニアgoogleなけりゃタダの人。 普段はNew Relicという会社で働いてます。headtonirvana.hatenablog.com qiita.com/ryota_hnk lapras.com/public/2ZM2JJP

    システム障害の本のカット「重大障害時におけるCIOの取組み(悪い例)に「あらゆる闇」が内包されていた…見た人「あれ、俺、なんで泣いてるんだろう」
  • Cloudflareでネットワークの50%がダウンする大規模障害、DiscordやFeedlyなどの大型サイトに影響

    太平洋時間7月17日の午後、ルーターの設定ミスによりCloudflareのネットワークの50%が停止する大規模な障害が発生しました。この障害により、DiscordやFeedlyといった大型サイトが一時利用不可能になったと報じられています。 Cloudflare outage on July 17, 2020 https://blog.cloudflare.com/cloudflare-outage-on-july-17-2020/ Cloudflare DNS outage impacts Feedly, Tumblr, Discord, and more - DCD https://www.datacenterdynamics.com/en/news/cloudflare-dns-outage-impacts-feedly-tumblr-discord-and-more/ Cloudfl

    Cloudflareでネットワークの50%がダウンする大規模障害、DiscordやFeedlyなどの大型サイトに影響
    indication
    indication 2020/07/21
    恐ろしい…
  • ソフトバンク大規模通信障害の原因:Geekなぺーじ

    2018年12月6日、ソフトバンクのネットワークにおいて、4時間25分にわたり約3060万回線の利用者に影響を及ぼす通信障害が発生しました。 ソフトバンクおよびワイモバイルの4G(LTE)携帯電話サービス、「おうちのでんわ」、Softbank Air、3Gサービスなどが影響を受けました。 この障害は、EricssonのMME内部にハードコーディングされた証明書が期限切れになったため、SGSN-MME(Serving GPRS Support Nodex - Mobility Management Entity)が再起動を繰り返してしまったのが原因です。 ただ、証明書が期限切れになることで、なぜ大規模な通信障害に繋がってしまうのかが良くわかりませんでした。 どのような設計をしたら、証明書が期限切れになったことで通信機器が再起動を繰り返すような状況になるのか、昨年段階では、いまいち理解できなか

    indication
    indication 2019/02/04
    よく4時間で復旧したなぁ。対策、検証、反映までの時間を考えても、本当に(部隊の人のメール時間がいつもおかしいけど)すごい。ログや、ベンダーサポートを切っていなかったのは当たり前だろうけど、よくやるなぁ。
  • (取り下げ)東証システム障害は、証券会社ごとに接続ポイントを分けてL3で分割しておくべきだったよなあ - orangeitems’s diary

    2018.10.22 5:30AM 件、記事を取り下げます。 2018年10月21日に投稿したこの記事でしたが、複数の方のご指摘により、2018年10月の東証システム障害の原因が書かれていると思っていた記事が2012年の記事であることに気が付きました。 そうすると、前提が大きく変わってくるので記事はいったん取り下げます。 申し訳ありません。 今後、詳しい原因が報道されたときに、再度考えたいと思います。 はてなブックマークでご指摘いただきました方、ありがとうございました。 猛省いたします。 2018.10.23 11:15PM 日経XTECHにて詳しい原因が掲載されております。 有料記事ですが期間限定で公開されていますので、ご覧ください。 tech.nikkeibp.co.jp

    (取り下げ)東証システム障害は、証券会社ごとに接続ポイントを分けてL3で分割しておくべきだったよなあ - orangeitems’s diary
    indication
    indication 2018/10/21
    L2じゃないといけないってことは、ブロードキャスト前提のシステムが組まれているのかな?それを保全しつつ、対応するにはどうすべきなんだろ
  • メンテナンス・障害情報・機能追加|さくらインターネット公式サポートサイト

    2018年09月06日掲載 障 害 発 生 の お 知 ら せ さくらインターネット株式会社 平素よりさくらインターネットをご利用いただき、誠にありがとうございます。 日、ご提供サービスにおきまして、以下の通り障害が発生いたしました。 ご利用中のお客様には大変ご迷惑をおかけいたしましたことを深くお詫び 申し上げます。 < 記 > 発生日時 : 2018年09月06日03時08分 - 2018年09月06日07時44分 影響範囲 : さくらの専用サーバ 石狩第2ゾーンの一部 以下のIPアドレス範囲に含まれるさくらの専用サーバを ご利用のお客様 153.127.106.* 153.127.107.* 153.127.108.* 153.127.109.* 153.127.110.* 153.127.140.* 153.127.141.* 障害内容 : 一部の電源設備において障害が発生しており

    indication
    indication 2018/09/06
    これって、一部なんだよね。その他大半は生存してるし、ネットワークが生きてるのも訳がわからないから、すごい。
  • 9市町障害「業者コケると…どうしようもない」 : 社会 : 読売新聞(YOMIURI ONLINE)

    障害発生が明らかになって5日目、ようやく復旧したシステムを使って残務に追われる職員(27日、坂井市役所で) 福井県あわら市、坂井市、永平寺町、おおい町で証明書発行といった住民サービスが利用できなくなり、庁内業務を含めて計9市町に影響したシステムの障害は、発生から1週間が過ぎた30日にようやく完全復旧となる見通しだ。県と全17市町の業務に関わる民間のシステム会社で発生した通信障害はほぼ1週間に及び、原因も解明されておらず、現代社会を支える情報通信技術が抱えるもろさを露呈した。 ◆失態 「復旧作業は順調に進んでいる。明朝には解決する」。運用する福井システムズ(坂井市)はトラブルを公表した23日以降、楽観的な見通しを示しては翌朝に撤回、という失態を繰り返した。 障害の発生は22日未明。各役場の休みにデータをやりとりする会社のサーバーのソフトを更新しようとして突然、システムが使えなくなった。丸一日

    9市町障害「業者コケると…どうしようもない」 : 社会 : 読売新聞(YOMIURI ONLINE)
    indication
    indication 2018/07/30
    通信障害…整合性に関する問題なら、よくここまで復帰したなと思う。月次処理とか(特に税)大丈夫なのかなと思ってしまう。対応に当たられた方、お疲れ様です。
  • HDDの物理障害から立ち直る - xxxxxeeeeeのブログ

    HDDがある日突然ファイルが読めなくなった。言われてみれば予兆はあった。Picasaでファイルを開くと奇妙に遅いとかである。しかし、USB接続していたのでS.M.A.R.T.も読んでなかったし、音もちゃんと聞いていなかった。なによりバックアップを取っていなかった。そういう状況で、突然ファイルは見えなくなった。なので、とにかくぶっ壊れたディスクから中身を吸いださねばならない。 以下の内容は作者の個人的体験を記述したものです。またコマンドはあなたのPCのデータを破壊する可能性があります。コマンド例を信用せずよく自身で調べ自身の責任のもとで実行してください。 修復業者 HDDの修復業者はあっちこっちで広告を出しているものの、結局のところオントラックというところに頼むのがいいという事は分かった。ただ、オントラックはハイクオリティ・ハイペイメントである。個人相手には「ディスカウント」しているが、それ

    HDDの物理障害から立ち直る - xxxxxeeeeeのブログ
  • GitHubが1月28日のサービス障害の詳細を公開。停電により内部のChatOpsシステムも落ちて初期対応が困難に。Redisクラスタの復旧に時間

    GitHubが1月28日のサービス障害の詳細を公開。停電により内部のChatOpsシステムも落ちて初期対応が困難に。Redisクラスタの復旧に時間 報告では、サービス障害はGitHub社内のChatOpsシステムも巻き込んで初期対応に時間がかかってしまったこと、一時的な停電がRedisクラスタの障害を引き起こしたため、その究明と復旧が作業の主な部分だったことなどが説明されています。 報告の要点をまとめました。 内部のChatOpsシステムも障害に GitHubのサービス障害は、すでに報告されているように、自社データセンターにおける一時的な停電が最初の原因でした。 At 00:23am UTC on Thursday, January 28th, 2016 (4:23pm PST, Wednesday, January 27th) our primary data center experi

    GitHubが1月28日のサービス障害の詳細を公開。停電により内部のChatOpsシステムも落ちて初期対応が困難に。Redisクラスタの復旧に時間
    indication
    indication 2016/02/04
    redisサーバーと括っているけど、揮発性のストアが揮発せずに残っていること、さらに、切り分けて再現しないことをあれだけの時間でやったってのは凄すぎる。redis使ったことないけど
  • KDDI、相次いだLTE通信障害の原因はソフトウェアバグ

    KDDIは6月10日、4月末以降に立て続けに起こしたLTE通信障害に関する説明会を開催した。同日はKDDI代表取締役社長の田中孝司氏が登壇し、一連の通信障害を謝罪するとともに、それぞれの障害の原因や今後の対策などを自らの口で語った。 同社は4月27日、5月29日、5月30日に、東京都、神奈川県、山梨県の一部で、au 4G LTE対応機種(iOS/Android)のデータ通信サービスが利用できない、または利用しづらい状況となる障害を起こした。また5月29日はデータ通信に加えて音声通信サービスも利用できなかった。 田中氏は、4月16~19日に全国で発生したメール障害や4月27日のLTE通信障害を受け、4月30日の決算会見で再発防止を約束したばかり。しかし、そのそのわずか1カ月後に再び障害を起こした。「経営の最重要課題として取り組んだ矢先でのLTE通信障害ということで大変申し訳なく思っている」(

    KDDI、相次いだLTE通信障害の原因はソフトウェアバグ
    indication
    indication 2013/06/11
    何度も口にしているんだけど、ソフトウェアは奇跡のタイミングで動いていると。さらに、人が生きているのは更なる奇跡なんだと。
  • auの障害について | 無線にゃん

    またまたauがやらかしたみたいで、いろいろ解説希望のメールをもらっているわけですが。 今回の故障個所は「基地局制御装置」みたいに発表されていますが、具体的にどこと言うのはよくわかりません。が、LTEのシステムの中でそれに相当しそうなのは、たぶんMMEかなぁ、と言う気がします。もちろん、基地局の監視制御用のシステムとかの独自装置の可能性もあります。 で、確か前回もMMEが障害って言ってたなぁと考えた時にふと思った件があって。こちらの基地局数で見ると、2013/05/30現在の総基地局数(バンドごと(細かいことを言うとキャリアごとだけど現在は実質1バンド1キャリアしか入らないので)に別のノードなので「制御装置」から見えるノードの数という観点で数えた時)は、ドコモが27716局、auが46575局、SBMが23249局と、auはほぼダブルスコアで他よりも局数が多いんですよ。しかも、建設開始からの

    indication
    indication 2013/05/31
    携帯電話網とインターネット(ネットワーク)、電力網、バグっても利用者のほとんどが気づかないってことが どっちもすごいなと。なかのひとは…お察しいたします
  • 弊社専用サーバーのサービスが一部利用できない状況について【更新】| 専用サーバー|GMOクラウド サービスサポート

    Loading×Sorry to interruptCSS ErrorRefresh

    indication
    indication 2013/02/25
    ups部分で火事になったら目も当てられないだろうな、と妄想している
  • 「さくらのクラウド」障害多発で無償化、課金できる品質に達していないため

    「弊社としても、お客様が安心してご利用頂けない現状を痛切に感じており、一日も早く正常化を目指しておりますが、現在は課金をさせて頂ける状況ではないと判断致しました。つきましては3月1日に遡り、当面の間は「さくらのクラウド利用料」について無償化させて頂くことをご報告致します」ということで、なんと「さくらのクラウド」が無償化されてしまいました。 さくらのクラウドの現状報告および課金対応について | IaaS型パブリッククラウド「さくらのクラウド」 http://cloud.sakura.ad.jp/news/sakurainfo/newsentry.php?id=622 無償化せざるを得なくなってしまった経緯は以下のように説明されています。 既に掲載のとおり、データを格納するストレージのパフォーマンス低下により、 頻繁に負荷が増大する状況が続いております。 その為、改善を図ることを目的としたファ

    「さくらのクラウド」障害多発で無償化、課金できる品質に達していないため
    indication
    indication 2012/03/23
    対応が素晴らしくて泣ける。たぶん、kmemの待ちかな
  • 『Oracle ORA-01031: insufficient privileges』

    WEBエンジニア社長 小山内裕 のブログ。IT(情報技術)、Management(経営)、Human(人)のバランスを尊重させ、全てを戦略的に成長させるべく日々奮闘中。 Windowsサーバーにローカルログオンして、sys でOracle データベースに接続しようとしたらできない。 【症状】 1) SQL*Plusを立ち上げる。 2) データベースへの接続を試みる SQL>conn /@sid as sysdba 3) しかし、「ORA-01031: insufficient privileges」 と表示され接続できない。 【解決策】 Windowsサーバーに、「ora_dba」ローカルグループを作成する。 ローカル管理者アカウントを「ora_dba」ローカルグループに追加する。 sqlnet.ora に「sqlnet.authentication_services = (NTS)」を追

    『Oracle ORA-01031: insufficient privileges』
  • Domain Controller Diagnostics Tool (dcdiag.exe)

    Applies To: Windows Server 2003 with SP1 What does DCDiag.exe do? This command-line tool analyzes the state of one or all domain controllers in a forest and reports any problems to assist in troubleshooting. DCDiag.exe consists of a variety of tests that can be run individually or as part of a suite to verify domain controller health. Tool location The DCDiag command-line tool is included when you

    Domain Controller Diagnostics Tool (dcdiag.exe)
  • Windows管理者のためのネットワークコマンド実践テクニック:Command-2 Active Directoryドメインログオンに時間がかかる|gihyo.jp … 技術評論社

    Active DirectoryドメインにWindows XPクライアントがログオンするときには、DNSベースでドメインコントローラを検索してkerberos認証を行い、そのあとグループポリシーを適用します。ログオンに何分も時間がかかってしまう場合、この流れがうまくいっていないために起こることが普通です。ドメインコントローラ側に異常がない前提であれば、ログオンの流れに添って、切り分けを行う方法があります。 ドメインコントローラの確認 まず、現在ログオンしているドメインコントローラを確認します。ドメインコントローラを確認するには、echo %logonserver% コマンドを使いますが、Windows XPでは "高速ログオン機能" があるため "前回ログオンしたドメインコントローラ" が表示されることがあるので、注意が必要です。 図1 echo %logonserver%コマンド C:\

    Windows管理者のためのネットワークコマンド実践テクニック:Command-2 Active Directoryドメインログオンに時間がかかる|gihyo.jp … 技術評論社
    indication
    indication 2011/03/03
    ログオンが遅い場合の切り分け方法 netsh diagは通常時でも1~3秒程度かかる
  • 1