タグ

障害に関するbraitomのブックマーク (47)

  • みずほ銀行システム障害に学ぶ

    みずほ銀行システム障害の調査報告書が公開されたのがニュースになって、Twitterなどで色々な人がコメントをしているのを見た。140文字しか書けない空間で他人の失敗談の揚げ足取りをするのは簡単だが、そこからは一時の爽快感以外に何も得るものがないので、僕はそういうのはカッコ悪いと思っている。 そこで、ちゃんと読んでみたら全く他人事でない部分も沢山あるし、非常に面白く勉強になったので、ブログにまとめてみる。 技術的な話 銀行のシステムがどのようになっているのか、全然イメージが湧いていなかったので、それがまず勉強になった(p.29)。 トラフィックのソースに応じて用意された色々なシステムから基幹システム「MINORI」の取引メインバスにトラフィックが流れ、そこから各種システムへとリクエストが送られていく。この辺はService Oriented Architectureらしい。開発当時としては(

    みずほ銀行システム障害に学ぶ
  • インシデント管理で得られた教訓

    0 0 57 0 ジョーイ・ベイダ、ロス・デリンジャー共同執筆 Dropbox では、インシデント管理は信頼性への取り組みにおける重要な要素だと考えています。実際の障害発生に備えるために、カオス エンジニアリング(Chaos Engineering)などのプロアクティブな手法も採用していますが、インシデントへの対応の仕方がユーザー エクスペリエンスを大きく左右します。サイトの停止や製品の問題が発生する可能性がある場合、ユーザーにとって、それは一刻を争う事態です。 導入されて数年になるインシデント管理プロセスの主要コンポーネントですが、この領域には常に進歩する要素がありました。時間をかけて、技術的にも組織的にも、さらには手続き的にも細かな調整を加えてきました。 この投稿で触れているのは、 Dropbox がインシデント管理で得た教訓の一部について、深く掘り下げて説明します。インシデントにおけ

    インシデント管理で得られた教訓
    braitom
    braitom 2021/04/09
    Dropboxでのインシデント対応プロセスについて。
  • 障害に強い Azure の運用を考える (2021 年版) - しばやん雑記

    Azure の日リージョン 7 周年の日に Japan East のストレージ障害が発生するという、なんともアレな出来事がありましたが、障害発生後はアーキテクチャを見直すいい機会だと思うので色々書きます。 まだ RCA は公開されていないですが、おそらくぶちぞう RD がブログに書くのでリンクを貼ります。 4 年前の同じような時期にも Japan East で大規模なストレージ障害が発生したので、同じようなものを書きましたが流石にいろいろと進化しているので古さを感じます。 今回の障害は影響範囲はさほど大きくなかったようで、主に Azure Storage と Virtual Machines がステータスには上がってきていました。実際には Application Insights や Log Analytics にも影響がありましたが、Azure Storage は全ての基なので仕方な

    障害に強い Azure の運用を考える (2021 年版) - しばやん雑記
  • システムの地理冗長を考える(2021/02 版)

    JAWS-UG 浜松 AWS 勉強会 2021#2 2021/02/26

    システムの地理冗長を考える(2021/02 版)
    braitom
    braitom 2021/03/02
    AWSの地理冗長パターン選択実装のポイント、リスクやデメリットなどについてまとめられている。
  • freee のエンジニアは障害から何を学び、どう改善しているのか? / What do freee engineers learn and improve from failures? - Speaker Deck

    freeeエンジニアは障害から何を学び、どう改善しているのか? / What do freee engineers learn and improve from failures?

    freee のエンジニアは障害から何を学び、どう改善しているのか? / What do freee engineers learn and improve from failures? - Speaker Deck
    braitom
    braitom 2020/01/26
    障害対応エリアの設置とか割れ窓を改善し隊とかいいなー。こういう地道な活動が文化を作っていくんだろうな。
  • 2018-2019年のサービス障害を振り返る - # cat /var/log/stereocat | tail -n3

    ときどき思い出したように書いている障害事例まとめです。こういうのをやるならせめて年1回くらいはまとめないとダメだね……。昔の記事だと経緯や内容を覚えていないし、ニュース記事 (特に新聞社の記事や企業の障害に関するリリース記事) が消えてしまっていたりする。年末にまとめてドカッと振り返るのはしんどい。 2016-2017年のサービス障害を振り返る - # cat /var/log/stereocat | tail -n3 「なぜ障害事例をまとめているのか」についてはこっちに書いた内容そのままなのでこちらを参照してください。 DC/クラウド/通信事業者サービスの障害事例よせあつめ - # cat /var/log/stereocat | tail -n3 2010-2016あたりまでのメジャーな障害事例のまとめ 基的には自分がブックマーク等でクリップしたものをもとにまとめています。主要なニュ

    2018-2019年のサービス障害を振り返る - # cat /var/log/stereocat | tail -n3
    braitom
    braitom 2019/12/31
    2018年、2019年におきたサービス障害記事のまとめ。こう見るとやっぱAWSやAzure、GCPの障害のインパクトはでかいな。
  • 障害対応とポストモーテム - スタディサプリ Product Team Blog

    こんにちは。SRE の @chaspy です。 ユーザに価値が提供できなくなってしまうシステム障害は起きてほしくはありませんが、絶対に発生しないとは言い切れません。 そんなシステム障害は、そもそも発生頻度が不定、かつ多くないので、どのように対応すべきかを体系化することは(起きる事象が毎回異なることも相まって)難しいと思います。 記事では、Quipper において、どのように障害対応を行うのか、また、障害発生時の考え方を紹介します。 障害はどのように対処されていくのか 障害発生フロー Quipper では 標準化された障害時連絡のフロー / 障害レベルがあります。 これによって、障害の内容、影響範囲によっては親会社のリクルートマーケティングパートナーズへのエスカレーションが必要であることと、その基準が言語化されました。また、エスカレーション時に送るメールのテンプレートも用意されており、「誰

    障害対応とポストモーテム - スタディサプリ Product Team Blog
    braitom
    braitom 2019/11/30
    障害発生時のフローについて、役割分担や状況報告などの障害対応への心構え、ポストモーテムの活用方法などがまとめられている。
  • AWS障害回避のための対策をまとめたホワイトペーパーを公開しました - 株式会社サーバーワークス

    サーバーワークスは、2019年8月23日(金)にAWS東京リージョン(AP-NORTHEAST-1) で発生した障害を受け、障害の概要と今後ビジネスに影響を及ぼさないための対策をまとめたホワイトペーパーを公開いたしました。 ■背景 東京リージョンの1つのアベイラビリティゾーンで発生した、制御システムの複合的な不具合によって、いくつかのAWSサービスが影響を受けました。 ECサイトやゲームを含む国内多数のサービスにも影響が生じ、クラウド利用に対する不安が広がりました。今回のような障害に備えるためには、提供しているサービスの稼働レベルを考慮した上で最適な構成を選ぶことが求められます。 当社はAWSのプレミアコンサルティングパートナーの視点で障害発生時からホームページ等で障害に対するお知らせや提言を公開してまいりました。今回それらをまとめ対策として解説することで、お客様のクラウド環境最適化に寄与

    AWS障害回避のための対策をまとめたホワイトペーパーを公開しました - 株式会社サーバーワークス
  • インシデント指揮官トレーニングの手引き | Yakst

    [SRE]原文 An Incident Command Training Handbook – Dan Slimmon (English) 原文著者 Dan Slimmon 原文公開日 2019-06-24 翻訳依頼者 翻訳者 meiq 翻訳レビュアー doublemarket 原著者への翻訳報告 1496日前 Twitterで報告済み 編集 私が Hashicorp で担った最初の仕事のひとつは、社内向けのインシデント指揮官のトレーニング資料を作ることでした。 これは私自身がインシデントへの対処にあたりながら何年ものあいだ肌身に感じてきた、あらゆる類の考えをまとめ上げる良い機会となり、最高に面白いタスクでした。 以下は私の書いたトレーニング資料、ほぼそのままです。 あなたがインシデントレスポンスのポリシーを定義するにせよ、即興でインシデントレスポンスを行うにせよ、お役に立てたら幸いです。

    braitom
    braitom 2019/09/06
    インシデント発生時に指揮をとる人のためのガイド。どのような役割でどのように振る舞うのか、インシデントレスポンスが横道にそれそうになったときの対応方法についてなどが書かれている。
  • AWS障害、“マルチAZ”なら大丈夫だったのか? インフラエンジニアたちはどう捉えたか、生の声で分かった「実情」

    AWS障害、“マルチAZ”なら大丈夫だったのか? インフラエンジニアたちはどう捉えたか、生の声で分かった「実情」(1/3 ページ) 8月23日に起きたクラウドサービス「AWS」(Amazon Web Services)の東京リージョンでの障害は、国内のさまざまなサービスに影響を及ぼした。 AWSが同日午後8時ごろに復旧するまで、モバイル決済サービス「PayPay」や、仮想通貨取引所「Zaif」、オンラインゲーム「アズールレーン」などで利用できない、もしくは利用しづらい状況が続いた。PCショップの「ドスパラ」はECサイトの不具合が長引き、翌日の24日には実店舗を臨時休業して対応に当たっていた。 AWSという1つのサービス障害が起きただけで、多くの企業やサービスに影響を及ぼしたため、「クラウドサービスはもろい」という論調も散見された。 しかし、インフラエンジニアたちからは違う意見が聞こえてくる

    AWS障害、“マルチAZ”なら大丈夫だったのか? インフラエンジニアたちはどう捉えたか、生の声で分かった「実情」
  • 障害から学ぶクラウドの正しい歩き方について考える - そーだいなるらくがき帳

    AWSで大きな障害が発生したこの機会に、自分がクラウドと正しく付き合っていくために必要なことを考える。 piyolog.hatenadiary.jp ちなみに稼働率 99.99% くらいを目指していくために必要な事を考える。 必要な稼働率を見極める 今回は 99.99% くらいを目指すと言ったが、実際に自分たちにとってどのくらいの稼働率を目指すか?ということはとてもとても大切だ。 幸い、今回自分は影響がなかったが、当に完璧か?と言われるとそうではない。 まず弊社の場合、マルチリージョンではないので東京リージョンが落ちたら落ちる。 これを許容できない場合に99.99%を目指せるか?というと正直厳しい。 しかしサイトの規模はそんなに大きくないのでデータサイズも現実的に転送出来る範囲で、コンポーネントも少なく、TerraformやAnsibleによって再構築しやすい状態は整っている。 そのため

    障害から学ぶクラウドの正しい歩き方について考える - そーだいなるらくがき帳
    braitom
    braitom 2019/08/26
    大事なこと。“結局のところ、サービスを構築する上でコントローラブルな場所は意外と少ないことがわかった”
  • AWS障害、大部分の復旧完了 原因は「サーバの過熱」

    AWSは午後8時18分、クラウドサーバの復旧がほぼ完了したことを明らかにした。制御システムの障害により、サーバの温度が上がりすぎたことが原因だったという。 8月23日午後1時ごろに発生した、米Amazon Web Servicesのクラウドサービス「AWS」の東京リージョンでの障害について、同社は午後8時18分、クラウドサーバの復旧がほぼ完了したことを明らかにした。制御システムの障害により、サーバの温度が上がりすぎたことが原因だったという。 同社によると問題が起きたのは、「Amazon Elastic Compute Cloud」(EC2)の東京リージョンを構成する4つのデータセンター(アベイラビリティーゾーン、AZ)の内の1カ所。AZ内の制御システムに問題が発生し、複数の冗長化冷却システムに障害が起きたという。結果として、AZ内の少数のEC2サーバが過熱状態となり、障害として表面化した

    AWS障害、大部分の復旧完了 原因は「サーバの過熱」
    braitom
    braitom 2019/08/23
    ほー“複数の冗長化冷却システムに障害が起きたという。結果として、AZ内の少数のEC2サーバが過熱状態となり、障害として表面化したとしている。”
  • Details of the Cloudflare outage on July 2, 2019

    Details of the Cloudflare outage on July 2, 2019 Loading... Almost nine years ago, Cloudflare was a tiny company and I was a customer not an employee. Cloudflare had launched a month earlier and one day alerting told me that my little site, jgc.org, didn’t seem to have working DNS any more. Cloudflare had pushed out a change to its use of Protocol Buffers and it had broken DNS. I wrote to Matthew

    Details of the Cloudflare outage on July 2, 2019
    braitom
    braitom 2019/07/14
    7/2に起きたCloudflareの大規模障害の報告。かなり詳細に書かれていて面白い
  • システムの障害対応時に心がけること - orangeitems’s diary

    はじめに 世の中のシステムの数は間違いなく増え続けるばかりですので、障害対応の絶対数も増え続けることが宿命です。経験したたくさんの障害対応の中で、いくつか心がけることをおすすめしたいことがありますのでまとめます。 心がけるべきこと まず、復旧することを優先すること システム障害が発生したときに、迷うのは情報を採取するべきか。関係者に連絡を行うべきか。もしくは事前に決められた復旧手順を行うか。この3点です。 間違いなく、事前に決められた復旧手順を実施するべきでしょう。例えばミドルウェアの再起動、OSの再起動、ハードウェアの再起動などです。できれば一次障害対応手順書としてまとめられていた方がよいでしょう。ただし、この手順が複雑ではいけません。コマンドにして数行であるべきです。もし、複雑な手順を行わなければいけないとしたら、即時の復旧は無理ということです。 システムは利用者がいるため、連絡や情報

    システムの障害対応時に心がけること - orangeitems’s diary
    braitom
    braitom 2019/06/08
    障害対応時に心がけることについて。復旧を優先する、関係者への連絡を先にする、原因調査より前に延焼を防ぐなど。
  • Google Cloud Status Dashboard

    Google Cloud Status Dashboard Incidents Google Cloud Networking Google Cloud Status Dashboard This page provides status information on the services that are part of Google Cloud Platform. Check back here to view the current status of the services listed below. If you are experiencing an issue not listed here, please contact Support. Learn more about what's posted on the dashboard in this FAQ. For

    braitom
    braitom 2019/06/08
    先日のGoogle Cloudの障害のポストモーテム。まとめ方として参考になる。
  • システム障害との向き合い方 @sinamon129 #tokyogirlsrb

    これまで大小様々なシステム障害に遭遇してきましたが、障害対応から学ぶことは沢山あります。 いろんな習熟度のフェーズで障害発生を学びに変えるための行動事例や、webアプリケーション開発において障害対応を減らすためにできることなどをお話しできればと思います。 TokyoGirls.rb Meetup vol.1 https://techplay.jp/event/716251

    システム障害との向き合い方 @sinamon129 #tokyogirlsrb
  • SRE はサービス品質に影響しない程度の異常をどう扱うべきか? - 無印吉澤

    今回の記事は、最近考えていたことのメモです。 ここ最近いろいろ考えていたのですが行き詰まってきたので、とりあえず課題意識を説明する文章だけ書いてみました。結論はまだありません。 障害と異常の定義 話の前に、障害(failure)および異常(anomaly)という単語を定義しておきます。人によって定義は違うと思いますが、自分が文章を書くときは以下のように区別しています。 障害:サービスの停止や、サービス品質の深刻な劣化を引き起こすようなインシデント 異常:サービスに対する深刻な問題は引き起こさないが、通常は起こらないはずのインシデント この定義をもう少し詳しく説明するために、例として、ロードバランサと、その背後に5台のアプリケーションサーバがあるシステムを考えます。 これらのサーバが5台ともダウンしたり、半数を超える3台がダウンして応答時間が極端に長くなった(例えば10秒以上になった)場合は

    SRE はサービス品質に影響しない程度の異常をどう扱うべきか? - 無印吉澤
    braitom
    braitom 2019/02/27
    障害と異常の定義と異常をどう扱うかについての考察。長年見ているシステムの場合はあっなんかおかしいかもって気づけるけど経験則でしかないので確かにどう扱えばいいか悩む。
  • ソフトバンク大規模通信障害の原因:Geekなぺーじ

    2018年12月6日、ソフトバンクのネットワークにおいて、4時間25分にわたり約3060万回線の利用者に影響を及ぼす通信障害が発生しました。 ソフトバンクおよびワイモバイルの4G(LTE)携帯電話サービス、「おうちのでんわ」、Softbank Air、3Gサービスなどが影響を受けました。 この障害は、EricssonのMME内部にハードコーディングされた証明書が期限切れになったため、SGSN-MME(Serving GPRS Support Nodex - Mobility Management Entity)が再起動を繰り返してしまったのが原因です。 ただ、証明書が期限切れになることで、なぜ大規模な通信障害に繋がってしまうのかが良くわかりませんでした。 どのような設計をしたら、証明書が期限切れになったことで通信機器が再起動を繰り返すような状況になるのか、昨年段階では、いまいち理解できなか

  • 再発防止策を考える技術 / #phpconsen

    PHPカンファレンス仙台 2019@2019/1/26 https://phpcon-sendai.net/2019/

    再発防止策を考える技術 / #phpconsen
    braitom
    braitom 2019/01/28
    システム障害に立ち向かう話。システム障害とは何か、障害が起きたときにどう向き合うか、再発増資策をどのように考えるかが書かれている。人はミスを犯すという前提で考えるの大事。
  • 半月で2回も起こったAzureの多要素認証ダウン 原因はアップデートしたコードに潜んでいたバグ (1/2) - ITmedia エンタープライズ

    半月で2回も起こったAzureの多要素認証ダウン 原因はアップデートしたコードに潜んでいたバグ:Publickey(1/2 ページ) 2018年11月に、米Microsoftが運営するクラウドサービス「Microsoft Azure」と、クラウド型Officeサービス「Office 365」で多要素認証の障害が起き、ユーザーがログインできなくなるトラブルが2度も起こりました。その原因について、同社の報告から概要を見ていきましょう。 ユーザーIDとパスワードだけでログインできるシステムは、もはやセキュアなシステムとは言えません。セキュリティトークンやショートメッセージの利用、もしくは生体認証などの要素を加えた「多要素認証」を用いることが、特に企業向けサービスなど、セキュリティを重視するシステムへのログインでは欠かせない仕組みになっています。 ところが、Microsoftのクラウドサービスであ

    半月で2回も起こったAzureの多要素認証ダウン 原因はアップデートしたコードに潜んでいたバグ (1/2) - ITmedia エンタープライズ
    braitom
    braitom 2018/12/27
    AzureとOffice365の多要素認証の障害の解説