[B! 障害] braitomのブックマーク

みずほ銀行システム障害に学ぶ

みずほ銀行システム障害の調査報告書が公開されたのがニュースになって、Twitterなどで色々な人がコメントをしているのを見た。140文字しか書けない空間で他人の失敗談の揚げ足取りをするのは簡単だが、そこからは一時の爽快感以外に何も得るものがないので、僕はそういうのはカッコ悪いと思っている。そこで、ちゃんと読んでみたら全く他人事でない部分も沢山あるし、非常に面白く勉強になったので、ブログにまとめてみる。技術的な話銀行のシステムがどのようになっているのか、全然イメージが湧いていなかったので、それがまず勉強になった(p.29)。トラフィックのソースに応じて用意された色々なシステムから基幹システム「MINORI」の取引メインバスにトラフィックが流れ、そこから各種システムへとリクエストが送られていく。この辺はService Oriented Architectureらしい。開発当時としては（

braitom 2021/06/25

リンク

インシデント管理で得られた教訓

0 0 57 0 ジョーイ・ベイダ、ロス・デリンジャー共同執筆 Dropbox では、インシデント管理は信頼性への取り組みにおける重要な要素だと考えています。実際の障害発生に備えるために、カオスエンジニアリング（Chaos Engineering）などのプロアクティブな手法も採用していますが、インシデントへの対応の仕方がユーザーエクスペリエンスを大きく左右します。サイトの停止や製品の問題が発生する可能性がある場合、ユーザーにとって、それは一刻を争う事態です。導入されて数年になるインシデント管理プロセスの主要コンポーネントですが、この領域には常に進歩する要素がありました。時間をかけて、技術的にも組織的にも、さらには手続き的にも細かな調整を加えてきました。この投稿で触れているのは、 Dropbox がインシデント管理で得た教訓の一部について、深く掘り下げて説明します。インシデントにおけ

braitom 2021/04/09

Dropboxでのインシデント対応プロセスについて。

リンク

障害に強い Azure の運用を考える (2021 年版) - しばやん雑記

Azure の日本リージョン 7 周年の日に Japan East のストレージ障害が発生するという、なんともアレな出来事がありましたが、障害発生後はアーキテクチャを見直すいい機会だと思うので色々書きます。まだ RCA は公開されていないですが、おそらくぶちぞう RD がブログに書くのでリンクを貼ります。 4 年前の同じような時期にも Japan East で大規模なストレージ障害が発生したので、同じようなものを書きましたが流石にいろいろと進化しているので古さを感じます。今回の障害は影響範囲はさほど大きくなかったようで、主に Azure Storage と Virtual Machines がステータスには上がってきていました。実際には Application Insights や Log Analytics にも影響がありましたが、Azure Storage は全ての基本なので仕方な

braitom 2021/03/02

Azure
障害

リンク

システムの地理冗長を考える（2021/02 版）

JAWS-UG 浜松　AWS 勉強会 2021#2　2021/02/26

braitom 2021/03/02

AWSの地理冗長パターン選択実装のポイント、リスクやデメリットなどについてまとめられている。

リンク

freee のエンジニアは障害から何を学び、どう改善しているのか？ / What do freee engineers learn and improve from failures? - Speaker Deck

freee のエンジニアは障害から何を学び、どう改善しているのか？ / What do freee engineers learn and improve from failures?

braitom 2020/01/26

障害対応エリアの設置とか割れ窓を改善し隊とかいいなー。こういう地道な活動が文化を作っていくんだろうな。

障害

リンク

2018-2019年のサービス障害を振り返る - # cat /var/log/stereocat | tail -n3

ときどき思い出したように書いている障害事例まとめです。こういうのをやるならせめて年1回くらいはまとめないとダメだね……。昔の記事だと経緯や内容を覚えていないし、ニュース記事 (特に新聞社の記事や企業の障害に関するリリース記事) が消えてしまっていたりする。年末にまとめてドカッと振り返るのはしんどい。 2016-2017年のサービス障害を振り返る - # cat /var/log/stereocat | tail -n3 「なぜ障害事例をまとめているのか」についてはこっちに書いた内容そのままなのでこちらを参照してください。 DC/クラウド/通信事業者サービスの障害事例よせあつめ - # cat /var/log/stereocat | tail -n3 2010-2016あたりまでのメジャーな障害事例のまとめ基本的には自分がブックマーク等でクリップしたものをもとにまとめています。主要なニュ

braitom 2019/12/31

2018年、2019年におきたサービス障害記事のまとめ。こう見るとやっぱAWSやAzure、GCPの障害のインパクトはでかいな。

障害

リンク

障害対応とポストモーテム - スタディサプリ Product Team Blog

こんにちは。SRE の @chaspy です。ユーザに価値が提供できなくなってしまうシステム障害は起きてほしくはありませんが、絶対に発生しないとは言い切れません。そんなシステム障害は、そもそも発生頻度が不定、かつ多くないので、どのように対応すべきかを体系化することは（起きる事象が毎回異なることも相まって）難しいと思います。本記事では、Quipper において、どのように障害対応を行うのか、また、障害発生時の考え方を紹介します。障害はどのように対処されていくのか障害発生フロー Quipper では標準化された障害時連絡のフロー / 障害レベルがあります。これによって、障害の内容、影響範囲によっては親会社のリクルートマーケティングパートナーズへのエスカレーションが必要であることと、その基準が言語化されました。また、エスカレーション時に送るメールのテンプレートも用意されており、「誰

braitom 2019/11/30

障害発生時のフローについて、役割分担や状況報告などの障害対応への心構え、ポストモーテムの活用方法などがまとめられている。

障害

リンク

AWS障害回避のための対策をまとめたホワイトペーパーを公開しました - 株式会社サーバーワークス

サーバーワークスは、2019年8月23日（金）にAWS東京リージョン(AP-NORTHEAST-1) で発生した障害を受け、障害の概要と今後ビジネスに影響を及ぼさないための対策をまとめたホワイトペーパーを公開いたしました。 ■背景東京リージョンの1つのアベイラビリティゾーンで発生した、制御システムの複合的な不具合によって、いくつかのAWSサービスが影響を受けました。 ECサイトやゲームを含む国内多数のサービスにも影響が生じ、クラウド利用に対する不安が広がりました。今回のような障害に備えるためには、提供しているサービスの稼働レベルを考慮した上で最適な構成を選ぶことが求められます。当社はAWSのプレミアコンサルティングパートナーの視点で障害発生時からホームページ等で障害に対するお知らせや提言を公開してまいりました。今回それらをまとめ対策として解説することで、お客様のクラウド環境最適化に寄与

braitom 2019/09/11

aws
障害

リンク

インシデント指揮官トレーニングの手引き | Yakst

[SRE]原文 An Incident Command Training Handbook – Dan Slimmon (English) 原文著者 Dan Slimmon 原文公開日 2019-06-24 翻訳依頼者翻訳者 meiq 翻訳レビュアー doubl emarket 原著者への翻訳報告 1496日前 Twitterで報告済み編集私が Hashicorp で担った最初の仕事のひとつは、社内向けのインシデント指揮官のトレーニング資料を作ることでした。これは私自身がインシデントへの対処にあたりながら何年ものあいだ肌身に感じてきた、あらゆる類の考えをまとめ上げる良い機会となり、最高に面白いタスクでした。以下は私の書いたトレーニング資料、ほぼそのままです。あなたがインシデントレスポンスのポリシーを定義するにせよ、即興でインシデントレスポンスを行うにせよ、お役に立てたら幸いです。

braitom 2019/09/06

インシデント発生時に指揮をとる人のためのガイド。どのような役割でどのように振る舞うのか、インシデントレスポンスが横道にそれそうになったときの対応方法についてなどが書かれている。

リンク

AWS障害、“マルチAZ”なら大丈夫だったのか？　インフラエンジニアたちはどう捉えたか、生の声で分かった「実情」

AWS障害、“マルチAZ”なら大丈夫だったのか？　インフラエンジニアたちはどう捉えたか、生の声で分かった「実情」（1/3 ページ） 8月23日に起きたクラウドサービス「AWS」（Amazon Web Services）の東京リージョンでの障害は、国内のさまざまなサービスに影響を及ぼした。 AWSが同日午後8時ごろに復旧するまで、モバイル決済サービス「PayPay」や、仮想通貨取引所「Zaif」、オンラインゲーム「アズールレーン」などで利用できない、もしくは利用しづらい状況が続いた。PCショップの「ドスパラ」はECサイトの不具合が長引き、翌日の24日には実店舗を臨時休業して対応に当たっていた。 AWSという1つのサービス障害が起きただけで、多くの企業やサービスに影響を及ぼしたため、「クラウドサービスはもろい」という論調も散見された。しかし、インフラエンジニアたちからは違う意見が聞こえてくる

braitom 2019/08/29

aws
障害

リンク

障害から学ぶクラウドの正しい歩き方について考える - そーだいなるらくがき帳

AWSで大きな障害が発生したこの機会に、自分がクラウドと正しく付き合っていくために必要なことを考える。 piyolog.hatenadiary.jp ちなみに稼働率 99.99% くらいを目指していくために必要な事を考える。必要な稼働率を見極める今回は 99.99% くらいを目指すと言ったが、実際に自分たちにとってどのくらいの稼働率を目指すか？ということはとてもとても大切だ。幸い、今回自分は影響がなかったが、本当に完璧か？と言われるとそうではない。まず弊社の場合、マルチリージョンではないので東京リージョンが落ちたら落ちる。これを許容できない場合に99.99%を目指せるか？というと正直厳しい。しかしサイトの規模はそんなに大きくないのでデータサイズも現実的に転送出来る範囲で、コンポーネントも少なく、TerraformやAnsibleによって再構築しやすい状態は整っている。そのため

braitom 2019/08/26

大事なこと。“結局のところ、サービスを構築する上でコントローラブルな場所は意外と少ないことがわかった”

リンク

AWS障害、大部分の復旧完了　原因は「サーバの過熱」

米AWSは午後8時18分、クラウドサーバの復旧がほぼ完了したことを明らかにした。制御システムの障害により、サーバの温度が上がりすぎたことが原因だったという。 8月23日午後1時ごろに発生した、米Amazon Web Servicesのクラウドサービス「AWS」の東京リージョンでの障害について、同社は午後8時18分、クラウドサーバの復旧がほぼ完了したことを明らかにした。制御システムの障害により、サーバの温度が上がりすぎたことが原因だったという。同社によると問題が起きたのは、「Amazon Elastic Compute Cloud」（EC2）の東京リージョンを構成する4つのデータセンター（アベイラビリティーゾーン、AZ）の内の1カ所。AZ内の制御システムに問題が発生し、複数の冗長化冷却システムに障害が起きたという。結果として、AZ内の少数のEC2サーバが過熱状態となり、障害として表面化した

braitom 2019/08/23

ほー“複数の冗長化冷却システムに障害が起きたという。結果として、AZ内の少数のEC2サーバが過熱状態となり、障害として表面化したとしている。”

aws
障害

リンク

Details of the Cloudflare outage on July 2, 2019

Details of the Cloudflare outage on July 2, 2019 Loading... Almost nine years ago, Cloudflare was a tiny company and I was a customer not an employee. Cloudflare had launched a month earlier and one day alerting told me that my little site, jgc.org, didn’t seem to have working DNS any more. Cloudflare had pushed out a change to its use of Protocol Buffers and it had broken DNS. I wrote to Matthew

braitom 2019/07/14

7/2に起きたCloudflareの大規模障害の報告。かなり詳細に書かれていて面白い

障害

リンク

システムの障害対応時に心がけること - orangeitems’s diary

はじめに世の中のシステムの数は間違いなく増え続けるばかりですので、障害対応の絶対数も増え続けることが宿命です。経験したたくさんの障害対応の中で、いくつか心がけることをおすすめしたいことがありますのでまとめます。心がけるべきことまず、復旧することを優先することシステム障害が発生したときに、迷うのは情報を採取するべきか。関係者に連絡を行うべきか。もしくは事前に決められた復旧手順を行うか。この3点です。間違いなく、事前に決められた復旧手順を実施するべきでしょう。例えばミドルウェアの再起動、OSの再起動、ハードウェアの再起動などです。できれば一次障害対応手順書としてまとめられていた方がよいでしょう。ただし、この手順が複雑ではいけません。コマンドにして数行であるべきです。もし、複雑な手順を行わなければいけないとしたら、即時の復旧は無理ということです。システムは利用者がいるため、連絡や情報

braitom 2019/06/08

障害対応時に心がけることについて。復旧を優先する、関係者への連絡を先にする、原因調査より前に延焼を防ぐなど。

障害

リンク

Google Cloud Status Dashboard

Google Cloud Status Dashboard Incidents Google Cloud Networking Google Cloud Status Dashboard This page provides status information on the services that are part of Google Cloud Platform. Check back here to view the current status of the services listed below. If you are experiencing an issue not listed here, please contact Support. Learn more about what's posted on the dashboard in this FAQ. For

braitom 2019/06/08

先日のGoogle Cloudの障害のポストモーテム。まとめ方として参考になる。

リンク

システム障害との向き合い方 @sinamon129 #tokyogirlsrb

これまで大小様々なシステム障害に遭遇してきましたが、障害対応から学ぶことは沢山あります。いろんな習熟度のフェーズで障害発生を学びに変えるための行動事例や、webアプリケーション開発において障害対応を減らすためにできることなどをお話しできればと思います。 TokyoGirls.rb Meetup vol.1 https://techplay.jp/event/716251

braitom 2019/03/02

障害

リンク

SRE はサービス品質に影響しない程度の異常をどう扱うべきか？ - 無印吉澤

今回の記事は、最近考えていたことのメモです。ここ最近いろいろ考えていたのですが行き詰まってきたので、とりあえず課題意識を説明する文章だけ書いてみました。結論はまだありません。障害と異常の定義話の前に、障害（failure）および異常（anomaly）という単語を定義しておきます。人によって定義は違うと思いますが、自分が文章を書くときは以下のように区別しています。障害：サービスの停止や、サービス品質の深刻な劣化を引き起こすようなインシデント異常：サービスに対する深刻な問題は引き起こさないが、通常は起こらないはずのインシデントこの定義をもう少し詳しく説明するために、例として、ロードバランサと、その背後に5台のアプリケーションサーバがあるシステムを考えます。これらのサーバが5台ともダウンしたり、半数を超える3台がダウンして応答時間が極端に長くなった（例えば10秒以上になった）場合は

braitom 2019/02/27

障害と異常の定義と異常をどう扱うかについての考察。長年見ているシステムの場合はあっなんかおかしいかもって気づけるけど経験則でしかないので確かにどう扱えばいいか悩む。

SRE
障害

リンク

ソフトバンク大規模通信障害の原因:Geekなぺーじ

2018年12月6日、ソフトバンクのネットワークにおいて、4時間25分にわたり約3060万回線の利用者に影響を及ぼす通信障害が発生しました。ソフトバンクおよびワイモバイルの4G(LTE)携帯電話サービス、「おうちのでんわ」、Softbank Air、3Gサービスなどが影響を受けました。この障害は、EricssonのMME内部にハードコーディングされた証明書が期限切れになったため、SGSN-MME(Serving GPRS Support Nodex - Mobility Management Entity)が再起動を繰り返してしまったのが原因です。ただ、証明書が期限切れになることで、なぜ大規模な通信障害に繋がってしまうのかが良くわかりませんでした。どのような設計をしたら、証明書が期限切れになったことで通信機器が再起動を繰り返すような状況になるのか、昨年段階では、いまいち理解できなか

braitom 2019/02/05

リンク

再発防止策を考える技術 / #phpconsen

PHPカンファレンス仙台 2019@2019/1/26 https://phpcon-sendai.net/2019/

braitom 2019/01/28

システム障害に立ち向かう話。システム障害とは何か、障害が起きたときにどう向き合うか、再発増資策をどのように考えるかが書かれている。人はミスを犯すという前提で考えるの大事。

障害

リンク

半月で2回も起こったAzureの多要素認証ダウン　原因はアップデートしたコードに潜んでいたバグ (1/2) - ITmedia エンタープライズ

半月で2回も起こったAzureの多要素認証ダウン　原因はアップデートしたコードに潜んでいたバグ：Publickey（1/2 ページ） 2018年11月に、米Microsoftが運営するクラウドサービス「Microsoft Azure」と、クラウド型Officeサービス「Office 365」で多要素認証の障害が起き、ユーザーがログインできなくなるトラブルが2度も起こりました。その原因について、同社の報告から概要を見ていきましょう。ユーザーIDとパスワードだけでログインできるシステムは、もはやセキュアなシステムとは言えません。セキュリティトークンやショートメッセージの利用、もしくは生体認証などの要素を加えた「多要素認証」を用いることが、特に企業向けサービスなど、セキュリティを重視するシステムへのログインでは欠かせない仕組みになっています。ところが、Microsoftのクラウドサービスであ

braitom 2018/12/27

AzureとOffice365の多要素認証の障害の解説

リンク

はてなブックマーク

タグ

関連タグで絞り込む (26)

障害に関するbraitomのブックマーク (47)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

今週のはてなブックマーク数ランキング（2024年4月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス