並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 29 件 / 29件

新着順 人気順

ポストモーテムの検索結果1 - 29 件 / 29件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

ポストモーテムに関するエントリは29件あります。 SREエンジニア などが関連タグです。 人気エントリには 『SREチームでポストモーテムを1年半運用してみた - KAYAC engineers' blog』などがあります。
  • SREチームでポストモーテムを1年半運用してみた - KAYAC engineers' blog

    SREチームの藤原です。今回は、SREチームが主導してポストモーテムを書く取り組みを、社内で1年半ほど運用してみたという話です。 ポストモーテムとは? 「ポストモーテム」(postmortem=事後検証)とは、システムにインシデントが発生したことによる影響、緩和や解決のために取られた行動、インシデントの原因、再発防止策などをまとめた文書です。 カヤックのSREチームは、各メンバーがそれぞれのプロダクトに参加し、他のエンジニアとともに開発と運用を行う、いわゆる「Embedded SRE」という形態を取っています。そのため、SREチームのメンバーでも自分が関わっていないプロダクトで発生したインシデントについては詳しく把握できないことがありました。SRE以外で運用に携わっている、プロダクト専任のサーバーサイドエンジニアにはなおさら困難でした。 また、インシデント発生時に実際に手を動かす人がどうし

      SREチームでポストモーテムを1年半運用してみた - KAYAC engineers' blog
    • 1年間のポストモーテム運用とそこから生まれたツール sre-advisor / SRE NEXT 2022

      SRE NEXT 2022 2022-05-14 14:45〜15:15 https://sre-next.dev/2022/schedule#jp15

        1年間のポストモーテム運用とそこから生まれたツール sre-advisor / SRE NEXT 2022
      • SRE成熟度評価におけるポストモーテムLv.3ガイドライン

        ポストモーテムLT会!「SRE成熟度評価」「社内共有会」カルチャーを醸成するためにやったこと https://findy.connpass.com/event/294084/ □ Slide内資料リンク SRG Portal https://ca-srg.dev/ Developer Experts制度 https://www.cyberagent.co.jp/techinfo/info/detail/id=23823 データで見るサイバーエージェントグループのSREと横断的なSRE推進の取り組み https://speakerdeck.com/shotatsuge/ca-sre-promotion SRE Technology Map https://www.cyberagent.co.jp/techinfo/info/detail/id=28998 サイバーエージェントグループ エンジ

          SRE成熟度評価におけるポストモーテムLv.3ガイドライン
        • 「挑戦しなければ障害は生まれない」社内ポストモーテム共有会 - LIVESENSE ENGINEER BLOG

          こんにちは。インフラエンジニアのsheep_san_whiteです。 障害を起こしてしまって、ポストモーテムを書いたことありますか? 私はあります( • ̀ω•́ )ドヤッ 社内ポストモーテム共有会について さて、リブセンスでは6月24日に「社内ポストモーテム共有会」を開催しました。 ポストモーテムを持ち寄って内容を振り返り、お焚き上げするという会です。 コロナ禍の中ではありますが、オンライン/オフライン混合のハイブリッドで開催しました。 ハイブリッド開催の様子 撮影場所: WeWork東京ポートシティ竹芝 社内ポストモーテム共有会について 発表内容 Sがついてただけなのに シン・風桶〜null文字入ればピザ屋が儲かる〜 内容の更新がSolrに反映されない 再提示リクエストリリースによる指名ページのエラー 課金関連の開発でバグを出しまくった話 サマリーテーブル生成時にエラー発生 DBの変

            「挑戦しなければ障害は生まれない」社内ポストモーテム共有会 - LIVESENSE ENGINEER BLOG
          • 障害対応とポストモーテム - スタディサプリ Product Team Blog

            こんにちは。SRE の @chaspy です。 ユーザに価値が提供できなくなってしまうシステム障害は起きてほしくはありませんが、絶対に発生しないとは言い切れません。 そんなシステム障害は、そもそも発生頻度が不定、かつ多くないので、どのように対応すべきかを体系化することは(起きる事象が毎回異なることも相まって)難しいと思います。 本記事では、Quipper において、どのように障害対応を行うのか、また、障害発生時の考え方を紹介します。 障害はどのように対処されていくのか 障害発生フロー Quipper では 標準化された障害時連絡のフロー / 障害レベルがあります。 これによって、障害の内容、影響範囲によっては親会社のリクルートマーケティングパートナーズへのエスカレーションが必要であることと、その基準が言語化されました。また、エスカレーション時に送るメールのテンプレートも用意されており、「誰

              障害対応とポストモーテム - スタディサプリ Product Team Blog
            • ポストモーテム: AWS Lambda内のリクエストからHTTPヘッダが消えた日

              AWS Lambdaで突如としてHTTPヘッダが消失し、それにより悩まされることとなった日の経験を共有します。この問題がどのように生じ解決に至ったのか、また、私たちが学んだ教訓について述べていきます。 対象のLambda関数 今回問題が起きたLambda関数では、ランタイムにNode.jsを利用していました。Lambda関数の中には、外部のAPIサーバに対するリクエスト処理が含まれます。 環境情報は以下の通りです。 ランタイム: Node.js 18 (18.18.2) リクエストライブラリ: ky v1.0.1 エラーの発生 ある時、APIサーバからのレスポンスが"415 Unsupported Media Type"というエラーで返ってくるようになりました。エラーメッセージは以下のようなものです。 問題が起きる前は一度も発生していないエラーでしたが、一度発生した後は、全てのリクエストが

                ポストモーテム: AWS Lambda内のリクエストからHTTPヘッダが消えた日
              • ポストモーテム会を行って障害対応の改善を図った話 - LIFULL Creators Blog

                プロダクトエンジニアリング部の吉田と申します。 普段はRubyやTypeScriptといった言語を使ったサーバサイドエンジニアをしています。 今回、サイトの閲覧障害をきっかけに行ったポストモーテム会が個人的にとても有意義だと感じたので紹介させてください。 障害分析レポートの紹介 弊社では障害が起きた場合、障害分析レポートを書くという決まりがあります。 この障害分析レポートというものは、一般的にはSREの用語でポストモーテムとして知られている障害対応時のことを記録する文書のことです。 弊社では品質管理を行っている部署がテンプレートやフォーマットを整えてくれており、内容としてはオライリーのSRE本の付録Dに記載してある「ポストモーテムの例」にかなり似通った内容です。 かいつまんで紹介すると下記のような内容を記載するものです。 障害の概要 影響範囲 タイムライン 水面下で起きていた問題(根本の問

                  ポストモーテム会を行って障害対応の改善を図った話 - LIFULL Creators Blog
                • ポストモーテムを理解する - Qiita

                  はじめに こんにちは、webエンジニアの@an_sonyです。 最近、障害対応の振り返りをしていた時に「ポストモーテム」という手法を初めて知りました。これまで「どうやったら良い振り返りができるのか?」と悩んでいた自分にとって目から鱗の知識ばかりでしたので、整理のためにまとめてみます。 ポストモーテムとは? SRE サイトリライアビリティエンジニアリング1によると、インシデントとそのインパクト、その緩和や解消のために行われたアクション、根本原因(群)、インシデントの再発を避けるためのフォローアップのアクションを記録するために書かれるドキュメントを指します。 言い換えると、失敗(障害)から学び、再発防止策を決める活動です。 障害報告書との違い 障害報告書と内容が似ていますが、ポストモーテムは読者と目的が違います。 障害報告書は、障害発生によって不利益が生じたユーザーに対して、その説明をするため

                    ポストモーテムを理解する - Qiita
                  • ajitofm 50: AWS東京リージョンでの障害、障害に強いアーキテクチャ、ポストモーテム(builderscon 2019 公開収録)

                    builderscon tokyo 2019ランチセッションにて、t_wadaさん、katzchangさんとAWS東京リージョンでの障害、障害に強いアーキテクチャ、ポストモーテムなどについて話しました。 東京リージョン (AP-NORTHEAST-1) で発生した Amazon EC2 と Amazon EBS の事象概要 AWS、複数のアベイラビリティゾーンで稼働していたアプリケーションでも大規模障害の影響があったと説明を修正。東京リージョンの大規模障害で追加報告 - Publickey Chaos Engineering Upgraded - Netflix TechBlog - Medium (2015) Spotinst - Cloud Workload Automation 空間識失調 - Wikipedia パニックボタンについて書かれています。 計器飛行 - Wikipedi

                      ajitofm 50: AWS東京リージョンでの障害、障害に強いアーキテクチャ、ポストモーテム(builderscon 2019 公開収録)
                    • 「0回目のポストモーテム」としてのプレモーテムのすすめ - スタディサプリ Product Team Blog

                      こんにちは。SREの@kyontanです。スタディサプリのSREチームにジョインしてから初のブログ記事となります。 つい先日、スタディサプリ 中学講座が大幅リニューアルされました。*1 今回は、そのリリースを自信を持ってユーザーの皆様へお届けするために実施した、プレモーテムという取り組みについてご紹介したいと思います。 背景 今回のスタディサプリ 中学講座のリニューアルは、バックエンド、フロントエンド(Web/iOS/Android)の開発をフルスクラッチで行ったため、大規模なリリースとなりました。 すでにユーザーへ提供しているサービスを、段階的にリニューアルされたものへ切り替えていく複雑なリリースということもあり、リリースにあたっては予期しないトラブルが起きる可能性が推測できます。 通常、さまざまなトラブル(障害)が起きた際には、私たちはあらかじめ定めた障害対応フローに沿って対応を行い、

                        「0回目のポストモーテム」としてのプレモーテムのすすめ - スタディサプリ Product Team Blog
                      • [CEDEC]第3世代ブロックチェーンはゲームに使えるのか? IOST版CryptoNinjaポストモーテム

                        [CEDEC]第3世代ブロックチェーンはゲームに使えるのか? IOST版CryptoNinjaポストモーテム 2019年9月4日,神奈川県・パシフィコ横浜で「CEDEC 2019」が開幕した。ここではエバーシステムによる「世界のブロックチェーンゲームの動向と第3世代ブロックチェーンを利用したゲーム開発」の概要を紹介してみたい。 冒頭ではエバーシステム代表取締役和田隆夫氏から,世界のブロックチェーンゲームの状況が紹介された。ざっくり要約すると,コンテンツはリッチ化しており,東欧や中国で盛んであり,アイテムをトークン化して売買するシステムが主流とのこと。 講演の中心的話題は同社のブロックチェーンゲーム「CryptoNinja」に関するものだ。昨年ローンチしたバージョンでの問題点と今年の新しいバージョンに関する解説だ。 さて,演題に挙げられている「第3世代ブロックチェーン」とはなんだろうか。まず

                          [CEDEC]第3世代ブロックチェーンはゲームに使えるのか? IOST版CryptoNinjaポストモーテム
                        • 障害に前向きに向き合っていきたい〜「ポストモーテムから学ぶ会」誕生秘話〜 - ANDPAD Tech Blog

                          こんにちは、お久しぶりです!CREのmayuzo(@nanaka1103)です。 昨年末から産休・育休に入っていたため、お久しぶりの投稿となりました。今は子育てと仕事を両立させたいと頑張っていますが、覚悟はしていたものの大変ですね。先人達には頭が上がりません。 さて、今回はアドベントカレンダーへの寄稿として、アンドパッドのCREが障害に向き合っている取り組みについて書いていこうと思います! 障害対応におけるCREの役割 アンドパッドでの障害対応の流れ 振り返りとポストモーテム ポストモーテムから学ぶ会 開催の形式 CREがこの会を主導する意味 実際効果はあったのか (余談)会の名前に込められた意味 さいごに 障害対応におけるCREの役割 障害*1 あまり聞きたくない言葉ですね。できることなら起こらないでほしいし経験したくない。しかしながら、長くサービスを運営しリリースを繰り返していると完全

                            障害に前向きに向き合っていきたい〜「ポストモーテムから学ぶ会」誕生秘話〜 - ANDPAD Tech Blog
                          • ポストモーテムはじめました

                            ポストモーテムはじめました - 良いポストモーテムを執筆するために必要な5つのポイント というタイトルで登壇してきました。 2023年02月09日 インシデントにどう対応してきたか?みんなで学ぶポストモーテム Lunch LT https://findy.connpass.com/event/273197/ 『ポストモーテムはじめました』というタイトルで登壇しました。 - じゃあ、おうちで学べる https://syu-m-5151.hatenablog.com/entry/2023/02/09/113316

                              ポストモーテムはじめました
                            • Amazon.co.jp: ポストモーテム みずほ銀行システム障害 事後検証報告: 日経コンピュータ: 本

                                Amazon.co.jp: ポストモーテム みずほ銀行システム障害 事後検証報告: 日経コンピュータ: 本
                              • 書評:ポストモーテム みずほ銀行システム障害 事後検証報告(日経コンピュータ )|窓際三等兵

                                みんな大好きみずほ銀行のシステム障害について分析した名著、「みずほ銀行システム統合苦闘の19年史」の第二弾。システム専門誌の連載を書籍化した経緯もあり専門的な部分はあるものの、私立文系卒でも内容を理解できるように噛み砕いて説明している親切仕様となっている。 前作同様、みずほ銀行のシステムの欠陥をあげつらうのではなく、「何故システム障害が起きたのか」という問いに対して、組織の風土などの問題点を一つずつ丁寧に指摘する構成となっている。この手の本にありがちな糾弾を目的としたものではなく、客観的に冷静に指摘するスタイルで、フェアな書きぶりだ。個人的にはシステムの詳細の部分を削って組織論や周辺部分を書いた方が「売れる」本になると思うが、あえてそうしなかったのも専門媒体としての矜持を感じた。 全編を通じ、繰り返し指摘されているのがみずほ銀行の感度の鈍さと想像力の貧しさだ。日本中に衝撃と笑いをもたらした

                                  書評:ポストモーテム みずほ銀行システム障害 事後検証報告(日経コンピュータ )|窓際三等兵
                                • ポストモーテムとは|CAMPFIRE 開発チーム

                                  ポストモーテム(Postmortem)とは想定外のインシデントが発生した後に書かれる内部向けの報告書である。ポストモーテムの目的は組織的な学習であり、インシデントの細部を明らかにするために非難のない文化を重視する。ポストモーテムは、インシデントとそのインパクト、その緩和や解消のために行われたアクション、根本原因(群)、インシデントの再発を避けるためのフォローアップのアクションを記録するために書かれる。 ポストモーテムの作成ポストモーテムを書くことの主な目的は、インシデントがドキュメント化されること、影響を及ぼしたすべての根本原因(群)が十分に理解されること、そして特に再発を防止するための予防策の導入である。 一般的に、以下のようなケースでポストモーテムが作成される。 ・ユーザーに影響が及んだダウンタイムやデグレーションが一定の閾値を超えた場合 ・種類の如何を問わず、データの損失が生じた場合

                                    ポストモーテムとは|CAMPFIRE 開発チーム
                                  • ポストモーテム運用を支える文化と技術 / Culture and Technology Supporting Postmortem Operations

                                    https://findy.connpass.com/event/273197/

                                      ポストモーテム運用を支える文化と技術 / Culture and Technology Supporting Postmortem Operations
                                    • ドリコムのポストモーテム放出 - Tech Inside Drecom

                                      「ポスモ」って呼んでます こんにちは、 Smith (@do_low) です。 ドリコムの一部のプロジェクトでは、障害や深刻な不具合が発生した場合、そのポストモーテムを書いています。 ポストモーテム自体については様々なサイトで説明がなされているので詳細は省きますが、おおよその説明通り、発生してしまった問題から教訓を得て今後に活かすためのチームの取り組みとして実施しています。 テックブログは普通、イケてる技術的取り組みだったり、登壇報告だったりと、良いことばっかり書くものですが、 Tech Inside Drecom では、ドリコムの等身大のエンジニアリングをお伝えするため、また、ドリコムだけでなく読者の皆様も教訓を得られる機会を提供するため、共有できそうなポストモーテムは公開することにしました。 資料は可能な限り原文のまま記載していますが、人物名、プロジェクトコード、日付や時刻、仕様に関す

                                        ドリコムのポストモーテム放出 - Tech Inside Drecom
                                      • スタディプラスのポストモーテム文化 - Studyplus Engineering Blog

                                        お久しぶりです。SREグループの菅原です。 おすすめのアイスはオハヨー乳業のBRULEEです。夏場は1日にアイスをいくつも食べてしまいました。もう末期ですね。 弊社ではポストモーテムをバックエンド(サーバーサイド+SRE)で運用して3年経ちました。2019年のSREチームを立ち上げ直後から導入しており、そこで作った運用ルールを基に現在も引き続き運用しております。今回は弊社のポストモーテムについて詳しくご紹介します。 目次 ポストモーテム導入で何を解決したかったのか? 障害対応のドキュメントが単なる作業証跡だった 障害対応を率先して行うメンバーに偏りがあった システムの理解度に差が生まれがちだった ポストモーテムの布教 ポストモーテムのルール作成 ポストモーテムを書くべきインシデントの基準 ポストモーテムのレビュー ポストモーテムの運用 ポストモーテムの担当者 ポストモーテムの実施タイミング

                                          スタディプラスのポストモーテム文化 - Studyplus Engineering Blog
                                        • ポストモーテムの取り組み | Wantedly Engineering Handbook

                                          Infra と各チームの SRE が中心になって、 ポストモーテムの作成や同期的なレビュー会を毎週行っています。 https://github.com/wantedly/post-mortems (internal) に過去のポストモーテムをまとめています。 Wantedly では、日々新しい機能や新しいシステムが追加されています。 そのため、成長と同時に複雑な分散システムになりつつあります。 インシデントやサービス障害は、増幅する規模感と変化の速度から避けがたいです。 インシデントが発生した場合は、基本的にその場で原因対策し安定運用に戻します。 しかし、こういったインシデントから学びを得るための定式化されたプロセスがなければ、同じようなインシデントが無限に繰り返し起こることになります。また野放しのままになってしまえば、インシデントの複雑さは加速度的に増し、あるいは積み重なってシステムの対

                                            ポストモーテムの取り組み | Wantedly Engineering Handbook
                                          • 良いポストモーテムを執筆するために必要な5つのポイント | sreake.com | 株式会社スリーシェイク

                                            SREにおいてポストモーテムの文化を根付かせることは必要不可欠です。 ポストモーテムはSREの導入効果をより高め、結果としてシステムの信頼性向上に繋がる体制が作れます。 本記事では、良いポストモーテムの形成方法について解説します。ポストモーテムの作り方で悩んでいる担当者の方、SRE導入を検討している方は最後までお付き合いください。 ポストモーテムの必要性とメリット良いポストモーテムを執筆するために必要な5つのポイントポストモーテム文化を根付かせるための施策ポストモーテム文化およびSRE組織の形成ならお任せください ポストモーテムの必要性とメリット ポストモーテム(post mortem) は「事後」を意味し、SREにおいては「失敗から学び、同じ過ちを繰り返さないこと」に重点を置いた考え方になります。 サービス運用において障害や失敗が発生した後、「ひとまず問題は解決したし、収束したからOK」

                                            • ポストモーテムLunchLTに登壇しました - hacomono TECH BLOG

                                              はじめに こんにちは、Engineering Officeアシスタントのちいです。 2023年9月14日(木)にファインディ社主催のLunchLT「ポストモーテムLT会!「SRE成熟度評価」「社内共有会」カルチャーを醸成するためにやったこと」に発表者としてEMのよこちゃんが登壇しました。 発表内容や登壇しての感想をテックブログでも公開させていただきます。 発表内容 よこちゃんのタイトルと発表資料は以下です。 ◾️タイトル「hacomonoでのポストモーテムの取り組み」 今回は、hacomonoが近年急成長する中でのインシデント対応について発表させていただきました。 hacomonoではインシデント発生時のリードを担当するPSIRTチームを立ち上げました。 インシデントレポートやポストモーテムはnotionで管理しており、インシデントについては稼働率の推移や、インシデント対象機能や原因の割合

                                                ポストモーテムLunchLTに登壇しました - hacomono TECH BLOG
                                              • 1人目の専任SREがポストモーテム文化を改善したらエンジニア以外にも広まり、他部門との連携も強化された話|Hiroki Takatsuka

                                                2022年7月に primeNumber に入社した、1人目の専任 SRE の高塚 (@tk3fftk) です🙏 primeNumber が開発する trocco® のSREチームは現在、CTOの鈴木さん (@kekekenta) と自分、業務委託の方数名で日々さまざまな改善を行っています。 入社して半年以上経ち、行ってきた改善をふりかえりを行いがてら、記事を書いてみることにしました。 この記事では、SREの取り組みの1つとして、primeNumber のポストモーテム文化を改善した話をします。 追記: この記事をベースにしたLT登壇の機会をいただきました🎉 ポストモーテムとは?ポストモーテムとは、簡単に言うと、発生したインシデントについて読めば把握できるようなドキュメントです。 影響範囲、根本原因、タイムライン、行われた対応や再発防止策などが含まれます。 具体的な定義や書き方について

                                                  1人目の専任SREがポストモーテム文化を改善したらエンジニア以外にも広まり、他部門との連携も強化された話|Hiroki Takatsuka
                                                • ゲーム開発の最前線「GDC」参加報告会レポート――三宅陽一郎氏らが注目したAIやゲームデザイン、ポストモーテム関連の講演を紹介

                                                  IGDA日本(国際ゲーム開発者協会日本)による「GDC参加報告会」が、2023年4月9日(日)にウェビナー形式で開催されました。登壇したのは西川 善司氏、南治 一徳氏、德岡 マサトシ氏、三宅 陽一郎氏。人体にまつわるゲームグラフィック、LDゲームのポストモーテム、アナログゲームのゲームデザイン、ゲームAIなど、それぞれの視点からGDCについて報告がありました。 TEXT / 田端 秀輝 EDIT / 酒井 理恵、神山 大輝

                                                    ゲーム開発の最前線「GDC」参加報告会レポート――三宅陽一郎氏らが注目したAIやゲームデザイン、ポストモーテム関連の講演を紹介
                                                  • 失敗から学ぶ - ポストモーテム / Postmotem culture at Wantedly

                                                    Wantedly, Inc. 2019年度 新卒研修資料

                                                      失敗から学ぶ - ポストモーテム / Postmotem culture at Wantedly
                                                    • 週刊ポストモーテム継続への道のり - クラウドワークス エンジニアブログ

                                                      こんにちは、SREチームの @bayashi_ok です。 今回はクラウドワークスで週1回ペースで実施している「週刊ポストモーテム」の取り組みをご紹介していきます。 ポストモーテムとは 週刊ポストモーテムとは 復刻:週刊ポストモーテム 障害対応した人もしくはそのチームの人が発表 障害がなくても開催 ゆるく開催 継続して開催していくメリット みんなの交流の場にもなる 課題を見つけ、なにかをはじめるきっかけになる 他部門の人に知ってもらえる 監視ツールの使い方や見方がわかる 今後の課題 ファシリテーションのローテーション 他部門の人も発表してもらえるようにする 時間帯が合わない ファシリテーションスキルをあげる 最後に ポストモーテムとは まずポストモーテムという単語について少し説明します。 ポストモーテムの意味は各分野でも変わっており、医学の世界では「検死」、プロジェクトマネジメントの世界で

                                                        週刊ポストモーテム継続への道のり - クラウドワークス エンジニアブログ
                                                      • ポストモーテムによる振り返りの文化 - ドクターズプライム Official Blog

                                                        こんにちは、最近暑かったり寒かったりで衣替えのタイミングを完全に見失っているソフトウェアエンジニアのoinumeです。今日はドクターズプライムで行っているポストモーテムについて紹介したいと思います。 ポストモーテムとは? 弊社ではプロダクトに毎日のように機能追加・改修を行っています。機能追加や改修は人間が行うものなので、リリース後に不具合や障害が発生することはどうしても避けられません。そのため、もし不具合や障害が発生した場合は どういう問題がいつ起こったのか? 何が原因だったのか? どうやって問題を解決したのか? を振り返り、同様の問題が起きないように再発防止策を練っていきます。この振り返りがポストモーテムです。 ポストモーテムについて、より詳しくはGoogle社が出しているSRE本を読まれると良いでしょう。 ポストモーテムのレポートのフォーマット 何かしらの不具合や障害が発生しその対応が

                                                          ポストモーテムによる振り返りの文化 - ドクターズプライム Official Blog
                                                        • ajitofm 50: AWS東京リージョンでの障害、障害に強いアーキテクチャ、ポストモーテム(builderscon 2019 公開収録)

                                                          builderscon tokyo 2019ランチセッションにて、t_wadaさん、katzchangさんとAWS東京リージョンでの障害、障害に強いアーキテクチャ、ポストモーテムなどについて話しました。 東京リージョン (AP-NORTHEAST-1) で発生した Amazon EC2 と Amazon EBS の事象概要 AWS、複数のアベイラビリティゾーンで稼働していたアプリケーションでも大規模障害の影響があったと説明を修正。東京リージョンの大規模障害で追加報告 - Publickey Chaos Engineering Upgraded - Netflix TechBlog - Medium (2015) Spotinst - Cloud Workload Automation 空間識失調 - Wikipedia パニックボタンについて書かれています。 計器飛行 - Wikipedi

                                                            ajitofm 50: AWS東京リージョンでの障害、障害に強いアーキテクチャ、ポストモーテム(builderscon 2019 公開収録)
                                                          • インフラ障害対応とポストモーテム

                                                            「家族アルバム みてね」のSREチームの清水です。これは、ミクシィグループAdvent Calendar 2020、14日目の記事です。あまり時間がなく若干殴り書きとなっているので、抜け漏れ、誤りがあったらごめんなさい。 少し前にTwitterでこんなことをつぶやきました。 この内容について、もう少し掘り下げてみたいと思います。 インフラ障害への対応インフラに携わっている多くの方が何らかの障害を経験したことがあるのではないでしょうか。インフラの障害は全く起きないことが理想ではあります、絶対に起きないという保証はなかなかできません。提供するサービスの形態によってはSLAをかなり厳しくして、多少の障害点があったとしてもサービスが継続できる形をとっているケースもあるかと思いますが、すべてのサービスがそうであるわけではありません。かけられるコストとのバランスを考えて、多少のエラーレートを許容してい

                                                              インフラ障害対応とポストモーテム
                                                            1

                                                            新着記事