タグ

障害に関するluccafortのブックマーク (10)

  • 社内障害情報共有のススメ - Hatena Developer Blog

    こんにちは、アプリケーションエンジニアのid:shiba_yu36です。今日は社内で数年ほど取り組んでいる障害情報の社内共有についてご紹介したいと思います。 障害情報を社内共有する理由 サービスを運営しているなら、出来る限りサービスが一時的に止まってしまうなどの障害を起こさないように事前に対策を取るなど気をつけるべきです。しかし、どれだけ事前に対策をとっても、急激なアクセスの増加や、意図しないバグの混入、オペレーションのミスなどを理由として、障害を起こしてしまうことがあります。 障害が起きた時、それに暫定的に対応して終わりとしてしまうことも多いです。しかし、復旧した後大事なのは、障害に対して適切に振り返りをし、同じサービスで同様の理由で障害を起こさない、また社内で同様の理由の障害を未然に防ぐことです。 そこで、はてなでは障害の暫定対応をした後は、障害の振り返りや他チームへの知識共有のために

    社内障害情報共有のススメ - Hatena Developer Blog
    luccafort
    luccafort 2018/02/23
    過去に起こった障害とその対応ってぼくはものすごく大事な資産だと思ってるのでめちゃくちゃわかる。当たり前のことなんだけど意外とこれがきちんと出来てるところは少ないんですよね。
  • AWS でいままで起きた大規模障害を振り返る - Qiita

    目的 2017/3/1 に us-east-1 の S3 大規模障害がありました。過去にもいくつか発生しているのと、いつ使っているリージョンで同じ事態が起きてもおかしくないと思い、これを機に過去どのような障害があったのか遡って調べました。 所感 毎年どこかのリージョンで大規模な障害が起きている ap-northeast-1 で起きていないのはたまたま、運がいいだけ AWS は復旧時間の改善・可用性向上に全力を尽くしているものの、未知の障害はいつかどこかで起きるもの ステータスダッシュボードは時に嘘をつく クラウドシェアトップである AWS はインターネット全体の SPOF になりつつある Chaos Monkey の思想は必須 報告書読むの面白い AWS の中身がすこし透けて見えてきます 前回データセンターについて調べたことが役に立った AWS のデータセンターに侵入する(妄想で) - Q

    AWS でいままで起きた大規模障害を振り返る - Qiita
  • システム障害と僕達はいかにして戦えば良いのか、障害対応について考えた - Qiita

    IT界隈でエンジニアしていると、よく出くわすのが障害対応です。できれば会いたくないという人が多いと思うんですが、僕はけっこう好きです。障害対応。どこに原因があるのか調査をして、バランス良くベターな対応をしたときの楽しさは、プログラミングとはまた違ったものがあります。探偵っぽい感じが面白いですよね。もちろん、障害が発生しない状況を作るのが一番です 弊社では数多くのWebサービス/アプリを運営しているので、過去様々な障害対応をしてきました。その際に、解決までどんな道筋を僕がたどるのかを振り返ってまとめてみました。これが大正解なんてことはなく、人や事象によって違うとは思いますが。 なお、障害検知手法とか、サーバのコマンドとか、コードのデバッグ手法とか、具体的なことは一切出てきません。手続きと思考プロセス的な話です。 障害対応フローチャート 一般的な感じだと思いますが、障害報告から対応完了までのフ

    システム障害と僕達はいかにして戦えば良いのか、障害対応について考えた - Qiita
    luccafort
    luccafort 2015/12/17
    全体的に良いまとめで社内で共有したい。月一で全エンジニアで共有するTGIFがあるのが最高にいい。
  • ニトリ通販サイト、リニューアルで不具合 5日経っても再開できず

    ニトリの通販サイト「ニトリネット」でリニューアル作業時のプログラムエラーによる不具合が発生。5日経った22日現在も再開できていない。[update] ニトリは、公式通販サイト「ニトリネット」で6月17日にリニューアルを行ったところ、リリース時に一部のプログラムでエラーが発生し、不具合が起きたと発表した。サイトはメンテナンスが続いており、5日経った22日午後4時時点でも再開していない。同社によると、23日午前10時の復旧を目指して作業を続けているという。 リニューアル作業は17日午前0時から午前10時まで実施。リリース直後に一部プログラムエラーのためサーバが高負荷状態となり、表示エラーなどの不具合が発生した。 リニューアルは、サイトのグローバル対応やレビュー機能の実装、店舗在庫の閲覧機能、配送との連携機能などを追加するものだったが、リニューアル作業を委託した外部企業のプログラムに問題があった

    ニトリ通販サイト、リニューアルで不具合 5日経っても再開できず
    luccafort
    luccafort 2015/06/23
    リニューアル後に実装予定の内容がそこそこ重いのでなんか闇を感じる。鯖のスペックそのままでこれとこれとこれ追加してね、期限はこれで値段はこれでビタイチ変えないのでそのつもりでヨロ的な。ブラック…
  • 誰も教えてくれなかったMySQLの障害解析方法 - Qiita

    それほどDBに詳しくないアプリエンジニアが何かトラブった時にすぐさま行動して問題把握できるようになる情報を列挙しておきます。 開発時、障害時の対処療法やちょっとした定期監視方法などを対象にしています。 抜的な対策などはインフラエンジニアさんにお任せしたほうがいいと思います。 DBはいろんな意味でこわいんでできれば触りたくないです>< 事前確認 MySQLサーバーのシステム設定値を確認しておく 以下のようにサーバーのシステム設定値を確認できます。 mysql> SHOW GLOBAL VARIABLES; # ワイルドカード(%)を用いた絞り込み mysql> SHOW GLOBAL VARIABLES LIKE 'performance_schema%'

    誰も教えてくれなかったMySQLの障害解析方法 - Qiita
    luccafort
    luccafort 2014/07/16
    あとで読もう。わかりやすそうな感じがする。
  • 乙武氏ツイートの銀座の店に行き、店主に取材しました | かさこ塾かさこブログ2ちゃんねる5ちゃんねる

    店入口。ここにもすごい段差。 現場を想像しないで、客が運べばいいとか、 のんきなこと言っている人もいたが、かなりハードかと思う。 しかもお客さんはお酒飲んでるわけですよね。 そんな状況で手伝わせて安全が確保できるのだろうか。 ちなみに車椅子は重いから大変なのではという、私のつぶやきに対して、 「なんで車椅子、持ってくんですか? 乙武さんだけ運べばいいじゃないですか?」 と批判していた人がいたが、 車椅子は一体どこに置くんですかね? まさか銀座の歩道に放置ってことではないですよね。 ビルの中も見ての通り、通路が狭いので、スペースは少ない。 ちなみにこんな人はいないと思うが、 「あの店、ほんとに車椅子を入店拒否しないのか、試してみよう」 と興味位で車椅子で行くんだったら、 現場を見る限りおすすめできない。 店員が手伝うとか客が手伝うとかいう問題ではなく、構造上かなり厳しい。 でも不可能ではな

    乙武氏ツイートの銀座の店に行き、店主に取材しました | かさこ塾かさこブログ2ちゃんねる5ちゃんねる
    luccafort
    luccafort 2013/05/21
    『「車椅子ですけど大丈夫ですか?」 という「ココロのバリアフリー」が言えたなら、 こんな大騒ぎにはならなかった。』結論出ました。
  • まとめよう、あつまろう - Togetter

    コミュニケーションが生まれるツイートまとめツール

    まとめよう、あつまろう - Togetter
    luccafort
    luccafort 2013/05/19
    これはなんというか両者の言い分わかるけどどっちもどっち感があるな
  • ログイン ‹ だいちゃん.com — WordPress

    Powered by WordPress ユーザー名またはメールアドレス パスワード ログイン状態を保存する ← だいちゃん.com へ移動 プライバシーポリシー

    ログイン ‹ だいちゃん.com — WordPress
    luccafort
    luccafort 2013/03/14
    真偽のほどは別にして乙武さんならこれに変身をガチでしそうなのではよまとめ。
  • スカイツリー:電波障害、想定以上…機能移転大幅遅れ- 毎日jp(毎日新聞)

    東京タワー(333メートル)から東京スカイツリー(634メートル)=今年5月開業=への電波塔移転が、当初予定の来年1月から大きくずれ込む見通しとなったことが27日、NHKなどへの取材で分かった。スカイツリーから電波を出した場合、想定以上の障害が発生する恐れが強く、対策に時間がかかるため。NHKと在京民放5社の放送事業者には、視聴者の多い昼間に東京タワーの電波を止めて、スカイツリーの障害の全容を把握すべきだとの声もあり、視聴者を巻き込んだ大きな混乱も予想される。 放送事業者は東京タワーから電波を関東広域圏に送出している。東京タワー開業から50年以上たち、周囲に高層ビルが建ち並んだため、ビル陰などによる電波障害の解消や新たな観光名所を目指して、約650億円かけてスカイツリーが建設された。 スカイツリーのアンテナは東京タワーより200メートル以上高い位置にあり、ビル陰などによる受信障害は大幅に減

    luccafort
    luccafort 2012/10/29
    電波強度が高すぎると映らねえんだな、知らんかったわw
  • 株式会社IDCフロンティア

    IDCフロンティアのクラウドサービスが政府情報システムのためのセキュリティ評価制度(ISMAP... データセンター 2024年01月10日 【接続先追加】「バーチャルブリッジ」に主要IX事業者などの他事業者接続が追加 データセンター 2024年01月10日 令和6年能登半島地震の影響により、被災された地域のお客さまがご利用中のサービスについて支援措置を実施します。 サービス 2024年01月05日 新年のご挨拶 代表取締役社長 鈴木 勝久 その他 2024年01月04日 1月17日~19日に福岡で開催される「JANOG53 in Hakata」にブース出展します その他 2023年12月20日 ZDNET Japan Business&IT ClassWork supported by ... その他 2023年12月15日 IDCフロンティア、「AIサービスのためのデジタルインフラ」を

    株式会社IDCフロンティア
    luccafort
    luccafort 2012/06/25
    人的ミスに関しては仕方ないとしても影響範囲を限定するチェックはこういうところでは必須だと思うわけだが…そこら辺の危機意識とかが緩かったんだろうなぁ。
  • 1