タグ

障害に関するhigedのブックマーク (14)

  • アベイラビリティーゾーンを使用した静的安定性

    Amazon で構築するサービスにおいては、非常に高い目標で可用性を達成する必要があります。これはつまり、システムが取る依存関係について、慎重に検討する必要があることを意味します。これらの依存関係が損なわれた場合でも復元力を維持するようにシステムを設計します。この記事では、このレベルの復元力を実現するために静的安定性と呼ばれるパターンを定義します。この概念を、AWS の重要なインフラストラクチャビルディングブロックであるアベイラビリティーゾーンに適用する方法を示します。したがって、すべてのサービスが構築される基盤になります。 静的に安定した設計では、依存関係が損なわれてもシステム全体が動作し続けます。おそらく、システムは、依存関係が提供するはずだった更新された情報(新しいもの、削除されたもの、変更されたものなど)を確認しません。しかし、依存関係が損なわれる前に行われていたすべての処理は、依

    アベイラビリティーゾーンを使用した静的安定性
  • 障害発生!全員集合? - オンコールアンチパターンからの一歩前進 - Cybozu Inside Out | サイボウズエンジニアのブログ

    8月だというのに涼しい日が続きますね。 kintone.comのDevOpsをしている@ueokandeです。 もうすぐAWSkintoneのローンチからから2年が経過しようとしています。 この2年間、DevOpsチームではkintone.comのサービス安定化やスケーラビリティに注力してきました。 時には番環境の障害で休日や深夜に障害対応することもあります。 kintone.comの障害の一次対応は、我々DevOpsメンバーが実施しています。 サービスローンチ直後は、メンバーの多くがオンコールに不慣れで、慌てて障害対応したりうまく進められないことが何度もありました。 そこでメンバー全員が効率的・効果的な障害対応を目指すべく、チームでPagerDuty社のIncident Response(非公式日語訳版)を読むことにしました。 この記事ではAWSkintoneで実際に体験した障害

    障害発生!全員集合? - オンコールアンチパターンからの一歩前進 - Cybozu Inside Out | サイボウズエンジニアのブログ
  • 加齢した父親の精子が子どもの神経発達障害に影響する、東北大が確認

    東北大学は1月4日、父親の加齢が子どもの神経発達障害様行動異常の原因となりうること、またその原因となる分子病態基盤として、神経分化を制御するタンパク質「REST/NRSF」が関与し、加齢した父親の精子の非遺伝的要因が子どもに影響することを発見したと発表した。 同成果は、同大学大学院 医学系研究科・発生発達神経科学分野の大隅典子教授、東北大 加齢医学研究所 医用細胞資源センターの松居靖久教授、東京農業大学 応用生物科学部 バイオサイエンス学科 動物発生工学研究室の河野友宏教授、愛知県医療療育総合センター 発達障害研究所 障害モデル研究部の吉崎嘉一研究員らの共同研究チームによるもの。詳細は、「EMBO Reports」にオンライン掲載された。 将来の健康や特定の疾患へのかかりやすさなどは、胎児期や生後早期の環境に強く影響を受けると考えられている。これまでは、主に母体の栄養状態や薬物摂取など、母

    加齢した父親の精子が子どもの神経発達障害に影響する、東北大が確認
  • 「困った人」との付き合い方 自己愛・サイコパス・アスペルガーはどんな人か|トイアンナ

    周りにこういう人は、いないだろうか? 〇 職場で常に誰かを「敵」にして悪口を言っている。相手をあまりに完全悪のようにののしるので「それはちょっと言いすぎじゃ……」と口を挟もうものなら、自分も標的にされる。 〇 普段はめちゃくちゃ話が面白くて、気のいいやつ。だけれども、仕事や勉強ができない人間にやたら冷たい。思いついたように、人をいじめることもある。理由を聞くと「え、しょうがないじゃん」と事も無げに言うのでびっくりする。 〇 そういうのって、常識じゃん……と思うようなルールを破ってくる。職場で旅行先のお土産を置いたら、自分の分だけごそっと持って行ってしまったり、飲み会でお子さんがいる社員に気を遣わず2次会へ誘ったり。悪い人じゃないんだろうけれど、空気が読めてなさ過ぎてびっくりする。 この例は上から順に、自己愛、サイコパス、アスペルガーによくある例を書いたものだ。この三者は身近によくいる「困っ

    「困った人」との付き合い方 自己愛・サイコパス・アスペルガーはどんな人か|トイアンナ
  • システムの障害対応時に心がけること - orangeitems’s diary

    はじめに 世の中のシステムの数は間違いなく増え続けるばかりですので、障害対応の絶対数も増え続けることが宿命です。経験したたくさんの障害対応の中で、いくつか心がけることをおすすめしたいことがありますのでまとめます。 心がけるべきこと まず、復旧することを優先すること システム障害が発生したときに、迷うのは情報を採取するべきか。関係者に連絡を行うべきか。もしくは事前に決められた復旧手順を行うか。この3点です。 間違いなく、事前に決められた復旧手順を実施するべきでしょう。例えばミドルウェアの再起動、OSの再起動、ハードウェアの再起動などです。できれば一次障害対応手順書としてまとめられていた方がよいでしょう。ただし、この手順が複雑ではいけません。コマンドにして数行であるべきです。もし、複雑な手順を行わなければいけないとしたら、即時の復旧は無理ということです。 システムは利用者がいるため、連絡や情報

    システムの障害対応時に心がけること - orangeitems’s diary
  • システム障害との向き合い方 @sinamon129 #tokyogirlsrb

    これまで大小様々なシステム障害に遭遇してきましたが、障害対応から学ぶことは沢山あります。 いろんな習熟度のフェーズで障害発生を学びに変えるための行動事例や、webアプリケーション開発において障害対応を減らすためにできることなどをお話しできればと思います。 TokyoGirls.rb Meetup vol.1 https://techplay.jp/event/716251

    システム障害との向き合い方 @sinamon129 #tokyogirlsrb
  • 東証がシステム障害の原因公表、メリルリンチがIPアドレスを重複使用 | 日経 xTECH(クロステック)

    取引所グループ傘下の東京証券取引所は2018年10月23日、9日に株式売買システム「arrowhead」で起こったシステム障害のより詳しい原因や再発防止策などを公表した。合わせて東証の宮原幸一郎社長に月額報酬の10%を1カ月間減額するなどの経営幹部の処分も発表した。

    東証がシステム障害の原因公表、メリルリンチがIPアドレスを重複使用 | 日経 xTECH(クロステック)
  • システム運用の現場でしか学べないことは他メンバーに積極的に経験してもらうべきだった - seri::diary

    的に自分はタスクを拾いすぎてしまう傾向にある。それに加えて比較的朝型なこともあり、前職ではエンジニアの中で一番朝早く出社していることも多かった。*1 その結果どうなるかというと、朝出社して見つけた運用上のトラブルは大体自分がとりあえず手を付ける状態になっていた。前日の夜間バッチやその日の早朝に動くバッチがコケて問い合わせが来ているのでそのリカバリをする、前日にデプロイした後レスポンスが高くなってアラートが出ているのでその調査をする、web appがやたらと500系エラーを吐いているのでBugsnagを見る、等々。 出社している以上無視するわけにもいかないというのもあるが、見つけてしまうと放っておけない性格ということもあり最優先でこれらの対応をしてしまっていた。お陰で前職で触っていたproductについてはかなり広範囲の知見があり、その行動がそれなりに社内での評価につながっていたのではな

    システム運用の現場でしか学べないことは他メンバーに積極的に経験してもらうべきだった - seri::diary
  • ファーストサーバのレンタルサーバ「Zenlogic」、金曜夜からの全面サービス停止が解けず、いまだ停止中。ストレージ障害のためのメンテナンスで(追記あり)

    ファーストサーバのレンタルサーバ「Zenlogic」、金曜夜からの全面サービス停止が解けず、いまだ停止中。ストレージ障害のためのメンテナンスで(追記あり) ファーストサーバが提供しているホスティングサービス「Zenlogic」で、日午前8時に終了予定だったメンテナンスが終わらず、月曜日の午前9時を過ぎた記事執筆時点でサービスが停止したまま、終了時間が未定になっています。 (2018/7/9 15:47追記) 同社は障害の調査と平行して、基盤提供元のヤフー株式会社とともに別基盤の構築準備作業を実施していると報告しています。ただし「日中に目途をお伝えするのは厳しい状況でございます。」とのことで、明日10日火曜日までサービス停止が継続する可能性を示唆しています。 (2018/7/9 22:50追記)同社は一時的にサービスの再開を発表、下記の記事を公開しました。 ファーストサーバの「Zenlo

    ファーストサーバのレンタルサーバ「Zenlogic」、金曜夜からの全面サービス停止が解けず、いまだ停止中。ストレージ障害のためのメンテナンスで(追記あり)
    higed
    higed 2018/07/09
    “次のように解説しています”
  • Slack、11月1日に発生した大規模障害の原因は、定期デプロイによるソフトウェア障害が原因

    Slackが11月1日に起こした大規模障害は、同社内でデプロイしたソフトウェアが原因だと報告された。全ユーザーがSlackに接続できなくなる障害は2時間以上続き、その後復旧された。その概要と時系列を公開された報告書から追う。 オンラインチャットサービスを提供するSlackは、日時間で11月1日の朝から数時間、全ユーザーが接続できなくなるという大規模な障害を起こしています。 11月4日には、同社のStatusページに障害発生に関するまとめが掲載されました。それによると、障害の原因は同社内で行われていた定期デプロイによってサーバにデプロイされたソフトウェアの障害とのことです。 ただしそれがどのような障害であったのか、詳細については現時点では紹介されていません。 全ユーザーがSlackに接続できなくなり、復旧に向けサーバ増強 障害報告の前半は、概要がまとめられています。後述の詳細によると、同社

    Slack、11月1日に発生した大規模障害の原因は、定期デプロイによるソフトウェア障害が原因
  • メンテナンス・障害情報・機能追加|さくらインターネット公式サポートサイト

    2017年09月09日 障 害 発 生 の お 知 ら せ さくらインターネット株式会社 平素よりさくらインターネットをご利用いただき、誠にありがとうございます。 9月9日より、ご提供サービスにおきまして、以下の通り障害が発生いたしました が、収束いたしました。 ご利用中のお客様には大変ご迷惑をおかけいたしましたことを深くお詫び申し上 げます。 障害が収束いたしましたので、障害について報告書として下記にご説明いたし ます。 < 記 > 発生日時 : 2017年9月9日10時27分 影響範囲 : さくらのクラウド(オブジェクトストレージ) 障害内容 : バケットに接続しにくくなる障害が発生いたしました --------------------------------------------------------------------- 2017年10月11日 さくらのクラウドサービスに

  • 障害の概況

    © 2012-2024 Ookla, LLC., a Ziff Davis company. All Rights Reserved. Downdetector® is among the federally registered trademarks of Ookla® and may not be used by third parties without express written permission.

    障害の概況
    higed
    higed 2017/08/25
  • » アダルトサイトをAWSで運用する時に信頼性と料金節約を両立する為のノウハウ | アダルトサイト制作会社

    弊社で大規模なアダルトサイトの運用を行う上でのAWS利用構成を紹介させて頂きます。 利用料金を抑えたいというビジネス的な観点と、サービスを止めない為の障害回避を念頭に構成を紹介します。 関連:AWSのt2.microで月間100万PVに耐えるアダルトサイトを制作した話 この記事は技術者向けの内容になっています。 システム開発の発注をお考えの方は、こちらアダルトホームページ制作のご案内をご覧下さい。 サービスを止めない為のAWS利用構成 サービスを止めない事は弊社では2つの思想によって設計をしております。 障害を防ぐ為の堅牢な設計とする 障害が起きた時に瞬時に復旧、あるいは回避する 前者はイメージしやすいと思いますが、弊社では後者のフェイルオーバーも非常に大事であると考えています。 システム障害が起きない様にスペックを十分に確保する等は当然の事ですが、 万が一障害が発生した場合に即座に代替機

    » アダルトサイトをAWSで運用する時に信頼性と料金節約を両立する為のノウハウ | アダルトサイト制作会社
  • システム移行メンテナンスにおける一部時間帯に更新されたデータが消失した原因のご報告 - Mackerel お知らせ #mackerelio

    Webオペレーションエンジニアの id:y_uuki です。 2017年8月7日に、メンテナンスの完了報告及びデータ消失とカスタムダッシュボード、式監視の不具合に関するお詫びにてお知らせしたメンテナンス作業時間中のデータ消失について、エントリにて技術的な観点から原因の詳細をお伝えいたします。 概要 2017年8月7日(日時間)に、オンプレミスデータセンターからAWSへ、Mackerelをシステム移行するためのメンテナンスを実施しました。 メンテナンス開始時間である14:30以降のデータ同期に失敗していたPostgreSQLデータベースサーバへの意図しないフェイルオーバーが、メンテナンス作業途中の15:30に発生した結果、14:30から15:30の間に更新されたデータを消失しました。 移行作業後のアプリケーションの動作確認中に、特定時間帯のデータを消失していることを発見し、データの復旧を

    システム移行メンテナンスにおける一部時間帯に更新されたデータが消失した原因のご報告 - Mackerel お知らせ #mackerelio
  • 1