[B! 障害] higedのブックマーク

アベイラビリティーゾーンを使用した静的安定性

Amazon で構築するサービスにおいては、非常に高い目標で可用性を達成する必要があります。これはつまり、システムが取る依存関係について、慎重に検討する必要があることを意味します。これらの依存関係が損なわれた場合でも復元力を維持するようにシステムを設計します。この記事では、このレベルの復元力を実現するために静的安定性と呼ばれるパターンを定義します。この概念を、AWS の重要なインフラストラクチャビルディングブロックであるアベイラビリティーゾーンに適用する方法を示します。したがって、すべてのサービスが構築される基盤になります。静的に安定した設計では、依存関係が損なわれてもシステム全体が動作し続けます。おそらく、システムは、依存関係が提供するはずだった更新された情報（新しいもの、削除されたもの、変更されたものなど）を確認しません。しかし、依存関係が損なわれる前に行われていたすべての処理は、依

higed 2022/05/27

リンク

障害発生！全員集合？－オンコールアンチパターンからの一歩前進 - Cybozu Inside Out | サイボウズエンジニアのブログ

8月だというのに涼しい日が続きますね。 kintone.comのDevOpsをしている@ueokandeです。もうすぐAWS版kintoneのローンチからから2年が経過しようとしています。この2年間、DevOpsチームではkintone.comのサービス安定化やスケーラビリティに注力してきました。時には本番環境の障害で休日や深夜に障害対応することもあります。 kintone.comの障害の一次対応は、我々DevOpsメンバーが実施しています。サービスローンチ直後は、メンバーの多くがオンコールに不慣れで、慌てて障害対応したりうまく進められないことが何度もありました。そこでメンバー全員が効率的・効果的な障害対応を目指すべく、チームでPagerDuty社のIncident Response（非公式日本語訳版）を読むことにしました。この記事ではAWS版kintoneで実際に体験した障害

higed 2021/08/19

リンク

加齢した父親の精子が子どもの神経発達障害に影響する、東北大が確認

東北大学は1月4日、父親の加齢が子どもの神経発達障害様行動異常の原因となりうること、またその原因となる分子病態基盤として、神経分化を制御するタンパク質「REST/NRSF」が関与し、加齢した父親の精子の非遺伝的要因が子どもに影響することを発見したと発表した。同成果は、同大学大学院医学系研究科・発生発達神経科学分野の大隅典子教授、東北大加齢医学研究所医用細胞資源センターの松居靖久教授、東京農業大学応用生物科学部バイオサイエンス学科動物発生工学研究室の河野友宏教授、愛知県医療療育総合センター発達障害研究所障害モデル研究部の吉崎嘉一研究員らの共同研究チームによるもの。詳細は、「EMBO Reports」にオンライン掲載された。将来の健康や特定の疾患へのかかりやすさなどは、胎児期や生後早期の環境に強く影響を受けると考えられている。これまでは、主に母体の栄養状態や薬物摂取など、母

higed 2021/01/08

リンク

「困った人」との付き合い方　自己愛・サイコパス・アスペルガーはどんな人か｜トイアンナ

周りにこういう人は、いないだろうか？〇　職場で常に誰かを「敵」にして悪口を言っている。相手をあまりに完全悪のようにののしるので「それはちょっと言いすぎじゃ……」と口を挟もうものなら、自分も標的にされる。〇　普段はめちゃくちゃ話が面白くて、気のいいやつ。だけれども、仕事や勉強ができない人間にやたら冷たい。思いついたように、人をいじめることもある。理由を聞くと「え、しょうがないじゃん」と事も無げに言うのでびっくりする。〇　そういうのって、常識じゃん……と思うようなルールを破ってくる。職場で旅行先のお土産を置いたら、自分の分だけごそっと持って行ってしまったり、飲み会でお子さんがいる社員に気を遣わず2次会へ誘ったり。悪い人じゃないんだろうけれど、空気が読めてなさ過ぎてびっくりする。この例は上から順に、自己愛、サイコパス、アスペルガーによくある例を書いたものだ。この三者は身近によくいる「困っ

higed 2019/09/20

リンク

システムの障害対応時に心がけること - orangeitems’s diary

はじめに世の中のシステムの数は間違いなく増え続けるばかりですので、障害対応の絶対数も増え続けることが宿命です。経験したたくさんの障害対応の中で、いくつか心がけることをおすすめしたいことがありますのでまとめます。心がけるべきことまず、復旧することを優先することシステム障害が発生したときに、迷うのは情報を採取するべきか。関係者に連絡を行うべきか。もしくは事前に決められた復旧手順を行うか。この3点です。間違いなく、事前に決められた復旧手順を実施するべきでしょう。例えばミドルウェアの再起動、OSの再起動、ハードウェアの再起動などです。できれば一次障害対応手順書としてまとめられていた方がよいでしょう。ただし、この手順が複雑ではいけません。コマンドにして数行であるべきです。もし、複雑な手順を行わなければいけないとしたら、即時の復旧は無理ということです。システムは利用者がいるため、連絡や情報

higed 2019/05/27

リンク

システム障害との向き合い方 @sinamon129 #tokyogirlsrb

これまで大小様々なシステム障害に遭遇してきましたが、障害対応から学ぶことは沢山あります。いろんな習熟度のフェーズで障害発生を学びに変えるための行動事例や、webアプリケーション開発において障害対応を減らすためにできることなどをお話しできればと思います。 TokyoGirls.rb Meetup vol.1 https://techplay.jp/event/716251

higed 2019/03/03

リンク

東証がシステム障害の原因公表、メリルリンチがIPアドレスを重複使用 | 日経 xTECH（クロステック）

日本取引所グループ傘下の東京証券取引所は2018年10月23日、9日に株式売買システム「arrowhead」で起こったシステム障害のより詳しい原因や再発防止策などを公表した。合わせて東証の宮原幸一郎社長に月額報酬の10%を1カ月間減額するなどの経営幹部の処分も発表した。

higed 2018/10/24

リンク

システム運用の現場でしか学べないことは他メンバーに積極的に経験してもらうべきだった - seri::diary

基本的に自分はタスクを拾いすぎてしまう傾向にある。それに加えて比較的朝型なこともあり、前職ではエンジニアの中で一番朝早く出社していることも多かった。*1 その結果どうなるかというと、朝出社して見つけた運用上のトラブルは大体自分がとりあえず手を付ける状態になっていた。前日の夜間バッチやその日の早朝に動くバッチがコケて問い合わせが来ているのでそのリカバリをする、前日にデプロイした後レスポンスが高くなってアラートが出ているのでその調査をする、web appがやたらと500系エラーを吐いているのでBugsnagを見る、等々。出社している以上無視するわけにもいかないというのもあるが、見つけてしまうと放っておけない性格ということもあり最優先でこれらの対応をしてしまっていた。お陰で前職で触っていたproductについてはかなり広範囲の知見があり、その行動がそれなりに社内での評価につながっていたのではな

higed 2018/09/22

リンク

ファーストサーバのレンタルサーバ「Zenlogic」、金曜夜からの全面サービス停止が解けず、いまだ停止中。ストレージ障害のためのメンテナンスで（追記あり）

ファーストサーバのレンタルサーバ「Zenlogic」、金曜夜からの全面サービス停止が解けず、いまだ停止中。ストレージ障害のためのメンテナンスで（追記あり）ファーストサーバが提供しているホスティングサービス「Zenlogic」で、本日午前8時に終了予定だったメンテナンスが終わらず、月曜日の午前9時を過ぎた記事執筆時点でサービスが停止したまま、終了時間が未定になっています。（2018/7/9 15:47追記）同社は障害の調査と平行して、基盤提供元のヤフー株式会社とともに別基盤の構築準備作業を実施していると報告しています。ただし「本日中に目途をお伝えするのは厳しい状況でございます。」とのことで、明日10日火曜日までサービス停止が継続する可能性を示唆しています。（2018/7/9 22:50追記）同社は一時的にサービスの再開を発表、下記の記事を公開しました。ファーストサーバの「Zenlo

higed 2018/07/09

“次のように解説しています”

リンク

Slack、11月1日に発生した大規模障害の原因は、定期デプロイによるソフトウェア障害が原因

Slackが11月1日に起こした大規模障害は、同社内でデプロイしたソフトウェアが原因だと報告された。全ユーザーがSlackに接続できなくなる障害は2時間以上続き、その後復旧された。その概要と時系列を公開された報告書から追う。オンラインチャットサービスを提供するSlackは、日本時間で11月1日の朝から数時間、全ユーザーが接続できなくなるという大規模な障害を起こしています。 11月4日には、同社のStatusページに障害発生に関するまとめが掲載されました。それによると、障害の原因は同社内で行われていた定期デプロイによってサーバにデプロイされたソフトウェアの障害とのことです。ただしそれがどのような障害であったのか、詳細については現時点では紹介されていません。全ユーザーがSlackに接続できなくなり、復旧に向けサーバ増強障害報告の前半は、概要がまとめられています。後述の詳細によると、同社

higed 2017/11/06

障害
Slack

リンク

メンテナンス・障害情報・機能追加｜さくらインターネット公式サポートサイト

2017年09月09日障害発生のお知らせさくらインターネット株式会社平素よりさくらインターネットをご利用いただき、誠にありがとうございます。 9月9日より、ご提供サービスにおきまして、以下の通り障害が発生いたしましたが、収束いたしました。ご利用中のお客様には大変ご迷惑をおかけいたしましたことを深くお詫び申し上げます。障害が収束いたしましたので、本障害について報告書として下記にご説明いたします。＜記＞発生日時 : 2017年9月9日10時27分影響範囲 : さくらのクラウド（オブジェクトストレージ）障害内容 : バケットに接続しにくくなる障害が発生いたしました --------------------------------------------------------------------- 2017年10月11日さくらのクラウドサービスに

higed 2017/09/21

リンク

障害の概況

© 2012-2024 Ookla, LLC., a Ziff Davis company. All Rights Reserved. Downdetector® is among the federally registered trademarks of Ookla® and may not be used by third parties without express written permission.

higed 2017/08/25

障害

リンク

» アダルトサイトをAWSで運用する時に信頼性と料金節約を両立する為のノウハウ | アダルトサイト制作会社

弊社で大規模なアダルトサイトの運用を行う上でのAWS利用構成を紹介させて頂きます。利用料金を抑えたいというビジネス的な観点と、サービスを止めない為の障害回避を念頭に構成を紹介します。関連：AWSのt2.microで月間100万PVに耐えるアダルトサイトを制作した話この記事は技術者向けの内容になっています。システム開発の発注をお考えの方は、こちらアダルトホームページ制作のご案内をご覧下さい。サービスを止めない為のAWS利用構成サービスを止めない事は弊社では2つの思想によって設計をしております。障害を防ぐ為の堅牢な設計とする障害が起きた時に瞬時に復旧、あるいは回避する前者はイメージしやすいと思いますが、弊社では後者のフェイルオーバーも非常に大事であると考えています。システム障害が起きない様にスペックを十分に確保する等は当然の事ですが、万が一障害が発生した場合に即座に代替機

higed 2017/08/19

リンク

システム移行メンテナンスにおける一部時間帯に更新されたデータが消失した原因のご報告 - Mackerel お知らせ #mackerelio

Webオペレーションエンジニアの id:y_uuki です。 2017年8月7日に、メンテナンスの完了報告及びデータ消失とカスタムダッシュボード、式監視の不具合に関するお詫びにてお知らせしたメンテナンス作業時間中のデータ消失について、本エントリにて技術的な観点から原因の詳細をお伝えいたします。概要 2017年8月7日(日本時間)に、オンプレミスデータセンターからAWSへ、Mackerelをシステム移行するためのメンテナンスを実施しました。メンテナンス開始時間である14:30以降のデータ同期に失敗していたPostgreSQLデータベースサーバへの意図しないフェイルオーバーが、メンテナンス作業途中の15:30に発生した結果、14:30から15:30の間に更新されたデータを消失しました。移行作業後のアプリケーションの動作確認中に、特定時間帯のデータを消失していることを発見し、データの復旧を

higed 2017/08/15

リンク

はてなブックマーク

タグ

関連タグで絞り込む (21)

障害に関するhigedのブックマーク (14)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス