タグ

運用とawsに関するstealthinuのブックマーク (5)

  • クラスタのノード欠損を復旧しようとしてクラスタを丸ごと落とした話 - Qiita

    これは、私が若…くはないけどピカピカのAWS1年生だった、数年前のお話です。 何をやらかしたのか やらかし前の状態 番運用しているWebアプリケーションの裏側に、EC2インスタンス3台でクラスタを組んだ某データストア製品を使用していました。データはクラスタ内でレプリケーションされており、1台がダウンしただけならクラスタは稼働を継続できます。2台がダウンするとクラスタ全体が機能しなくなります。 ある日、3台のうち1台で障害が発生してインスタンスへ疎通できない状態になりました。この時点ではクラスタは正常に応答しており、あと1台ダウンしない限りはサービスに影響が出ない状態でした。 まず、ダウンしてしまったインスタンスを再起動して復旧させようとしました。ところがEC2マネジメントコンソールから再起動、停止を選択しても障害中のインスタンスは反応しません。そして私は間違いを犯します。 やらかしたこと

    クラスタのノード欠損を復旧しようとしてクラスタを丸ごと落とした話 - Qiita
    stealthinu
    stealthinu 2020/12/11
    あー、でもこれはわかるな… あと障害出たときに急いで対処しようとして傷口広げるのもあるあるだよね…
  • AWSのWEBコンソールでミスって本番を消した話と戻すまでの15分間の話 - まぁ、つまらないものですが

    この記事は「番環境でやらかしちゃった人 Advent Calendar 2019 - Qiita」の13日の記事です。 気軽な気持で登録したらカレンダーTwitterでバズリ、出てくる記事もみんな面白いので、「おいおいおいおい、俺はなんてものに登録してしまったんだ」と反省している深夜21時です。みんな文豪か? というわけで、こんにちは。godanです。 これは当にくだらないミスで番を消した人間の悲しい15分を思い出しながら書いた記事です。皆様にあたっては穏便に他山の石にしていただけると幸いです。叩かれたり炎上したりしないよう気をつけていますが、なにかあれば教えていただけると幸いです。 結論。 番には削除保護フラグを立てておこう Webコンソールで横着して複数作業するのはやめておこう サーバー名は誤解しないようにしておこう ここから以下ポエムです。 背景。 某月某日 普段リモートワー

    AWSのWEBコンソールでミスって本番を消した話と戻すまでの15分間の話 - まぁ、つまらないものですが
    stealthinu
    stealthinu 2019/12/13
    最悪の事態はまぬがれたといえそりゃ待ってる間は死ぬ思いだわな。
  • 実際に運用してみてわかった、大規模Mastodonインスタンスを運用するコツ - pixiv inside

    おはようございます、ImageFlux開発責任者のharukasanです。3日前の4月14日、ピクシブではPawooが急にリリースされることになりまして、ここ数日はずっとPawooサーバにログインしていました。このPawooサーバ、既にピクシブの監視体制に入っており、アラート受信後インフラエンジニアが障害対応できる仕組みを整えています。案の定、リリース直後の15、16日は週末にもかかわらずアラートを受け取ることになり、サーバにはりつくことになったわけです。どんなシステムであろうとアラートを受け取ったら対応する、それが我らインフラエンジニアです。 pawoo.netの構成 さて、それではまずPawooの構成を見ていきましょう。digすればわかりますがpawoo.netAWS上に構成されています。数百台以上の物理サーバを常時運用しているピクシブであっても、さすがにこんなにはやく物理サーバは用

    実際に運用してみてわかった、大規模Mastodonインスタンスを運用するコツ - pixiv inside
    stealthinu
    stealthinu 2017/04/18
    すごいスピード感ある。あと大規模サービス運用の知見があって参考になる。『どんなシステムであろうとアラートを受け取ったら対応する、それが我らインフラエンジニアです』いいね!
  • 米国東部(バージニア北部、US-EAST-1)リージョンで発生した Amazon S3 サービス障害について

    時間3月1日未明に米国東部(バージニア北部、US-EAST-1)リージョンにおいて発生いたしましたサービス障害に関する追加情報についてお伝えいたします。 この度、Amazon Simple Storage Service (S3) チームが S3 の請求システムの処理に通常よりも時間がかかるという問題のデバッグを進めておりました。 その過程におきまして、9:37AM PST(日時間 2:37AM)に、適切に権限を与えられたS3チームメンバーが確立された手順に従い、S3 の請求システムが利用するS3サブシステムを構成する少数のサーバを削除するコマンドを実行いたしましたが、その際、コマンドへの入力が不適切であったため、想定よりも多くのサーバが削除される結果となりました。 今回誤って削除されたサーバは2つのS3サブシステムに関わるもので、1つは、Index(インデックス) サブシステムであ

    米国東部(バージニア北部、US-EAST-1)リージョンで発生した Amazon S3 サービス障害について
    stealthinu
    stealthinu 2017/03/03
    なんと… S3の障害はオペミスが原因だったらしい。amazonですらこんなことが起きるのか。
  • サーバーレス・アーキテクチャで構築したシステムの運用はどうやるのか? | iret.media

    2016年12月20日からスタートしたMBS(毎日放送)の有料動画配信サービス『MBS動画イズム444』にて、サーバーレス・アーキテクチャ(AWS Lambda)が全面採用されたという事例は、世界を見渡しても類をみない、大変優れた設計であると話題になりました。 でもね、重要なことは「AWS Lambdaを使って構築した」ことではないんです! 『MBS動画イズム444』は、次々と新しい動画コンテンツが増えていますし、有料会員も猛スピードで増えていると伺っています。そうなると、このサービスの安定運用こそが、もっとも重要なことなのです。 そこで、この記事では「AWS Lambda」で構成されるシステムの運用をcloudpackならこうやります!というのをご紹介いたします。 サーバーレス・アーキテクチャのシステム運用はどう考えるべきか? 『MBS動画イズム444』のシステム構成は、実に複雑です。

    サーバーレス・アーキテクチャで構築したシステムの運用はどうやるのか? | iret.media
    stealthinu
    stealthinu 2017/02/15
    lambda使ってるシステムでの運用方法について。ログをS3に吐くようにして監視もlambdaで。複数リージョンでの監視を行なうことで多重化。
  • 1