タグ

awsと障害に関するharumaki_netのブックマーク (5)

  • AWSでAZ障害が起きたので困ったことを書いておく - なんかかきたい

    前にも似たようなこと書いたなと思ったけどもう一年半も前のことになるのか t-cyrill.hatenablog.jp ご存知の通り昨日 2021/02/19 23:20頃 AWSにて東京リージョンの一つ apne-az1 にて大規模な障害が発生。多くのAWSを利用していたサービスで影響があった。 そんな私はいつものように アラストリリィ アサルトリリィ ラストバレット というゲームを呑気にプレイしていたのだけど、23:25 から緊急メンテに入ってしまった。 どうしたんだろうと思っていたら、社内SlackにてAWSを利用しているサービスがたまに応答しなくなる、Elasticacheが切り替わったなどなどの報告が入り、もしかすると面倒ごとかなと思いながら対応することになった。 起きていたこと 既にAWSからも公開されていることであるが、今回は2019年8月に起きた障害と類似するタイプの障害だっ

    AWSでAZ障害が起きたので困ったことを書いておく - なんかかきたい
  • TechCrunch

    Apple seems to be finally getting serious about infusing generative AI into its products — both internal and external — after announcing a solitary “Transformer” model-based autocorrec

    TechCrunch
  • Amazon S3の大規模障害は人為的ミスが原因

    Amazon.comのクラウド事業Amazon Web Services(AWS)は「Amazon Simple Storage Service (S3)」サービスで発生した大規模障害に関する調査報告を現地時間2017年3月2日までに公表し、人為的ミスが原因だったことを明らかにした。 S3の障害は、米バージニア州北部の「US-EAST-1」リージョンで太平洋標準時間2月28日午前9時37分に発生した。 AWSの報告によれば、当時、S3の決済システムの問題を修正するために、S3チームが作業にあたっていた。決済システムのサブシステムを構成する数台のサーバーを停止する目的で、特権を認められたチームメンバーが手順書に従ってコマンドを入力したが、コマンド入力にミスがあり、意図したより多くのサーバーを停止させてしまった。他の重要なサブシステムにも影響が広がり、システム全体を再起動しなければならなくな

    Amazon S3の大規模障害は人為的ミスが原因
  • Amazonクラウドが「Amazon EC2 Auto Recovery」開始。システム障害を検知するとインスタンスを自動的に別システムへ移動、復旧

    Amazon EC2 Auto Recoveryは、インスタンスが稼働しているサーバのシステム障害が検知されると、そのインスタンスを自動的に別のサーバへ移動、再起動し、システム障害から復旧させる機能。 移動したインスタンスは、IDやIPアドレス、コンフィグレーションなども含めて移動前のインスタンスと同じものになります。 これにより利用者は、クラウド上でいままで以上に可用性を高めることが容易になります。 AWS Cloud Watchで検知し、自動復旧 Auto Recoveryを機能させるには、AWS CloudWatchのアラームを作成し、メトリクスの「EC2 Status Check Failed (System)」のアクション「Recover this instance」を選択します。検知されるシステム障害の例は、ネットワークの切断、システム電源断、物理ホストのソフトウェア障害あるい

    Amazonクラウドが「Amazon EC2 Auto Recovery」開始。システム障害を検知するとインスタンスを自動的に別システムへ移動、復旧
    harumaki_net
    harumaki_net 2015/01/14
    おまAWSでインフラリプレイス中なんで取り入れたい。ステキ!
  • 1