タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。
AWS障害、“マルチAZ”なら大丈夫だったのか? インフラエンジニアたちはどう捉えたか、生の声で分かった「実情」(1/3 ページ) 8月23日に起きたクラウドサービス「AWS」(Amazon Web Services)の東京リージョンでの障害は、国内のさまざまなサービスに影響を及ぼした。 AWSが同日午後8時ごろに復旧するまで、モバイル決済サービス「PayPay」や、仮想通貨取引所「Zaif」、オンラインゲーム「アズールレーン」などで利用できない、もしくは利用しづらい状況が続いた。PCショップの「ドスパラ」はECサイトの不具合が長引き、翌日の24日には実店舗を臨時休業して対応に当たっていた。 AWSという1つのサービス障害が起きただけで、多くの企業やサービスに影響を及ぼしたため、「クラウドサービスはもろい」という論調も散見された。 しかし、インフラエンジニアたちからは違う意見が聞こえてくる
昨日の「AWSのAZの割り当ては、アカウントごとに違うという話」で宿題として残した、マルチAZ構成で単一AZの障害の影響を受けるのは何故かという問題について考えてみます。キーワードはELBです。 前提としてのELBの実装(の予想) マルチAZ構成での障害発生原因を検討する前に、まずELBの実装について考えてみましょう。5年ほど前に書いたELBの挙動からみる内部構造の推測です。 blog.takuros.net 旧ELB(CLB)をもとに書いていますが、ALBでも大きく変わらないと思います。要点としては、ELB自体は、AWSが管理するEC2インスタンス上で稼働し、バランシング先のAZにそれぞれ配置されているということです。図ではELBインスタンス(仮称)として表しています。そして、ELBインスタンスへの振り分けはDNSの名前解決で実現している点です。このアーキテクチャは私の個人的な予想ですが
前にも似たようなこと書いたなと思ったけどもう一年半も前のことになるのか t-cyrill.hatenablog.jp ご存知の通り昨日 2021/02/19 23:20頃 AWSにて東京リージョンの一つ apne-az1 にて大規模な障害が発生。多くのAWSを利用していたサービスで影響があった。 そんな私はいつものように アラストリリィ アサルトリリィ ラストバレット というゲームを呑気にプレイしていたのだけど、23:25 から緊急メンテに入ってしまった。 どうしたんだろうと思っていたら、社内SlackにてAWSを利用しているサービスがたまに応答しなくなる、Elasticacheが切り替わったなどなどの報告が入り、もしかすると面倒ごとかなと思いながら対応することになった。 起きていたこと 既にAWSからも公開されていることであるが、今回は2019年8月に起きた障害と類似するタイプの障害だっ
アドテク本部の黒崎( @kuro_m88 )です。 2019/08/23にAWSの東京リージョンで特定のAZ内で大きめの障害がありました。 私が開発しているプロダクトもAWSの東京リージョンを利用していて、常時数百インスタンスが稼働しているため、今回の障害の影響範囲に含まれていました。 何が起きたのか? AWSから公式発表が出ています。 東京リージョン (AP-NORTHEAST-1) で発生した Amazon EC2 と Amazon EBS の事象概要 データセンタ内の冷却の障害が原因で一部のハードウェアホストが過熱し電源が失われてしまったようです。これにより影響を受けたハードウェアホスト上で稼働していたEC2インスタンスやEBSボリュームは電源が失われているため、外部から見ると突然応答がなくなったように見えました。 担当サービスでも公式発表と同じくらいの時刻にELBやその配下のサーバ
みなさん、こんにちは。GS2 の丹羽です。 今日は大事件が起こりました。Twittetなどでも話題になったので皆さん知っているのではないかと思います。 japanese.engadget.com こんなブログを見に来てる人ならみんな知ってると思いますが、AWSの東京リージョンには3カ所のデータセンターがあります。 そのうち1カ所のデータセンターが完全に利用できない状態になりました。 その影響で様々なゲームも影響を受けたようです。 gamebiz.jp なぜAZ障害が様々なサービスの障害につながったのか さて、なぜ今回のようにAZがダウンするとこのような大規模な障害が発生するのでしょうか。 1. シングルAZ サーバはどこかのデータセンターで動いていてるわけです。EC2を使ってサーバを起動するときにもどのAZに配置するかを選びます。 この時に、一つのAZに固めてサーバを配置していた。あるいは
水平分散のアーキテクチャを考えるときに、「負荷分散装置の下に並べる分散先 (サーバ) は3台以上がよい」「AWS であれば3 AZ にまたがるとよい」とはよく聞かれます。それがどういう意味をもつのか、主に可用性の面から考えてみました。 みなさん、AWS使ってますか!(挨拶 AWSに限らず、ある程度の規模の何かしらの本番システムを組もうというときに、こういう言葉を聞いたことはないでしょうか。 「負荷分散装置の下に並べる分散先 (サーバ) は3台以上がよい」 「AWS であれば3アベイラビリティゾーン (AZ) にまたがるとよい」 負荷分散装置(ロードバランサー)は負荷を分散するのがお仕事です。分散するだけなら 2 台でもよさそうですよね? AWS の3 AZ に至っては、そもそも AZ 単位の障害なんてそうそうないし、あったとしてももう片方の AZ が生きていればなんとかなりそうに思えます。
Amazon RDS MySQL/PostgreSQLのトランザクション性能が2倍に、可用性とスケーラビリティも高める新「マルチAZ配置オプション」登場 Amazon Web Servicesは、Amazon RDSのトランザクションの処理速度を最大で2倍にし、3台のクラスタ構成で可用性を高め、リードのスケーラビリティも向上する、新たな「Multi-AZ Deployment Option」(マルチAZ配置オプション)を発表しました。 New AWS News post by @sebsto: New Amazon RDS for MySQL & PostgreSQL Multi-AZ Deployment Option: Improved Write Performance & Faster Failoverhttps://t.co/sffr5boYlU — AWS Blogs (@AW
こんにちは。ABEJAのインフラ管理してる村主 @rwle1221 です。 本ブログは ABEJA Advent Calendar 2019 の11日目です。 今日は、みなさん記憶に新しい2019年8月末に発生した AWS の東京リージョンの AZ 障害について、どのようにしていればサービス影響を与えずにシステムを稼働させられたのか。という話をしたいと思います。 振り返り 障害の詳細報告はこちら aws.amazon.com 有志によるまとめはこちらから piyolog.hatenadiary.jp 基本は「AZレベルで冗長化していれば問題ない」 中の人に聞くと「AZレベルで冗長化していれば問題ない」とのことでした。 しかし、2番目の方の記事を見ると有名どころのサービスが割と止まっていました。 じゃあ上で紹介されていたような会社がAZレベルの冗長化が出来ていなかったのか。 ※ ALB/WA
2025年2月28日に東京リージョンのアベイラビリティゾーン「apne1-az3」が廃止されます。本記事で紹介したメールがAWSサポートから届いていた方は、必ず環境を確認するようにしてください。 あしざわです。 本日、とあるAWSアカウント宛にAWSサポートより[要対応] アベイラビリティーゾーン 「apne1-az3」 の運用終了 - 2025 年 2 月 28 日までにリソースを移行してくださいというタイトルのメールが届いていました。 内容をざっくり表すと「2025年2月28日に東京リージョンのアベイラビリティゾーン「apne1-az3」が利用不可になってしまうため、それまでに他のアベイラビリティゾーンに移行を完了させ「apne1-az3」のリソースをすべて削除してください」といったものでした。 本ブログでは、内容を理解するためにアベイラビリティゾーン「apne1-az3」の説明から、
広告技術部のUT@mocyutoです。 大幅コスト削減シリーズ第二弾です。 前回はこちら tech.gunosy.io 今回はアベイラビリティゾーン(AZ)間通信のコストをIstioのlocality load balancingを使って削減した話になります。 概要 Istioとは どのようにコスト削減したか まとめ 概要 みなさんはマイクロサービスを導入しているでしょうか? 最近はモジュラモノリスが流行り始めている雰囲気を感じてきていますが、弊社の広告配信サーバは以下のようなマイクロサービス化された設計(と言っても2つのサービスしかないのですが)になっています。 構成図 一般的にクラウドプロバイダ上で構築している場合、耐障害性を高めるために複数AZ、複数リージョンに分散させることが基本になるかと思います。 弊社では、単一リージョン複数AZに分散させて稼働しています。 リージョン間の通信に
先週の金曜日(2019/8/23)に発生したAWSの東京リージョンで大規模な障害が発生しました。障害の内容は、一つのAZで空調設備の問題からEC2インスタンス並びにEBSに問題が発生したという事象です。詳細についてはAWSから発表があるので、そちらをご参照ください。 aws.amazon.com 障害の最中にTwitterのタイムラインを見ていると、単一AZ障害ではなく複数のAZで障害が発生しているのではないかという観測が多く見られました。障害としては、AWSの発表通り単一AZ障害です。では何故多くの人に勘違いされたのでしょうか?理由は2つあります。 AZの割り当ては、アカウントごとに違うという事が知られていない マルチAZ構成にしていても、単一AZの障害の影響を受ける ここでは前者のAWSアカウントの割り当ての話を説明します。 あなたが見ているap-northeast-1aは、私が見てい
AZ障害は受け入れるしかないクラウド時代のインフラ ただの日記。 今日の昼、AWSを利用している人たちは大変だったところもあると思う。 AZの一つが丸々機能しなくなる大きなAWSの障害があり、AWSを利用して運用されていたサービスは多かれ少なかれ影響を受けることになった。 完全に雰囲気で書いてしまうが、今回のAZ障害で影響を受けたサービスは思ったより多かったように感じる。 というのもAWSではアベイラビリティーゾーンの障害は発生するものと考え、本番運用するのであれば、マルチAZ構成を取るのがベストプラクティスとされているので、 マルチAZ構成を取っていれば影響なんてないんじゃないの普通、と思ってしまうと思う。 インフラ屋さんでもそう思ってしまうし、インフラ屋さん以外ならなおさらなんで重くなるのかわからないと思う。 幸い自分の運用しているサービスでは影響が軽微だったので、完全に想像にはなって
TL;DR 東京リージョンを利用する際に2AZの冗長化で良い場合のAZ選定 「apne1-AZ1, apne1-AZ2」の組み合わせで利用するのが、レイテンシ観点からは良い。 レイテンシ: 800μs程度 大阪リージョンを利用する際に2AZの冗長化で良い場合のAZ選定 「apne3-AZ1, apne3-AZ2」の組み合わせで利用するのが、レイテンシ観点からは良い。 レイテンシ: 200μs程度 東京リージョンの方がAZ間レイテンシが平均的に高い(大阪リージョンと比較して) 大阪リージョンの方がAZ間レイテンシが平均的に低い(東京リージョンと比較して) おことわり この記事は注意を払って記載しておりますが、測定結果を利用して生じた一切の責任は負いません。 実際に測定を行いたい方はGitHubに今回測定を行った環境を再現できるTerraform(IaC)がありますので、ご参考になれば幸いです
お断り: この記事の内容は私の実体験であり 日本の代理店が販売しているKingSpec SSDに問題があるとは限らない また、AliexpressのKingSpec SSD Storeは正規代理店と自称するが 私はこれを証明する手段もない オーディオ関連の話じゃないけど誰でも遭遇しそうな案件なので話させて頂く 箱にはMLC/TLCと書いてあった 新しく入手したASUS Zenbook UX303LAはハーフサイズのmSATA SSDをサポートしている 買おうとしてらAmazon.co.jpの方が容量が小さかったり値段もたかったので AliexpressからKingSpec half-size mSATA 256GB SSDを購入した 値段も256GBにしては普通の値段だし(日本の方が高いだけ) KingSpecの評判は普通だが悪さをする怪しいメーカーじゃないから買った 一応正規代理店を意識
AWSのフランクフルトAZ障害、消火システム誤作動により入室遮断、復旧対応が出来ず Data Center Cafe 2021.06.128,166 views 空気循環システムの故障により、AWSのフランクフルトのアベイラビリティゾーンが3時間にわたり停止しました。通常では日常的に行われている作業が、消火システムが作動したことで不可となり、状況が悪化したようです。 問題は消火システムが空気中の酸素を除去してしまったため、約1時間の間、スタッフは復旧作業でデータホールに立ち入ることができず、停止時間が長引いたことです。Amazon Web Servicesのステータスページによると、現在はすべてのシステムが正常に動作しているとしています。なお、今回は1つの アベイラビリティゾーン での障害であったため、お客様への影響は限定的であったとのことです。 入室抑制システム障害は13:18PDT(日
AWSチームのすずきです。 Amazon RDS でプレビューリリースされたマルチAZ DBクラスター (3−AZ DBクラスター)、 3つのアベイアビリティゾーン(AZ)に3つのインスタンスを配置、1台のライターと、2台のリーダーの構成を試す機会がありましたので、紹介させていただきます。 Readable standby instances in Amazon RDS Multi-AZ deployments: A new high availability option マルチAZ DBクラスターの作成 リージョン マルチAZ DBクラスターをサポートするオレゴン(us-west-2)を利用しました。 DBエンジン MySQL バージョン 8.0.26、PostgreSQL バージョン 13.4 が マルチ AZ DB クラスターをサポートします。 今回は MySQL 8.0.26 を
AWS障害、“マルチAZ”なら大丈夫だったのか? インフラエンジニアたちはどう捉えたか、生の声で分かった「実情」(3/3 ページ) 同社が障害明けの26日に行った、エンジニアチームによる障害の振り返り会議に記者も同席した。「障害発生当初、いろいろなジョブに影響が出たため何が起きているのか分からなかった」「各サービスを管理するAWSマネジメントコンソールの動きもおかしく、問題に対応しようとしても何度もリトライしないとインスタンスが立ち上がらなかった」「AWS CLI(コマンドによる管理ツール)は比較的調子が良かった」──など、現場の生々しい声が飛び交った。 一方、「『AWS Fargate』で運用しているサービスは自動復旧できた」という報告も上がった。Fargateはサーバなどの管理をAWS側に任せてコンテナを実行できる、いわゆる「サーバレス」のサービスだ。 会議では、「バッチ処理サーバをコ
こんにちは!SREグループ コンテナ化推進チームの楠本です。 EKSへのコンテナ移行では、これまで紹介した記事以外にも様々なトラブルがありました。 EKSコンテナ移行のトラブル事例:ALBの設定とPodのライフサイクル管理 - MonotaRO Tech Blog EKSコンテナ移行のトラブル事例:推測するな計測せよ -CoreDNS暴走編- - MonotaRO Tech Blog 今回のトラブルでは、コンテナ移行に伴ってSLOが未達状態になりエラーバジェットを急激に消費してしまいました。 その対策としてマルチAZ間の通信遅延の解消をEKS on Fargateで実施したお話をご紹介します。 先に断っておくと私自身がアプリケーション開発者だったため、 インフラの話は都度インフラの方からサポートを受けながら対応しました。そのためズレている点などあればご了承ください。 VMからEKS on
Amazon Web Services ブログ Amazon RDS Under the Hood: Multi-AZ Amazon Web Services (AWS)のお客様はデータストアと、そのデータストアの高可用性にお客様のビジネスを委ねています。そのようなお客様に向けて、Multi-AZ配置は高可用性を実現する方法を容易に提供します。 Amazon Relational Database Service (Amazon RDS)でMulti-AZを有効にすることで、データの冗長かつ一貫した状態を維持します。もし、primaryデータベースサーバに問題が発生した場合は、standbyデータベースサーバに自動的に変更しデータへアクセスし続けられるようにします。2つのデータのコピーはそれぞれ別のAvailability Zones (AZs)内で管理されています(そのため、Multi-
AWS News Blog New Amazon RDS for MySQL & PostgreSQL Multi-AZ Deployment Option: Improved Write Performance & Faster Failover Today, we are announcing a new Amazon Relational Database Service (RDS) Multi-AZ deployment option with up to 2x faster transaction commit latency, automated failovers typically under 35 seconds, and readable standby instances. Amazon RDS offers two replication options to en
AWSジャパンが2021年初頭に、大阪に通常のリージョンを開設する。3つのアベイラビリティゾーン(AZ)で構成し、他のAWSリージョンと同様、単体で利用できる。従来は、機能を制限した「大阪ローカルリージョン」を提供していたが、ユーザーからのニーズに応えたという。 アマゾン ウェブ サービス ジャパンは1月20日、2021年初頭に、大阪に通常のリージョンを開設すると発表した。3つのアベイラビリティゾーン(AZ)で構成し、他のAWSリージョンと同様、単体で利用できる。従来は機能を限定した「大阪ローカルリージョン」を提供していたが、ユーザーからのニーズに応えて開設を決めたという。 AWSジャパンが18年2月に開設した大阪ローカルリージョンは、1つのAZのみで構成される他、東京リージョンとの併用が前提となっており、単体での利用ができなかった。また、審査を通過したユーザーのみ利用を許可するなど、一定
こんにちは。サービスグループの武田です。 クラスメソッドはAWSのプレミアコンサルティングパートナーとしてお客様のAWS活用を支援していますが、昨今ではその他のクラウド知識も求められてきています。クラウドと言ってもさまざまですが、主にGCPとAzureです。GCPの基本は次のエントリなどが参考になります。 このエントリではAzureの勉強を始めるにあたって利用した教材を紹介します。 AZ-900 Microsoft Azure Fundamentalsとは 何かを始めるにあたって目標を立てることは大事ですよね。Azureと一口に言っても勉強するべきことは多岐に渡るはずです。そこで今回はエントリレベルのMicrosoft Azure Fundamentals取得を目指すことにしました。Azure関連の資格はたくさんありますが、ソリューションアーキテクト関連(Apps and Infrastr
レプリケーショングループに対して、MultiAZEnabledという属性を付与できるようになりました。 この属性の意味を解説します。 中山です。 今日は、Elasticacheのレプリケーショングループ(Redis)で複数AZへの分散配置を「維持」できるようになった件をまとめてみました。 これまでの課題 これまでもElasticache(Redis)ではノードを複数のAZに分散して配置することはできました。 具体的には、SubnetGroupに異なるAZのSubnetを設定した上でReplicasPerNodeGroupに1以上を設定したり、手動でノードを追加する際にPrimaryのAZと異なるAZを指定することで分散配置することができました。 しかし、手動でノードを削除するなどして単一のAZにノードが偏る可能性を排除できていませんでした。 ただし、パフォーマンス要件を考慮して意図的に寄せ
ウィスキー、シガー、パイプをこよなく愛する大栗です。 先程 RDS の新しい高可用性オプションである Multi-AZ DB Cluster が一般提供となったためレポートします。Multi-AZ DB Cluster は従来の高可用性オプションの Multi-AZ DB Instance と比較して書き込み性能の向上とフェイルオーバーの高速化が期待できるオプションです。 New Amazon RDS for MySQL & PostgreSQL Multi-AZ Deployment Option: Improved Write Performance & Faster Failover なおプレビュー時の紹介はこちらのエントリーです。 Multi-AZ DB Cluster RDS には従来高可用性のためのオプションとして Multi-AZ Instance がありました。従来の Mu
おそらく総合力という面では最高峰に位置すると思われるSONY WF-1000XM4とTechnics AH-AZ60という2機種。どちらも近い価格帯なので、どちらがいいか迷っている人も多いでしょう。 今回はこの2機種を比較して、どちらがよりおすすめできるか解説していきます。 SONY WF-1000XM4 VS Technics AH-AZ60 音質面はTechnics AH-AZ60が上 ANCは僅差だがSONY WF-1000XM4が上 外音取り込み機能はSONY WF-1000XM4が圧勝 イヤーピース周りはTechnics AH-AZ60に若干の軍配が上がるか ケースに関してはTechnics AH-AZ60が強い アプリ周りに関しては互角 まとめ SONY WF-1000XM4 VS Technics AH-AZ60 音質面はTechnics AH-AZ60が上 音質に関してはT
このブログ始めた頃(4~5年前)は、主に仕事ではAzureを使っていたのですが、暫くご無沙汰でした。 最近だと去年ChatBot作るため、Azure Bot Serviceを使いたくてAzure使っていたくらい。 最近マルチクラウドの案件が増えてきたため、AWSとGCPに合わせてAzureもリハビリ始めているところです。 私は勉強する時に認定試験のようなものがあれば、それを使って基礎的なことは勉強することにしています。今回もリハビリとしてAzureの認定を受けて来ました。 AZ-300 Azureアーキテクトテクノロジーとは 勉強方法 AWSとの比較 HandsOn Lab WEB上のわかりやすい資料 模擬試験 試験 最後に その後 AZ-300 Azureアーキテクトテクノロジーとは Azure Architect Expert が AWS Solution Architect Prof
こんにちは。あやみんです☆ 今朝、母から連絡があり、台湾ではAZワクチン接種後に沢山の方が死亡し、反日感情が高まっているらしいけど大丈夫?と心配されました。 え? そうなの? 結論から言います。 反日感情は高まっておりません! 今現在、台湾でAZワクチン接種後に亡くなっている方は、148万人中84人。これからも増える可能性は十分ありますが、高齢者の死亡リスクが高いのも確か。 なぜ、「台湾で反日感情が高まっている」などというニュースが日本で報道されているのでしょうか? まず、台湾の政治についてお伝えします。 台湾には、国民党(中国寄り)と民進党(中国に反発)という2つの党がありまして、常に対立しております。それは、新聞、ニュース番組に関しても同じで、党のカラーがハッキリしています。 それゆえ、同じニュースでも伝え方が全く違うわけです。面白いですね。 要は、自分はどこの党を支持しているかという
TL;DR 東京リージョンを利用する際に2AZの冗長化で良い場合のAZ選定 「apne1-AZ1, apne1-AZ2」の組み合わせで利用するのが、レイテンシ観点からは良い。 レイテンシ: 900μs程度 大阪リージョンを利用する際に2AZの冗長化で良い場合のAZ選定 「apne3-AZ1, apne3-AZ2」の組み合わせで利用するのが、レイテンシ観点からは良い。 レイテンシ: 200μs程度 東京リージョンの方がAZ間レイテンシが平均的に高い(大阪リージョンと比較して) 大阪リージョンの方がAZ間レイテンシが平均的に低い(東京リージョンと比較して) 昨年2023年測定時との差異 2023年に測定した際の記事リンク(Zenn) 環境 インスタンスタイプ変更m5.large --> m6i.large 測定結果 東京リージョンにおける同一リージョン内のレイテンシが1/5~1/2程度になった
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く