昨日、2020年10月1日に発生した東証のシステム障害について、いろいろな情報に目を通しているが、おそらく数年は語られるであろうこの件についていろいろ考えていた。影響が大きすぎるので軽はずみなことも書けず、まとまらなかったので昨日時点での記事の作成は避けたが、そろそろ落ち着いてきたので書きたい。 はじめに入ってきた情報は「機器障害」「ハードウェア障害」という文言だった。しかし、ハードウェアの問題であったら冗長化構成にて待機系に切り替わるのが本筋であると思う。それでも機器障害が理由として通る場合は、多重障害である。待機系も同時に壊れた。これならば理屈は通るし、一般的には過去はそういった事例も存在した。 しかし、実際はそうではなかった。運用系システムの中にストレージサーバーがいて、もちろん冗長化していたけれども、うまく待機系に切り替わらなかったとのこと。ストレージサーバーの冗長化の仕組みと、メ