4系統のサーバーが一度に止まったと言うが、冗長化されたシステムはハードウエアの障害に対しては有効だが、ソフトの不具合などは、同じ問題が全てのサーバーで起きてしまうので冗長化されていても全てダメになることも当然あるだろう
こういった障害は、人的ミスに起因することが多い。
間違ったコマンド、間違ったパラメータなどによることが多いのだろうが、止まっては困るシステムの場合は、そういった不具合の原因となる動作をしようとしたときに、その原因となる動作を妨げる仕組みが入っているべきだろう。
開発のコストを削減するために、そういった機能を入れないなどと言うことがあってはいけない。
何が起きても止まらないという設計をしなければならないと思うが、それが出来ていないんだろう。
そして、冗長化されたシステムに対する過信は最も怖い。
動作中のソフトだけで無く、OSの不具合で全てが止まることだって考えられるのだ。
そこで必要なのは、オフラインのバックアップ機器だ、最新のデータにだけアクセス出来ればオンライン中の機器が止まったときには、すぐに対応可能なはずだ。
止まってはいけないシステムはちゃんと止まらないように設計しようよ!