先週金曜日の午後、AWS(Amazon Web Service)の東京リージョンで大規模障害が発生しました。
報じられているところでは、データセンターの冷却制御システムに不具合があり、サーバーが熱でダウンしたのが原因だそうです。
たまたま茨木広告宣伝舎が運用している通販サイトも巻き添えを食らいました。
多くのオンラインゲームやフリーマーケットアプリの「ラクマ」や、大手の通販もいくつか巻き込まれたようです。
サーバーの障害というのは、実はさほど珍しいことではありません。数年前にヤフー系の「ファーストサーバ」が大規模な障害を起こして、データまでロストしてしまったことがありました。
Amazonはお金さえ積めば、こうした障害でも影響を最小化できます。障害の発生した部分(アベイラビリティーゾーン)以外の部分にも冗長化しておけば、いざというときに切り替えることができます。
ところが、従量課金であるAWSで冗長化することは、そのまま運用費用の増加につながります。
極めて発生確率の低い事故に備えるために費用を確保するべきなのか、判断が難しいところです。
クリティカルなシステムであれば必要なことでしょうが、通販サイトやオンラインゲームのダウンは、ユーザーの生命や財産に影響するものではありません。
通販サイトがダウンすれば売上機会の損失ですし、オンラインゲームがダウンすれば課金ユーザーからのクレームが殺到するでしょう。
運用費用を抑えるためには、それもやむを得ないと思うのです。無駄に冗長化することで、商品代金やサービス利用料が上がることは顧客のためになりません。
極まれな障害のリスクを、顧客と共有する代わりに、少しでも低価格で商品やサービスを提供するということを説明するしかないと思います。