.NET開発者のためのブログメディア
Azureの障害対策。障害に強いシステムにする取り組み
Azureでシステム障害が発生し、自社もしくは顧客のシステムが稼働しなくなることは、システムエンジニアにとっては考えたくない事柄でしょう。
しかし、過去に日本のリージョンでも障害が発生したことはあります。いつ障害が発生するか分からないので、発生した際でも慌てずに対処できるように、Azureの障害対策について簡単に解説していきます。
- PG
- 最近はクラウドサービスを導入している企業が増えています。私が担当している顧客も導入を検討しているようですが、障害発生時にどう対処するのかをすごく気にされています。
- PM
- システムであるからには障害はつきものです。エンジニアとして、不具合に直面した時に慌てないためにも、Azureの障害確認方法や原因などをここで確認しておきましょう。
目次
Azure障害の確認方法
Azure障害の確認を行うには、リアルタイムでお使いのリージョンの状態が確認できるこちらのリンクを参照しましょう。
また、公式Twitterからも情報収集が可能です。
障害に強いシステムにするためにすべきこと
クラウドサービスを使う際には、障害が発生することを考慮して、システムの可用性を維持する対策が求められます。
直近で発生したAzure障害で失われたのはサービスの可用性です。データが失われたわけではありません。データはマイクロソフトが複数のコピーを持って冗長化しているという信頼の上で、ユーザーにできることは、障害発生時に可能な限りシステムを停止させない(HA)設計にすることです。
日本のリージョンにて1ヶ月に3回も障害が発生
続いて、過去のAzure障害事例を紹介します。
- 2017年3月08日 東日本リージョンにて2時間、ストレージの障害が発生
- 2017年3月28日 西日本リージョンにて3時間、仮想マシンの障害が発生
- 2017年3月31日 東日本リージョンにて仮想マシンやストレージなど、Azureの殆どのサービスがダウンするという大規模な障害が発生
上記3つのトラブルの原因は、すべて冷却装置のトラブルによるものだと考えられています。冷却装置が機能しなくなると、データの整合性を保つためにストレージなどはシャットダウンします。
米国中南部リージョンにてデータセンターの冷却トラブルによる障害が発生
日本時間2018年9月4日、米国中南部リージョンにて大規模障害が発生しました。その後24時間以上にわたって復旧できませんでした。
この日のアメリカ南部では、天候が大荒れで、データセンターの電圧が大幅に低下してしまいました。加えてデータセンターの周辺に落雷が発生し、下がっていた電圧が急激に高電圧に切り替わり、電力システムに異常をきたしました。
その結果、データの冷却システムにも影響を及ぼし、冷却システムが作動しなくなりました。オーバーヒートとなり、シャットダウンすることになったのです。
南米リージョンだけに止まらず、広範囲にわたるクラウドインフラの障害にもつながりました。
マイクロソフトのAzure障害対策
マイクロソフトでは、クラウドユーザーに対して、公開されているAzure状態ページの代わりに、個別の「Azure Service Health」ページを利用するように推奨しています。Twitterの「Azure Support」アカウントでも障害に関する最新情報が必要な場合には、これらのページを閲覧することや、アカウントにダイレクトメッセージを送るようにと促しています。
また、影響を受けた関連サービスを自動的に特定し、影響を緩和できる場合には迅速に解決策を送信できるように、AIベースの運用を拡大している段階でもあります。今後、障害対応スピードは向上するものと思われます。
- PG
- Azureが障害を起こしたら、まずは情報収集ですね。今ではTwitterなどの情報収集手段も充実しているので、積極的に活用していきます。
- PM
- リージョンで障害が発生しているのならば、他のシステムも同様に障害が発生している可能性があります。大事なシステムを守るためにも、情報収集は積極的に行っていきたいところです。
Azure障害は忘れた頃にやってくる
Azureのようなクラウドサービスはヒューマンエラーよりも、自然災害が原因で障害が発生しやすいするを持ち合わせています。このことから、障害発生の予測が非常に困難であるともいえます。日本は地震が多い国であるため、地震が原因でAzure障害が発生する可能性も十二分にあります。地震は忘れた頃にやってくるといわれますが、Azure障害も同じです。いつ発生しても慌てずに対処できるように対策を心がけておきましょう。
Search キーワード検索
Popular 人気の記事
reccomended おすすめ記事
Categories 連載一覧
Tags タグ一覧
Jobs 新着案件
-
開発エンジニア/東京都品川区/【WEB面談可】/在宅ワーク
月給29万~30万円東京都品川区(大崎駅) -
遠隔テストサービス機能改修/JavaScript/東京都港区/【WEB面談可】/テレワーク
月給45万~60万円東京都港区(六本木駅) -
病院内システムの不具合対応、保守/東京都豊島区/【WEB面談可】/テレワーク
月給30万~30万円東京都豊島区(池袋駅) -
開発/JavaScript/東京都豊島区/【WEB面談可】/テレワーク
月給50万~50万円東京都豊島区(大塚駅) -
債権債務システム追加開発/東京都文京区/【WEB面談可】/在宅勤務
月給62万~67万円東京都文京区(後楽園駅)