.NETエンジニア・プログラマ向けの技術情報・業界ニュースをお届けします。

  1. FEnet.NETナビ
  2. .NETコラム
  3. クラウド
  4. Azureの障害対策。障害に強いシステムにする取り組み

Azureの障害対策。障害に強いシステムにする取り組み

  • クラウド
公開日時:   更新日時:
Azureの障害対策。障害に強いシステムにする取り組み
この記事でわかること
    基本情報技術者試験の試験対策はこちら>>
    最新情報や関心のある情報を毎日お届け。 FEnetメールマガジン メルマガ登録はこちらから>>

    Azureでシステム障害が発生し、自社もしくは顧客のシステムが稼働しなくなることは、システムエンジニアにとっては考えたくない事柄でしょう。
    しかし、過去に日本のリージョンでも障害が発生したことはあります。いつ障害が発生するか分からないので、発生した際でも慌てずに対処できるように、Azureの障害対策について簡単に解説していきます。

    プログラマー
    最近はクラウドサービスを導入している企業が増えています。私が担当している顧客も導入を検討しているようですが、障害発生時にどう対処するのかをすごく気にされています。
    プロジェクト
    マネージャー
    システムであるからには障害はつきものです。エンジニアとして、不具合に直面した時に慌てないためにも、Azureの障害確認方法や原因などをここで確認しておきましょう。

    Azure障害の確認方法

    Azure障害の確認を行うには、リアルタイムでお使いのリージョンの状態が確認できるこちらのリンクを参照しましょう。
    また、公式Twitterからも情報収集が可能です。

    障害に強いシステムにするためにすべきこと

    クラウドサービスを使う際には、障害が発生することを考慮して、システムの可用性を維持する対策が求められます。

    直近で発生したAzure障害で失われたのはサービスの可用性です。データが失われたわけではありません。データはマイクロソフトが複数のコピーを持って冗長化しているという信頼の上で、ユーザーにできることは、障害発生時に可能な限りシステムを停止させない(HA)設計にすることです。

    日本のリージョンにて1ヶ月に3回も障害が発生

    続いて、過去のAzure障害事例を紹介します。

    1. 2017年3月08日 東日本リージョンにて2時間、ストレージの障害が発生
    2. 2017年3月28日 西日本リージョンにて3時間、仮想マシンの障害が発生
    3. 2017年3月31日 東日本リージョンにて仮想マシンやストレージなど、Azureの殆どのサービスがダウンするという大規模な障害が発生

    上記3つのトラブルの原因は、すべて冷却装置のトラブルによるものだと考えられています。冷却装置が機能しなくなると、データの整合性を保つためにストレージなどはシャットダウンします。

    米国中南部リージョンにてデータセンターの冷却トラブルによる障害が発生

    日本時間2018年9月4日、米国中南部リージョンにて大規模障害が発生しました。その後24時間以上にわたって復旧できませんでした。
    この日のアメリカ南部では、天候が大荒れで、データセンターの電圧が大幅に低下してしまいました。加えてデータセンターの周辺に落雷が発生し、下がっていた電圧が急激に高電圧に切り替わり、電力システムに異常をきたしました。

    その結果、データの冷却システムにも影響を及ぼし、冷却システムが作動しなくなりました。オーバーヒートとなり、シャットダウンすることになったのです。
    南米リージョンだけに止まらず、広範囲にわたるクラウドインフラの障害にもつながりました。

    マイクロソフトのAzure障害対策

    マイクロソフトでは、クラウドユーザーに対して、公開されているAzure状態ページの代わりに、個別の「Azure Service Health」ページを利用するように推奨しています。Twitterの「Azure Support」アカウントでも障害に関する最新情報が必要な場合には、これらのページを閲覧することや、アカウントにダイレクトメッセージを送るようにと促しています。

    また、影響を受けた関連サービスを自動的に特定し、影響を緩和できる場合には迅速に解決策を送信できるように、AIベースの運用を拡大している段階でもあります。今後、障害対応スピードは向上するものと思われます。

    プログラマー
    Azureが障害を起こしたら、まずは情報収集ですね。今ではTwitterなどの情報収集手段も充実しているので、積極的に活用していきます。
    プロジェクト
    マネージャー
    リージョンで障害が発生しているのならば、他のシステムも同様に障害が発生している可能性があります。大事なシステムを守るためにも、情報収集は積極的に行っていきたいところです。

    Azure障害は忘れた頃にやってくる

    Azureのようなクラウドサービスはヒューマンエラーよりも、自然災害が原因で障害が発生しやすいするを持ち合わせています。このことから、障害発生の予測が非常に困難であるともいえます。日本は地震が多い国であるため、地震が原因でAzure障害が発生する可能性も十二分にあります。地震は忘れた頃にやってくるといわれますが、Azure障害も同じです。いつ発生しても慌てずに対処できるように対策を心がけておきましょう。

    >>>Azureの案件を探すならFEnet .NET Navi

    FEnet.NETナビ・.NETコラムは株式会社オープンアップシステムが運営しています。
    株式会社オープンアップシステムロゴ

    株式会社オープンアップシステムはこんな会社です

    秋葉原オフィスには株式会社オープンアップシステムをはじめグループのIT企業が集結!
    数多くのエンジニアが集まります。

    秋葉原オフィスイメージ
    • スマホアプリから業務系システムまで

      スマホアプリから業務系システムまで

      スマホアプリから業務系システムまで開発案件多数。システムエンジニア・プログラマーとしての多彩なキャリアパスがあります。

    • 充実した研修制度

      充実した研修制度

      毎年、IT技術のトレンドや社員の要望に合わせて、カリキュラムを刷新し展開しています。社内講師の丁寧なサポートを受けながら、自分のペースで学ぶことができます。

    • 資格取得を応援

      資格取得を応援

      スキルアップしたい社員を応援するために資格取得一時金制度を設けています。受験料(実費)と合わせて資格レベルに合わせた最大10万円の一時金も支給しています。

    • 東証プライム上場企業グループ

      東証プライム上場企業グループ

      オープンアップシステムは東証プライム上場「株式会社オープンアップグループ」のグループ企業です。

      安定した経営基盤とグループ間のスムーズな連携でコロナ禍でも安定した雇用を実現させています。

    株式会社オープンアップシステムに興味を持った方へ

    株式会社オープンアップシステムでは、開発系エンジニア・プログラマを募集しています。

    年収をアップしたい!スキルアップしたい!大手の上流案件にチャレンジしたい!
    まずは話だけでも聞いてみたい場合もOK。お気軽にご登録ください。

    株式会社オープンアップシステムへのご応募はこちら↓
    株式会社オープンアップシステムへのご応募はこちら↓

    新着案件New Job