AWS EC2物理ホストの障害を自動復旧するためのAuto Recovery

公開日：2021年5月11日最終更新日: 2023年2月9日

AWSでシステムを運用するにあたり、システムの可用性は重要視すべき部分です。クラウドを利用すれば自動的に可用性が高まるのではなく、可用性が高まるような設計や設定が必要です。

そのような可用性を高める設定のひとつに、EC2物理ホストの障害を自動復旧するAuto Recoveryがあります。今回は障害を検知して人力で復旧するのではなく、自動的に復旧するAWSの設定について解説します。

目次＜Contents＞

EC2 Auto Recoveryとは
- Auto Recovery（インスタンスの復旧）の概要
- Auto Recoveryの使い所
Auto Recoveryの設定方法
Auto RecoveryとAuto Healingの違い
まとめ

EC2 Auto Recoveryとは

EC2のAuto RecoveryはAmazon CloudWatchのモニタリングサービスのひとつです。アラームを作成し、メトリクス条件から逸脱した場合に指定しておいた動作を実行します。まずはAuto Recoveryの概要を理解しておきましょう。

Auto Recovery（インスタンスの復旧）の概要

Auto Recoveryは正式な名称ではありません。AWSの日本語版の機能では「インスタンスの復旧」との項目で記載があります。ただ、2015年にこちらの機能が発表された際には「Auto Recovery」との名称が利用されました。そのような背景があり、一般的にはAuto Recoveryと呼ばれています。

Auto Recoveryで自動復旧できるのは、AWSのシステムに起因する障害が発生した場合です。例えば「EC2のハードウェア障害」「EC2の電源障害」などです。物理的な部分であり、クラウドサービスを利用する私達には手の施しようがない部分の復旧ができます。

なお、Auto Recoveryを設定しなければ、このようなトラブルが発生した際に手動での復旧作業が必要です。クラウドサービスだからと言って、トラブル発生時に初期設定で自動的に復旧してもらえるわけではないのです。

Auto Recoveryの使い所

Auto Recoveryはハードウェア障害の発生時に自動的にシステムの停止や起動、復旧ができる仕組みです。アプリケーション障害ではなく、インスタンス単位での自動復旧を目的としています。

現在、インスタンスの静止監視だけをCloudWatchで実装し、アラートを検知して手動で運用している企業は多いでしょう。そのような方々は設定に少し手を加えれば自動復旧を実現できます。

Auto Recoveryの設定方法

続いては実際にAuto Recoveryを設定する方法について解説します。Auto Recoveryの設定には大きく分けて以下の手順があります。

アラームの作成
メトリクス条件の指定
アクション設定

それぞれについて具体的な手順を解説します。

Auto Recoveryのアラームの作成

アラームの作成の手順

1まずはCloudWatchのアラームを作成します。最初にCloudWatchコンソールにアクセスしましょう。

2CloudWatchのコンソール画面からアラームの管理画面へと遷移し、「アラームの作成」を押します。

3続いて「メトリクスの選択」を押します。

4メトリクスを「EC2」で検索し「EC2 > インスタンス別メトリクス」を押します。

5メトリクス一覧が表示されますので、「StatusCheckFailed_System」で検索します。

6設定するインスタンスを選択し、「メトリクスの選択」を押します。

Auto Recoveryのメトリクス条件の指定

メトリクスの選択画面が表示されれば、具体的にメトリクスの条件を設定します。設定値はAWSの公式ドキュメント「インスタンスを停止、終了、再起動、または復旧するアラームを作成する」で推奨されている値を参考にします。

今回は以下のように設定してみましょう。

メトリクス条件の指定の手順

統計：最小
期間：1分

しきい値の種類：静的
アラーム条件の定義：より大きい
しきい値の定義：0
アラームを実行するデータポイント：2/2

条件の設定が完了すれば「次へ」ボタンを押します。

Auto Recoveryのアクション設定

メトリクス条件を設定したあとはアクション設定をします。
メトリクス条件を逸脱する事象が発生した場合に、どのようなアクションを取るかを設定するわけです。ここでAuto Recoveryの設定をしていきます。

アクション設定の手順

1EC2アクションにおいてまずはアクション状態トリガーを設定します。今回はメトリクス条件を逸脱した場合のアクションを設定しますので「アラーム状態」を選択します。

そしてAuto Recoveryに該当する「このインスタンスを復旧」にチェックを入れます。

2チェックが入ればページ下部の「次へ」を押します。

3名前と説明の追加が画面が表示されますので、最低限「アラーム名」に名前を入力します。必要に応じてアラームの説明も入力しておくと管理しやすいでしょう。

その後、「次へ」ボタンを押します。

4プレビュー画面が表示されますので、内容に間違いが無いことを確認し、ページ下部の「アラームの作成」を押します。

5以下のとおり新規のアラームが作成されていれば完了です。

Auto Recoveryのアクション設定時の注意点

Auto Recoveryは対応しているインスタンスタイプが指定されています。公式ドキュメントでは「インスタンスタイプであるA1、C3、C4、C5、C5a、C5n、C6g、Inf1、 M3、M4、M5、M5a、M5n、M5zn、M6g、 P3、R3、R4、R5、R5a、R5b、R5n、R6g、 T2、T3、T3a、X1、X1eのいずれかを使用する」と記載があります。

また、ボリュームはEBSボリュームのみを持っていて、インスタンスストアボリュームは設定しないとの条件があります。この条件を満たしていない場合、以下のような表示となりAuto Recoveryが設定できませんので注意しましょう。

インスタンスの復旧が選択できない場合

このように「インスタンスの復旧」が選択できない場合は、注意点のどちらかが影響している可能性があります。インスタンスタイプとボリュームの設定を確認してみましょう。条件を満たせない場合は自動化が難しくなります。

Auto RecoveryとAuto Healingの違い

Auto Recoveryと間違えられやすいサービスにAuto Healingがあります。これらの違いを簡単にまとめておきます。

	Auto Recovery	Auto Healing
実装サービス	CloudWatch	Auto Scaling
実行タイミング	メトリクスの条件を逸脱	Auto Scalingのヘルスチェックに失敗
動作内容	異なる物理ホストでインスタンスを再起動	停止インスタンスの置き換え