ジョブ実行中に一部の処理が失敗した際のリトライ
タスクの処理ごとのリトライ
Section titled “タスクの処理ごとのリトライ”実行中のタスク内の処理にてAWSのAPIがエラーを返す等の理由で処理に失敗することがあります。失敗するケースとして以下のようなものがあります。
- DBインスタンス/DBクラスターがバックアップ中で停止できない。
- DBインスタンス/DBクラスターが停止されているためスナップショットを作成できない。
- キャパシティ不足でEC2インスタンスの起動に失敗する。
opswitchでは、このようなエラーが発生した際、各処理ごとに最大で9回まで一定間隔をおいて自動的にリトライします。またopswitchのインフラストラクチャに問題がある場合、例えば一時的なネットワークやサービスの障害が発生した際は徐々に間隔を広げてリトライします。
9回目のリトライでもエラーになった場合、ジョブは中断され失敗として終了します。1つのジョブに複数のタスクを設定されている場合、エラーになったタスクよりも後のタスクは実行されません。通知設定がされている場合は失敗の通知が送られます。
エラーに対するオプション
Section titled “エラーに対するオプション”以下のタスクは特定のエラーが発生した際の動作を設定するオプションを用意しています。
- EC2バックアップタスクの作成
- 作成したAMIがfailedになった場合、再作成するオプションがあります。(最大9回まで再作成します。)
- EC2インスタンスの起動・停止タスクの作成
- EC2インスタンスがキャパシティ不足で起動できなかった場合、別のインスタンスタイプで起動させるオプションがあります。
失敗したジョブの再実行
Section titled “失敗したジョブの再実行”失敗したジョブを再実行するには、ジョブの一覧から即時実行を行うか、実行履歴から再実行を行ってください。
ジョブ一覧からの再実行
Section titled “ジョブ一覧からの再実行”
実行履歴からの再実行
Section titled “実行履歴からの再実行”失敗したジョブのみ、実行履歴から再実行することができます。
