ジョブ実行中に一部の処理が失敗した際のリトライ

タスクの処理ごとのリトライ

実行中のタスク内の処理にてAWSのAPIがエラーを返す等の理由で処理に失敗することがあります。失敗するケースとして以下のようなものがあります。

opswitchでは、このようなエラーが発生した際、各処理ごとに最大で9回まで一定間隔をおいて自動的にリトライします。またopswitchのインフラストラクチャに問題がある場合、例えば一時的なネットワークやサービスの障害が発生した際は徐々に間隔を広げてリトライします。

9回目のリトライでもエラーになった場合、ジョブは中断され失敗として終了します。1つのジョブに複数のタスクを設定されている場合、エラーになったタスクよりも後のタスクは実行されません。通知設定がされている場合は失敗の通知が送られます。

以下のタスクは特定のエラーが発生した際の動作を設定するオプションを用意しています。

EC2バックアップタスクの作成
- 作成したAMIがfailedになった場合、再作成するオプションがあります。（最大9回まで再作成します。）
EC2インスタンスの起動・停止タスクの作成
- EC2インスタンスがキャパシティ不足で起動できなかった場合、別のインスタンスタイプで起動させるオプションがあります。

失敗したジョブを再実行するには、ジョブの一覧から即時実行を行うか、実行履歴から再実行を行ってください。

失敗したジョブのみ、実行履歴から再実行することができます。