ECS Task Stopped の Exit Code は container 別に確認する
AWS
ECS
Datadog
障害調査
Datadog や EventBridge の ECS Task Stopped 通知に表示される Exit Code は、必ずしも障害の原因になったアプリケーションコンテナの exit code とは限らない。FireLens、Datadog Agent、GuardDuty Agent などの sidecar が exitCode 0 で止まり、通知本文が 0 を表示していても、essential な application container は 134 などで異常終了している場合がある。原因調査では aws ecs describe-tasks --cluster <cluster> --tasks <task> を実行し、containers[].{name,exitCode,lastStatus} と stopCode、executionStoppedAt、stoppedAt を container 別に確認する。Node.js では exitCode 134 と FATAL ERROR: ... JavaScript heap out of memory / Aborted (core dumped) が対応することが多い。