アソビューでSREを担当している鈴木です。アソビューでは、先日、当社のサービスに利用しているEKSを最新版の1.24までバージョンアップしました。今回は、ここでいくつか問題が発生したので、発生した問題とどう対応したかという話を書きたいと思います。 はじめに バージョンアップの流れ Datadog Agentの最新化 問題の対応方法1(JMX を使用したオートディスカバリー) 問題の対応方法1(Unix ドメインソケット上の DogStatsD) 評価環境の更新 cluster-autoscalerが起動しなくなる問題の発生 fluentdでログが送信されなくなる問題の発生 本番環境の更新 まとめ はじめに EKS1.24では、Dockershimの依存の排除という内部的には大きな変更が入りました。アプリケーションのレイヤにおいては、ほぼ影響はなかったのですが、インフラの立場においては、想像