Backlog課の@vvatanabeです。我々Gitチームの毎朝のルーティンの一つに、 「前日の各種アプリケーション・AWSリソースのアラートやメトリクスを把握する」 と言うものがあります。 これは、SREの@maaaato氏がGitチームにエンベッドされてから毎朝欠かさずやっている習慣です。 先日開催された #NuCon2022 の彼のセッション「チームでサービスの運用をうまく支えていくための取り組み ~SREと共に~」でも、継続している取り組みの一つとして紹介しています。 この取り組みのおかげで、実際に問題を検知して改善に繋げたケースも多々あります。今回はその中から一つ、大容量のストレージを持つサーバーの奇妙なメモリ使用量の増加原因を究明して改善に繋げた話をご紹介します。 TL;DR Amazon Linux 2のようなRHEL/CentOS系のディストリビューションに大量のファイル