モニタリングツール系ってagent入れればロードアベレージ、ディスク使用量、メモリ使用量、Disk IO、ネットワークトラフィックなどはどれも取れると思います。 ただしそれらのメトリクスだけではトラブルシューティングに不十分な場合があります。 なおここではアプリケーション固有のメトリクスの話は除外します。 なので普通は下記のようなステップになると思います。 ・よくわからんエラーがでる ・どうも調べていくと〜というメトリクスをモニタリングした方がいいらしいとわかる ・モニタリングスクリプトを書いて仕込む ・再発する ・再発時のメトリクスをチェックする ところがGitHub - prometheus/node_exporter: Exporter for machine metricsを入れていると最初からかなりのメトリクスを収集できます。なので普段はGrafanaでグラフ化してなくても障害時