SREのカンファレンス「SRE NEXT 2020」に参加してきました。 学びが多かったので忘れないうちにメモしておきます。 参加したセッション参加したセッションのメモをベタ書き。 スライドが公開されているセッションであれば、スライドのリンクも貼っておきます。 なお、発表資料はさっそくQiitaにまとめている方がいました。ありがたい。 ヤフー社内のエンジニア向けに提供しているPaaS基盤本番環境として40,000コンテナ以上稼働しているアラート対応は「利用者に影響があるか」を重視している 仮にメモリ使用量が増加してもユーザ影響がなければ急ぎの対応は不要各アプリの稼働率が見えるSLOダッシュボードを用意 「ユーザ影響の有無」が分かるテストツールを作っているブラックボックステストを数分間隔で各サービスに実行SLO駆動でアラート対応、SREチーム内の評価指標にもSLOを使うSREメンバ育成には障