タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

アラートに関するcatnapper_marのブックマーク (1)

  • 全員野球からPagerDutyまで。NewsPicksのオンコール体制はどう進化してきたか。 - Uzabase for Engineers

    こんにちは!NewsPicksエンジニアの森川です。今回はNewsPicksのオンコール(=障害対応)体制の変遷と試行錯誤をご紹介したいと思います。 オンコール1.0 ~ 全員野球時代 ~ オンコール2.0 ~ 当番制時代 ~ 1. 専門外のアラートに対応できない 2. 対応するエラーの数が多すぎる 3. 勤務時間の自由度が減る 4. slackに気づけない オンコール3.0 ~ PagerDuty時代 ~ 1. アラートを緊急度で仕分け 2. 当番ローテーションの変更 3. PagerDutyの導入 おわりに オンコール1.0 ~ 全員野球時代 ~ NewsPicksにはエンジニア全員が入るslackチャンネルがあり、ここで周知事項の共有や雑談、問い合わせがされています。昔はこれに加え不具合の報告や監視システムからのアラート通知もこのチャンネルに流れるようになっており、アラート通知は気づ

    全員野球からPagerDutyまで。NewsPicksのオンコール体制はどう進化してきたか。 - Uzabase for Engineers
    catnapper_mar
    catnapper_mar 2021/04/08
    改めて監視体制を見直すのに参考になる。アラート対応って属人化しやすくてスケールしにく[運用][kansi いし、そもそも体制をスケールさせるよりアラート自体を減らしたいのでビジネススケール期の運用は非常に悩ましい
  • 1