タグ

ブックマーク / muziyoshiz.hatenablog.com (3)

  • SRE はサービス品質に影響しない程度の異常をどう扱うべきか? - 無印吉澤

    今回の記事は、最近考えていたことのメモです。 ここ最近いろいろ考えていたのですが行き詰まってきたので、とりあえず課題意識を説明する文章だけ書いてみました。結論はまだありません。 障害と異常の定義 話の前に、障害(failure)および異常(anomaly)という単語を定義しておきます。人によって定義は違うと思いますが、自分が文章を書くときは以下のように区別しています。 障害:サービスの停止や、サービス品質の深刻な劣化を引き起こすようなインシデント 異常:サービスに対する深刻な問題は引き起こさないが、通常は起こらないはずのインシデント この定義をもう少し詳しく説明するために、例として、ロードバランサと、その背後に5台のアプリケーションサーバがあるシステムを考えます。 これらのサーバが5台ともダウンしたり、半数を超える3台がダウンして応答時間が極端に長くなった(例えば10秒以上になった)場合は

    SRE はサービス品質に影響しない程度の異常をどう扱うべきか? - 無印吉澤
    y_uuki
    y_uuki 2019/02/26
    記事の定義でいう異常はSLOには含めず、通知のないアラートを設定するか、メトリックダッシュボードを用意し、日次か週次でチェックし異常に気づけるようにするというフレームが解の一つとしてあります。
  • SRE Lounge #5 にて Backlog における SRE の事例について講演しました - 無印吉澤

    僕は去年の8月にヌーラボに入社して、そこから Backlog の SRE として働いています。 SRE としての経験は約1年なのですが、ちょうどサービスが成長し、会社もエンジニアを積極的に採用して拡大している時期だったこともあり、色々な経験ができました。そのなかで、SRE の難しさ、SRE の組織の問題にも直面してきました。 このあたりの経緯を整理して話すだけでも SRE にとって面白い話になるのではないか、と思い、今回の SRE Lounge #5 では「Backlog における SRE の事例 〜プロダクトの成長のために SRE はなにをすべきか〜」というタイトルで発表させていただきました。 sre-lounge.connpass.com 発表スライドはこちらです。 発表のときは冒頭で説明したのですが、これがベストプラクティスと言うつもりは全然ありません。僕らもまだ悩んでいる最中の問題

    SRE Lounge #5 にて Backlog における SRE の事例について講演しました - 無印吉澤
    y_uuki
    y_uuki 2018/10/20
    SREと組織構造の話、めっちゃよかった
  • Fluentd Meetup 2016 Summer レポート 〜 v0.14 の新機能からプラグイン開発者向け API まで - 無印吉澤

    イベント名:Fluentd Meetup 2016 Summer 開催日時:2016-06-01(月) 会場:イベント&コミュニティスペース dots. 約1年ぶりに開催された Fluentd Meetup に参加してきました。今回は、5月31日にリリースされたメジャーバージョンアップの v0.14 について、ユーザ向けの機能紹介から、プラグイン開発者向けの深い話まで、盛りだくさんの内容でした。自分でプラグインを書くくらい、Fluentd をヘビーに使う人向けのイベントという感じで、どの話も面白かったです。 最近、私は Fluentd を使う機会が全然なかったこともあって、「Fluentd も機能的には枯れてきて、そろそろ新機能もあまりないだろう」と思っていたのですが、まだこんなに改善の余地があったのか……とちょっと驚きました。個人的には、古橋さんの講演で将来の構想として出てきた、Kafk

    Fluentd Meetup 2016 Summer レポート 〜 v0.14 の新機能からプラグイン開発者向け API まで - 無印吉澤
  • 1