タグ

sreに関するsfujiwaraのブックマーク (34)

  • SREチームでポストモーテムを1年半運用してみた - KAYAC engineers' blog

    SREチームの藤原です。今回は、SREチームが主導してポストモーテムを書く取り組みを、社内で1年半ほど運用してみたという話です。 ポストモーテムとは? 「ポストモーテム」(postmortem=事後検証)とは、システムにインシデントが発生したことによる影響、緩和や解決のために取られた行動、インシデントの原因、再発防止策などをまとめた文書です。 カヤックのSREチームは、各メンバーがそれぞれのプロダクトに参加し、他のエンジニアとともに開発と運用を行う、いわゆる「Embedded SRE」という形態を取っています。そのため、SREチームのメンバーでも自分が関わっていないプロダクトで発生したインシデントについては詳しく把握できないことがありました。SRE以外で運用に携わっている、プロダクト専任のサーバーサイドエンジニアにはなおさら困難でした。 また、インシデント発生時に実際に手を動かす人がどうし

    SREチームでポストモーテムを1年半運用してみた - KAYAC engineers' blog
    sfujiwara
    sfujiwara 2022/03/22
    SREチーム連載、3月号を書きました
  • カヤックのSREチームについて - KAYAC engineers' blog

    SREチームの長田です。 今回は私が所属している「カヤックのSREチーム」について紹介します。 SREとは Site Reliability Engineering の略です。 「サイト信頼性エンジニアリング」と訳されることが多いようです。 同名の書籍(いわゆるSRE)が出版されたことから、SREという言葉が一般的に使われるようになったようです。 www.oreilly.co.jp この記事ではSREそのものについての説明は省きます。 ざっくり一言で説明すると、「サイト(サービス)の信頼性を技術の力で担保すること」のようになるでしょうか。 SREの何たるかのより詳しい説明については上記のSREや、提唱元であるGoogleのサイト(英語)を参照してください。 sre.google カヤックのSREチーム カヤックのSREチームは2018年に発足しました。 当初は3名体制でしたが、メンバー

    カヤックのSREチームについて - KAYAC engineers' blog
    sfujiwara
    sfujiwara 2022/01/31
    持ち回りで月一連載予定です
  • MackerelでSLOとエラーバジェットを運用するためのツール shimesaba - KAYAC engineers' blog

    この記事はMackerel Advent Calendar 2021の7日目です。 こんにちは、SREチーム所属の@mashiikeです。 皆様はSLOとエラーバジェットという言葉を聞いたことはありますか? サービスの信頼性を保証することを目標するSRE(Site Reliability Engineer/Site Reliability Engineering)の領域に携わってる方なら聞いたことがあると思います。 今回は、SLOとエラーバジェットに関して、Mackerelを用いてサービス/サーバー監視をしている際に便利なツールとして shimesaba というものを作った話をします。 github.com はじめに 題に入る前に、SLIやSLO, エラーバジェットという言葉について触れておきます。 これらの言葉は、ざっくりと説明すると以下のようになります。 SLI(Service Le

    MackerelでSLOとエラーバジェットを運用するためのツール shimesaba - KAYAC engineers' blog
  • 日本のSREの火付け役ともなったエンジニアが貫く信念 ─ すべてはログの向こうにいるエンドユーザのために - Findy Engineer Lab

    こんにちは、はじめまして。さくらインターネット株式会社の長野雅広(@kazeburo)です。Webの業界に入ったのは学生だった2000年頃で、キャリアは20年以上になります。おそらくこの業界でも長い方ではないでしょうか。20年の間にmixiやlivedoor、メルカリといった企業で働く機会を得て、どの職場でもサービスの裏側にあるインフラや、Webアプリケーションの運用を支える仕事、今ではSREと呼ばれるような業務に携わってきました。 そして今年の1月から、さくらインターネットにてクラウドを中心にサービスの開発を行っています。つまり、インフラやクラウドを利用して一般のお客様向けにサービスを作るという仕事から、クラウドを作ることを仕事にする、という選択をしました。 この記事では、どのような経験からSREとして働くようになったのか、また現職に至る選択をした経緯について語りたいと思います。加えて、

    日本のSREの火付け役ともなったエンジニアが貫く信念 ─ すべてはログの向こうにいるエンドユーザのために - Findy Engineer Lab
  • SRE 3社合同勉強会レポート | 脱AWSシングルアカウントへの道のりからTerraformのCI/CD化まで|Kurashicom Tech Blog

    こんにちは、テクノロジーグループの矢田です。 先日、以前からお付き合いのある面白法人カヤックさんとprimeNumberさんと合同でSRE勉強会を行いました。 今回はその内容についてレポートさせていただきます! カヤックさんとは以前に勉強会をさせていただいており、primeNumberさんとは初めての交流になりました。 カヤックさんとの勉強会の内容は下記をご覧ください。 総勢12名の参加で、弊社からは聴講を含め3名参加しました。 SRE勉強会ということでSRE周りで幅広いテーマの発表が行われました。 詳しい発表内容はアップロードしてくださっているスライドをご覧ください。 さっそく発表内容をレポートしたいと思います。 「GitHub Actionsに『強い』AWSの権限を渡したい」最初はカヤックの藤原さんからGitHub ActionsでTerraform applyを行うためにどうやったら

    SRE 3社合同勉強会レポート | 脱AWSシングルアカウントへの道のりからTerraformのCI/CD化まで|Kurashicom Tech Blog
  • カヤック×primeNumber×クラシコム合同SRE勉強会を開催しました - KAYAC engineers' blog

    カヤックSREチームの今です。 5/14(金)に3社合同のSRE勉強会をオンライン開催しました。 参加企業は、カヤック、クラシコム様、primeNumber様です。 SREはまだまだ一般的ではなく、知見の少ない役職です。また企業内での人数も少ないこともあり、普段同じ技術領域について話す人があまりいません。 そこで今回のSRE勉強会は、企業の垣根を越えた知見の共有と同役職者同士の親睦を深めよう、という趣旨で開催されました。 その発表資料と一部を抜粋してご紹介します。 GitHub Actionsに「強い」AWSの権限を渡したい (カヤック 藤原) speakerdeck.com terraform applyなどの強い権限を必要とする操作をGitHub Actions等で継続的に実行するためには強い権限をもたせる必要がありますが、セキュリティ上の懸念点も増えることになります。 そこで、強い権

    カヤック×primeNumber×クラシコム合同SRE勉強会を開催しました - KAYAC engineers' blog
    sfujiwara
    sfujiwara 2021/05/26
    わいわい
  • カヤック×クラシコム×primeNumber3社でSRE合同勉強会を開催しました。|百々太市

    こんにちは!primeNumberでエンジニア兼カスタマーサクセスを担当しております百々と申します! 5/14にカヤック×クラシコム×primeNumberの3社でSRE合同勉強会を開催いたしました。日はその模様をお伝えできればと思います! 3社合同勉強会について今回、「合同勉強会を通してエンジニア同士が仲良くなろう」をコンセプトとして3社合同勉強会が設定されました。第1回目のテーマとしては「SRE」という職種にフォーカスをあてました。SREは企業内で少ない職種であり、普段自分の業務領域について話を出来る相手があまりいません。そんなSRE同士が集まって勉強会をやってみたら面白いのではないかということで「SRE」をテーマとした勉強会となりました。 勉強会は昨今の情勢も考えてzoomでの開催となりました。直接お会いしたほうがより親密になれそうかもという想いはあったものの、いざ始まってみるとそ

    カヤック×クラシコム×primeNumber3社でSRE合同勉強会を開催しました。|百々太市
    sfujiwara
    sfujiwara 2021/05/24
    やりました
  • スケールアウトの落とし穴から学ぶ、SREチームでのダッシュボードのアップデート術 - MonotaRO Tech Blog

    どんなことが起こったのか? モノタロウのサイトの監視について レイテンシ監視 トラフィック監視 エラー監視 リソース監視 ログ トラブルシュートの進め方 発生検知 発生箇所の特定 根原因の調査 強化 課題 おわりに SREチームの市原(@ichi_taro3) です。 モノタロウでは、www.monotaro.com という大規模なECサイトを自社で開発、運用しています。 Webアプリケーションの運用ではトラブルはつきものです。今回は、とあるトラブルシュート事例を軸に、どのように運用を改善しているのかについて紹介します。 どんなことが起こったのか? あるとき、モノタロウのWebサービス全体でレイテンシ悪化やバックエンドAPIへのタイムアウトの増加が頻発したことがありました。 当然これらは歓迎される状況ではなく、すぐに開発者やSRE、インフラチームの担当者が集まり調査を開始しました。現象は

    スケールアウトの落とし穴から学ぶ、SREチームでのダッシュボードのアップデート術 - MonotaRO Tech Blog
  • 歴史の長いプロダクトでAmazon Linux 2への移行をやり遂げた話 | 株式会社ヌーラボ(Nulab inc.)

    SRE課で、主にBacklogのSREを担当しているMuziです。 ヌーラボでは、2019年から2020年にかけて、Backlogで利用しているEC2インスタンスをAmazon Linux 1からAmazon Linux 2に移行しました。 今回の記事では、このAmazon Linux 2への移行作業をEC2インスタンスの種類ごとにバラバラのトイルとして扱うのではなく、それらのトイル全体をプロジェクトとして扱うことで結果的にうまくいったという話をご紹介します。 ちょっとした工夫レベルの話ですが、みなさんのトイルへの取り組みの参考になれば幸いです。 ※注:この記事ではAmazon Linux 2への移行に関する技術的な詳細には触れません。プロジェクトの進め方についての読み物とお考えください。 きっかけ:Amazon Linux 1のサポート期間終了 これまで、Backlogで利用しているEC

    歴史の長いプロダクトでAmazon Linux 2への移行をやり遂げた話 | 株式会社ヌーラボ(Nulab inc.)
  • エンジニアが夜も安心して寝れているのは、何のおかげ?北欧、暮らしの道具店のSREこれまでとこれから|Kurashicom Tech Blog

    こんにちは。エンジニアの佐々木です。 Monthly hyggeと呼んでいる、月に一回開催している社内勉強会があるのですが、1月末にこんな↓ゴールとテーマで話をしました。 2020年でやってきたことをじっくり振り返り、これからの課題もメンバーと共有できたので、ここでも公開しておこうと思います。 (みなさんもきっとご存知のこちらの、僕も途中で挫折しつつも大切に読んでいます) SREは高速道路 先日クラシコムに興味をもってくださったエンジニアの方とお話ししたときにお伝えした内容なのですが、SREとは車が安全にスピードを出して運転ができるように高速道路を整備するようなものだと思っています。 (高速道路という例えは、以前どなたかの資料を読んだときにその例えが挙がっており、そこからインスパイアされています。どの資料だったかは失念してしまいました…) 2020年、ものすごくいろいろやったな・・・ 2

    エンジニアが夜も安心して寝れているのは、何のおかげ?北欧、暮らしの道具店のSREこれまでとこれから|Kurashicom Tech Blog
  • Mackerelにおける Cloud Nativeへの取り組みと チームへ与えた変化 / CloudNative Days Tokyo 2020

    Mackerelにおける Cloud Nativeへの取り組みと チームへ与えた変化 / CloudNative Days Tokyo 2020

    Mackerelにおける Cloud Nativeへの取り組みと チームへ与えた変化 / CloudNative Days Tokyo 2020
  • インシデント指揮官トレーニングの手引き | Yakst

    [SRE]原文 An Incident Command Training Handbook – Dan Slimmon (English) 原文著者 Dan Slimmon 原文公開日 2019-06-24 翻訳依頼者 翻訳者 meiq 翻訳レビュアー doublemarket 原著者への翻訳報告 1723日前 Twitterで報告済み 編集 私が Hashicorp で担った最初の仕事のひとつは、社内向けのインシデント指揮官のトレーニング資料を作ることでした。 これは私自身がインシデントへの対処にあたりながら何年ものあいだ肌身に感じてきた、あらゆる類の考えをまとめ上げる良い機会となり、最高に面白いタスクでした。 以下は私の書いたトレーニング資料、ほぼそのままです。 あなたがインシデントレスポンスのポリシーを定義するにせよ、即興でインシデントレスポンスを行うにせよ、お役に立てたら幸いです。

  • Site Reliability Engineering (SRE)チームとは - yoshidashingo

    どうも、セクションナイン の 吉田真吾(@yoshidashingo)です。 はじめに メルカリにおけるSite Reliability Engineering(SRE)チーム メルカリSREの定義 メルカリでのSREチームの導入経緯 メルカリでのSREチームの業務 メルカリSREに求める人材像 感想:カスタマー目線なチーム Google SRE Site Reliability Engineeringブログ RedditでのGoogle SREたちによるAMA インタビュー : Site Reliability Engineerは世界で最も強烈なピットクルー インタビュー : Site Reliability Engineerは最も面白い問題を解いている サンタモニカのSREチームの発表 他社の採用情報 Facebook Netflix sysadmin to SRE まとめ はじめに

    Site Reliability Engineering (SRE)チームとは - yoshidashingo
  • 書評: Site Reliability Engineering

    英語だけどぜひ読んでほしい Site Reliability Engineering: How Google Runs Production Systems 参考になったのでご紹介。Googleのインフラ/Ops系技術チームの働き方や考え方を題材にしたです。GoogleのSREについては断片的に知っていたのですが、まとめて読むと違いますね。背景やストーリーがあって、理解しやすいです。 共感できるネタがどんどん繰り出されるので、一気読みしました。読み込みが浅いところもあったので、改めて読む予定。 以下、印象に残ったこと。 Site Reliability Engineering teamは、インフラ/Ops担当であるが、Unix内部やネットワークなどインフラの知見を持つソフトウェアエンジニアの集団。自分たちのオペレーションを効率的に、迅速に、確実にするために、コードを書く。 インシデント対