タグ

SREに関するbraitomのブックマーク (57)

  • SRE実践の形:7種類の SRE 実践パターン - 株式会社X-Tech5

    SRE (Site Reliability Engineering)の実践パターンの話をします。 わたしたちが自身の経験をもとに書いたものですが、参考資料の影響を多大に受けています。参考資料がどれも厚すぎて参考にしきれていない感はあります。 これらの実践パターンはどれかが優れているというものではなく、組織やプロダクトの状況によって選択するものだと考えています。 なお次のエントリでSREを成していく道のりの話をしています。 SRE実践への道:ボトムアップの場合 SRE実践への道:トップダウンの場合 7種類のSRE実践パターン これらは順番に発生していくものではありません。また これらの実践パターンは排他的ではなく、複数を並行実施する ことがあります。 わたしたちが知る限りSREのミッション(あるいはSREに対する期待値)は両極端で、全体を俯瞰し全体最適を図る方向性の場合と、可用性・パフォーマ

    SRE実践の形:7種類の SRE 実践パターン - 株式会社X-Tech5
    braitom
    braitom 2022/03/05
  • サービスと組織の拡大を支えるEmbedded SREs

    SRE Lounge #13 での発表資料です。 https://sre-lounge.connpass.com/event/227250/

    サービスと組織の拡大を支えるEmbedded SREs
  • 開発者とSREの役割、責任/SRE Lounge 13 LT

    SRE Lounge #13 LT 2021.11.19

    開発者とSREの役割、責任/SRE Lounge 13 LT
    braitom
    braitom 2021/11/21
  • SRE Team のオンボーディングのいま - スタディサプリ Product Team Blog

    こんにちは。SRE の @chaspy です。 Quipper の SRE Team ではじめて「オンボーディング」と呼ばれるものを行って約2年経ちました。 quipper.hatenablog.com その後、3人の仲間が入社し、そのたびにオンボーディングプロセスを改善してきました。 記事では、SRE Team のオンボーディングプロセスの"いま"を振り返るとともに、その効果や意義を、オンボーディングを受けたメンバーからのコメントを交えて紹介したいと思います。 オンボーディングの目的 あらためてオンボーディングの目的について言語化しておきます。これは今も昔も変わっておらず、「New Joiner の早期の戦力化」だと思っています。 早期の戦力化のためには何が必要か、ということを考えると、現在のチームのミッションから普段の業務へブレークダウンし、それらをスムーズに遂行するために何が必要か

    SRE Team のオンボーディングのいま - スタディサプリ Product Team Blog
    braitom
    braitom 2021/03/16
    なるほど "ペア・アラートハンドリング"
  • GitHub - upgundecha/howtheysre: A curated collection of publicly available resources on how technology and tech-savvy organizations around the world practice Site Reliability Engineering (SRE)

    How They SRE How They SRE is a curated knowledge repository of Site Reliability Engineering (SRE) best practices, tools, techniques, and culture adopted by leading technology or tech-savvy organizations. Numerous organizations frequently share their insights and expertise, encompassing best practices, tools, and techniques that shape their engineering culture. They do this through various public p

    GitHub - upgundecha/howtheysre: A curated collection of publicly available resources on how technology and tech-savvy organizations around the world practice Site Reliability Engineering (SRE)
    braitom
    braitom 2021/02/20
    いろいろなtechカンパニーのSRE情報のまとめ。会社ごとに情報がまとめられている。
  • GitHub - linkedin/school-of-sre: At LinkedIn, we are using this curriculum for onboarding our entry-level talents into the SRE role.

    Site Reliability Engineers (SREs) sits at the intersection of software engineering and systems engineering. While there are potentially infinite permutations and combinations of how infrastructure and software components can be put together to achieve an objective, focusing on foundational skills allows SREs to work with complex systems and software, regardless of whether these systems are proprie

    GitHub - linkedin/school-of-sre: At LinkedIn, we are using this curriculum for onboarding our entry-level talents into the SRE role.
    braitom
    braitom 2020/12/10
    LinkedInで使っている新卒や経験の浅い人向けにSREの基礎知識を学んでもらうためのオンボーディング資料。
  • SLO策定とアラート設定までの長い道のり - Cybozu Inside Out | サイボウズエンジニアのブログ

    こんにちは、@ueokandeです。早速ですが、皆さんが運用しているサービスには、SLO (Service-level objective: サービスレベル目標) がありますか?アラートの監視項目はどのように設定して、基準値をどのように決めていますか? 社外とのコミュニケーションだけでなく、社内向けのSLOを決めておくことで、サービスの健康状態を知るための手がかりや、普段の開発・運用タスクの優先度を決める上での指標にもなります。 またSLOがあると、サービスを監視するアラートに、理にかなった閾値を設定できます。 この記事ではAWSkintoneの、SLOとアラートを設定するまでの記録について紹介します。 cybozu.com版kintoneのSLOとアラート 国内のcybozu.comで運用しているkintoneにも、もちろんSLOやアラートはあります。 しかし現状のSLOはkinton

    SLO策定とアラート設定までの長い道のり - Cybozu Inside Out | サイボウズエンジニアのブログ
  • 「マンガが快適に読める」を数値化し、SLOをマンガビューワに導入するまで - Hatena Developer Blog

    マンガビューワにおけるサービスレベルとは なぜSLOを策定したかったのか サービスレベルを単純に決める 何をサービスレベル指標としてどう計測するか 一般的なSLIの表現 期間を移動しながら集計する アクセスログからサーバーのSLIを計測する PageSpeed Insights APIフロントエンドを計測 プロダクトオーナーとともにSLOを決定する 決定したSLO どのように監視するか まとめ 株式会社はてなのマンガチームでSREをしているhappy_siroです。 私がチームで担当しているサービスは、いくつかのWebマンガサイトで採用されている「GigaViewer」というマンガビューワです。 GigaViewerチームでは、サービスのSLOを策定しました。 理由は、SLOに基づいて開発速度と信頼性のバランスをとるためです。 この記事では、私がチームメンバーと協力して「GigaView

    「マンガが快適に読める」を数値化し、SLOをマンガビューワに導入するまで - Hatena Developer Blog
    braitom
    braitom 2020/09/02
    GigaViewerでSLOを導入した話。なぜSLOを作成したか、どのように指標を決めて値を測定するようにしたか、どのように監視するようにしたかなどが書かれている。SLOを決めるときはPOと一緒に決めるのが大事。
  • SRE_Culture_Organization

    ミドルウェア実行環境の多様化を考慮したインフラアーキテクチャの一検討/study on web system architecture #2

    SRE_Culture_Organization
    braitom
    braitom 2020/06/16
    SREとは何か、SREに必要な文化や考え方、組織への導入方法などについて書かれている。MackerelチームでのSREと開発チームの体制、役割についても書かれている。
  • モダンなシステムにSLI/SLOを設定するときのベストプラクティス

    New RelicではどのようにSLI/SLOを定義し、SREを実践しているか。その経験から、SLI/SLOについて解説した記事 Best Practices for Setting SLOs and SLIs For Modern, Complex Systems の翻訳です。 -- New Relicのサイト信頼性VPであるMatthew Flamingも、この記事に貢献しています。この記事はサンフランシスコその他で行ったFutreStack18での講演「SLOs and SLIs In The Real World: A Deep Dive.」をもとに作られています。 New Relicでは、サービスレベル指標(Service Level Indicator: SLI)とサービスレベル目標(Service Level Objective: SLO)を定義したり設定したりことが、サイト

    モダンなシステムにSLI/SLOを設定するときのベストプラクティス
    braitom
    braitom 2020/04/01
    SLI、SLOをどのように定義するか、New Relicのプラットフォームに対してどのように設定しているかがアプローチ方法含めて書かれている。これは勉強になる。
  • SRE keeps digging to prevent problems | Google Cloud Blog

    At Google, our teams follow site reliability engineering (SRE) practices to help keep systems healthy and users productive. There is a phrase we often use on our SRE teams: "At Google scale, million-to-one chances happen all the time." This illustrates the massive complexity of the system that powers Google Search, Gmail, Ads, Cloud, Android, Maps, and many more. That type of scale creates complex

    SRE keeps digging to prevent problems | Google Cloud Blog
    braitom
    braitom 2020/03/17
    GoogleのSREはハードウエアレベルまでちゃんとトラックしているよという話。クラウド提供側なのでそりゃそうだよな。
  • SRE for single-tiered software applications | Google Cloud Blog

    In cloud operations, we often hear about the benefits of microservices over monolithic architecture. Indeed, microservices help manage hardware being abstracted away and push developers towards resilient, distributed designs. However, many enterprises still have monolithic architectures which they need to maintain. For this post, we’ll use Wikipedia’s definition of a monolith: “A single-tiered sof

    SRE for single-tiered software applications | Google Cloud Blog
    braitom
    braitom 2020/02/23
    monolithsなアプリの一般的な問題点とmonolithsなアプリで信頼性を向上させるためのベストプラクティスについて。microservices、monoliths関係なくサービスの信頼性を高めるというGoogleのSREチームの信念を感じる。
  • SRE の原則に沿ったトイルの洗い出しとトラッキング | Google Cloud 公式ブログ

    ※この投稿は米国時間 2020 年 2 月 1 日に、Google Cloud blog に投稿されたものの抄訳です。 作業効率を検証するために Google のサイト信頼性エンジニア(SRE)が使用している主な測定指標の一つが、日々の時間の使い方です。長期間のエンジニアリング プロジェクトのために時間を確保する必要がありますが、エンジニアには Google のサービスを稼働し続ける責任もあり、そこにも手作業が生じることがあります。Google の SRE は、いわゆる「トイル」に費やされる時間を勤務時間の 50% 未満にすることを目指しています。では、トイルとは何でしょうか。トイルに邪魔されずに開発スピードを維持するには何をすべきでしょうか。稿ではこれらの問いについて見ていきます。 まずトイルの定義ですが、『Site Reliability Engineering』の第 5 章には次の

    SRE の原則に沿ったトイルの洗い出しとトラッキング | Google Cloud 公式ブログ
    braitom
    braitom 2020/02/21
    なるほどー愚直に定期的にアンケートを取って問題を洗い出したのか。“ 3 か月ごとに SRE チームを調査し、プロジェクト作業の時間を奪う問題として Google 全体で共通しているものを洗い出しました”
  • delyにおける安定性とアジリティ両立に向けたアプローチ / SRE NEXT 2020

    Amazon VPC Lattice を使い始める前におさえておきたいポイント n 選 / Introduction to VPC Lattice

    delyにおける安定性とアジリティ両立に向けたアプローチ / SRE NEXT 2020
    braitom
    braitom 2020/01/27
    課題洗い出しをメンバーそれぞれで行い認識がずれているところを議論するのプランニングポーカーみたいな感じでよいな。
  • SLO Review

    『スタディサプリ』における SLI/SLO の継続的改善 / Continuous improvement of SLI/SLO at StudySapuri

    SLO Review
    braitom
    braitom 2020/01/26
  • SREってなんだ?哲学と習慣、そしてツール。

    1.SREの哲学と原則 SREは”DevOpsを純粋な形にしたもの”なのか SRE担当VPとして、Matthew FlamingはNew RelicのSREプラクティスを監督しています。SREはおそらく”DevOpsの原則を単一の役割に最も純粋に蒸留したものだ”と彼は考えています。 昨年の FutureStack New YorkでGoogleのSREであるLiz Fong-Jones氏はこの考えを広げました。Googleのソフトウェアエンジニアは、運用システムのコードと信頼性に常に責任を負っていますが”SREはさまざまなシステムがどのように連携するか、どのように機能するか、そしてどのように改善されるべきかについて、専門的な理解を深めることに責任がある”と彼女は言いました。SREはソフトウェアエンジニアリングのタスクを引き受ける可能性がありますが、エンジニアリングチームが提供するサービスの

    SREってなんだ?哲学と習慣、そしてツール。
    braitom
    braitom 2019/12/17
    SREについて。SREの哲学と原則、SREを成功させる要素、ツールとプロセスについて、New RelicでのSREの役割についてなどが書かれている。
  • Maintain SLO 〜俺たちのSLOはこれからだ!〜

    Merpay Advent Calendar 2019 の14日目は、メルペイSREチームの@Tがお送りします。 記事では、メルペイSREチームのSLO運用状況について、紹介いたします。 メルペイリリース前 去年のAdventCalendar 2018で、メルカリのWeb MicroservicesにおけるSLI/SLOについて紹介がありました。 メルペイでは新規のMicroserviceをリリースする前に、各MicroserviceチームがSLOを定義し、品質保持の一指標を決めるルールがあります。 メルペイSREチームでは、Microserviceチームと一緒にSLOを考え、各MicroserviceにSLOを定義していますが、一からSLOを定義するのはとても難しいです。 幸いなことにGoogle社からSLOの説明や定義方法などSREに関する素晴らしい記事がたくさん共有されており、SL

    Maintain SLO 〜俺たちのSLOはこれからだ!〜
    braitom
    braitom 2019/12/16
    メルペイのSREチームでのSLO運用方法について。フォーマットの統一化、Datadogダッシュボードのテンプレ化、最低でも3ヶ月ごとに見直すなどの運用ルールについて書かれている。
  • SRE Classroom: The Art of SLOs - Google

    The Art of SLOsは、GoogleのCustomer Reliability Engineeringチームによって開発されたワークショップです。このワークショップの目的は、Googleがサービスの信頼性を計測する方法 サービスレベル指標(SLI) とサービスレベル目標 (SLO)を参加者に紹介し、実際にこれらの計測方法を作成することを体験してもらうことです。これらは重要で土台となる概念です。サービスの信頼性を客観的に測定する方法があれば、サービスの信頼性について有意義な会話をすることがはるかに簡単になります。 ワークショップの理論編では、開発チームと運用チームの間でしばしば生じる組織的な緊張を、サービスの望ましい信頼性を表す目標値を設定することで解決する方法を学びます。また、SLOとエラーバジェットを使って、データ駆動で、客観的、かつユーザー重視の方法でサービスの信頼性を測定・

    braitom
    braitom 2019/12/04
    GoogleのSREチームが作ったSLIとSLOの観点からサービスの信頼性を測る方法を作成を学ぶワークショップ資料。
  • ごく普通のエンジニアリング運用チームを強力な SRE チームに変える | Google Cloud 公式ブログ

    ※この投稿は米国時間 2019 年 10 月 4 日に Google Cloud blog に投稿されたものの抄訳です。 運用チームにエンジニアを絶えず増員しても、お客様の拡大には対処しきれません。Google のサイト信頼性エンジニアリング(SRE)の原則を適用すれば、運用上の問題にソフトウェア エンジニアリングによる解決手法を取り入れることで、うまく対処できます。稿では、従来のネットワーク エンジニアリングの通例にとらわれず、SRE に転換することで、Google がグローバル ネットワーク運用チームを変革した方法をご紹介します。Google番環境ネットワーキング チームがこの問題にどのように取り組んだのかをお読みいただき、ご自分の組織に SRE の原則をどのように取り入れることができるのかを検討してみてください。 スケーリングの限界2011 年、Google番環境ネット

    ごく普通のエンジニアリング運用チームを強力な SRE チームに変える | Google Cloud 公式ブログ
    braitom
    braitom 2019/10/24
    Googleの運用チームをSREチームへと変革した話。以前はどのような問題があったのか、どのようにスタートしたのか、どのように大規模に転換したのかが書かれている。
  • フロントエンドの組織について考える / think-about-front-end-organization

    mabl を融和させるための取り組み in クラウドサイン / how-to-fusion-mabl-in-cloudsign

    フロントエンドの組織について考える / think-about-front-end-organization
    braitom
    braitom 2019/10/10
    フロントエンドのDeveloper Experienceを高めるためにフロントエンドのビルド周りの改善やパッケージ管理、パフォーマンス測定をするFrontendSREの必要性について書かれた資料。