並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 55件

新着順 人気順

"Site Reliability Engineering"の検索結果1 - 40 件 / 55件

  • Enterprise Roadmap to SRE - Google - Site Reliability Engineering

    Google が過去に出版した 2 冊の書籍「Site Reliability Engineering」と「The Site Reliability Workbook」は、サービスライフサイクル全体への取り組みによって、組織がソフトウェアシステムの構築、展開、監視、保守を成功させる方法と理由を示しています。本レポートでは、Google Cloud Reliability Advocate の Steve McGhee と Google Cloud Solutions Architect の James Brookbank が、組織で SRE を導入する際にエンジニアが直面する特定の課題について深く掘り下げています。 SRE の普及にもかかわらず、多くの企業では SRE に対する当初の熱意と、その採用の度合いの間に大きな隔たりが生じています。本レポートは、プロダクトオーナーや信頼性の高いサー

    • スクウェア・エニックスの"とあるシステム"のSite Reliability Engineering

      はじめに こんにちは、情報システム部 SRE 橋本です。 普段はクラウドエンジニア(SRE)としてチームリードをしています。興味関心がインフラ、Observability、SRE、Security、Golangといった分野であり、 Japan Google Cloud Usergroup for Enterprise(Jagu’e’r ジャガーと読みます)でObservability/SRE分科会のオーナーを担当させていただいております。その縁もあって先日Innovators Hive at Cloud Next 2022でコミュニティ運営についてお話をさせていただきました。 この記事では現在チームリードをしていてビルドアップ中でもあるSREチームについて考えていることをお話したいと思います。 また、このSREチームについてのインタビュー記事も掲載いたしました。メンバーやチームの雰囲気を伝

        スクウェア・エニックスの"とあるシステム"のSite Reliability Engineering
      • Google - Site Reliability Engineering

        Written by: Heather Adkins, Betsy Beyer, Paul Blankinship, Ana Oprea, Piotr Lewandowski, Adam Stubblefield Can a system be considered truly reliable if it isn't fundamentally secure? Or can it be considered secure if it's unreliable? Security is crucial to the design and operation of scalable systems in production, as it plays an important part in product quality, performance, and availability. In

        • 【Team & Project】 Verda Platformに対する Site Reliability Engineering に関わる業務を担当しているチームを紹介します

          ―― まず、自己紹介をお願いします。 Park: LINEのプライベートクラウドであるVerda について、SRE活動をミッションとしているVerda Reliability Engineering Team(以下VRE)のマネージャーをしています。VREチームは日本、韓国の2拠点に跨がるチームで、その両方に対してマネジメントを行なっています。 山田:VREチームでシニアエンジニアとして働いています。クラウドインフラの開発・運用には数多くのレイヤの技術が使われていますが、その中でも特にサーバやOSといった比較的低レイヤな部分に対するSREをメインに実施しています。具体的には、OSレベルのトラブルシューティングやクラウドリソースのキャパシティ管理、物理リソースの調達に関する業務改善などがメインミッションです。 Kang: 2019年度の新卒として韓国側のチームにジョインしました。入社前は大学

            【Team & Project】 Verda Platformに対する Site Reliability Engineering に関わる業務を担当しているチームを紹介します
          • 社内技術書輪読会とSite Reliability Engineering | フューチャー技術ブログ

            TIG/DXユニット 1所属のLEEです。 2019年より社内で輪読会を企画運営し、このたび初回の課題図書になってたSite Reliability Engineering を全10回で無事読破できました。 これを記念に実施概況をまとめさせていただきます。 Who am I名前から分かる通り韓国出身で、入社してちょうど1年くらいになりました。前職がWeb系の会社のエンジニアだったのでITコンサルティングを生業とするフューチャーに入社したのは、ある意味エンジニア界隈のトレンドに逆走した感じかもしれませんが、外には出せない情報ばかりの貴重な経験をさせてもらえているので良い決断だったと思っています。 背景入社して今までの会社と違う環境で戸惑いながらも、自分が慣れているWeb系のテイストを取り入れようとしました。 その一つが社内勉強会の企画でしたが、すでにいくつか定期開催済みということもあり、もう

              社内技術書輪読会とSite Reliability Engineering | フューチャー技術ブログ
            • Platform Engineering と Site Reliability Engineering について - Qiita

              この記事はスタンバイ Advent Calendar 2022の12日目の記事です。 Platform Engineering と Site Reliability Engineering(以下SRE) について考えていきたいと思います。 この記事の目的 この記事では SREという言葉の定義と最近の取り組み事例についての考察 Platform Engineeringという考えの紹介 Platform EngineeringとSRE の相違点、共通点 について書きたいと思います。 これは決して特定の個人や団体の考えを否定するものではなく、ご自身のキャリアや組織を考える際のヒントとして使って頂けたら幸いです。 SREという言葉 まずはSREという言葉について確認してみましょう。 O'Reilly Japan - SRE サイトリライアビリティエンジニアリングによると、 (開発/運用の分断に対し

                Platform Engineering と Site Reliability Engineering について - Qiita
              • GitHub - upgundecha/howtheysre: A curated collection of publicly available resources on how technology and tech-savvy organizations around the world practice Site Reliability Engineering (SRE)

                How They SRE How They SRE is a curated knowledge repository of Site Reliability Engineering (SRE) best practices, tools, techniques, and culture adopted by leading technology or tech-savvy organizations. Numerous organizations frequently share their insights and expertise, encompassing best practices, tools, and techniques that shape their engineering culture. They do this through various public p

                  GitHub - upgundecha/howtheysre: A curated collection of publicly available resources on how technology and tech-savvy organizations around the world practice Site Reliability Engineering (SRE)
                • Incident Metrics in SRE - Google - Site Reliability Engineering

                  Incident Metrics in SRE - Google - Site Reliability Engineering Measuring improvements as a result of a process change, product purchase, or a technological change is commonplace. In reliability engineering, statistics such as mean time to recovery (MTTR) or mean time to mitigation (MTTM) are often measured. These statistics are sometimes used to evaluate improvements, or track trends. In this rep

                  • Google - Site Reliability Engineering

                    If you’re rolling out a large-scale infrastructure change, you know it can be like swapping out a jet engine while flying. Staying aloft takes coordination and communication with many teams, good processes and documentation, risk identification and management, monitoring, and tracking of the change progress—not to mention dealing with the catastrophic challenges that crop up midflight. In this rep

                    • The Many Shapes of Site Reliability Engineering

                      In my role as a Cloud and SRE Practice Lead at Slalom Build, I am fortunate to talk to a wide range of organizations, from smaller mid-market companies all the way to astoundingly large and complex enterprises, all from an equally wide range of industries. There is no doubt about it, Site Reliability Engineering (SRE) is the latest hot topic. These companies are looking to reduce the impact and ri

                        The Many Shapes of Site Reliability Engineering
                      • Google - Site Reliability Engineering

                        What is Site Reliability Engineering (SRE)? SRE is what you get when you treat operations as if it’s a software problem. Our mission is to protect, provide for, and progress the software and systems behind all of Google’s public services — Google Search, Ads, Gmail, Android, YouTube, and App Engine, to name just a few — with an ever-watchful eye on their availability, latency, performance, and cap

                        • Site Reliability Engineering (SRE)  |  Google Cloud

                          Accelerate your digital transformation Whether your business is early in its journey or well on its way to digital transformation, Google Cloud can help solve your toughest challenges.

                            Site Reliability Engineering (SRE)  |  Google Cloud
                          • Site Reliability Engineering for GMO

                            GMOインターネットグループの研修でお話しました。

                              Site Reliability Engineering for GMO
                            • Enterprise Roadmap to SRE - Google - Site Reliability Engineering

                              Google が過去に出版した 2 冊の書籍「Site Reliability Engineering」と「The Site Reliability Workbook」は、サービスライフサイクル全体への取り組みによって、組織がソフトウェアシステムの構築、展開、監視、保守を成功させる方法と理由を示しています。本レポートでは、Google Cloud Reliability Advocate の Steve McGhee と Google Cloud Solutions Architect の James Brookbank が、組織で SRE を導入する際にエンジニアが直面する特定の課題について深く掘り下げています。 SRE の普及にもかかわらず、多くの企業では SRE に対する当初の熱意と、その採用の度合いの間に大きな隔たりが生じています。本レポートは、プロダクトオーナーや信頼性の高いサー

                              • Site Reliability Engineering における 重要領域とパフォーマンス指標の提案 / Performance Indicators for SRE

                                2021/06/04 第8回WebSystemArchitecture研究会(オンライン) https://wsa.connpass.com/event/207143/

                                  Site Reliability Engineering における 重要領域とパフォーマンス指標の提案 / Performance Indicators for SRE
                                • Google Cloud:Site Reliability Engineering(SRE)の基礎についてまとめた | DevelopersIO

                                  Google Cloud Professional DevOps Enginnerの学習にあたり、SRE周りの基礎知識について学習しました。おおよそのターゲットとして初心者の方向けの記事にしており、一部噛み砕いた表現がありますのでご了承ください。 SREとは Site Reliability Engineering(以下SRE)とはGoogle社が提唱するいわばサービスを提供する上でのルールを定義した説明書のようなものです。 開発〜運用までの中で、どのように進めて行けば最もユーザーや開発者にとって有益となるかをまとめた原則とも言い換えられるかもしれません。 またSREと言われるように、Reliability=信頼性こそがサービスを提供する上で最も重要な視点だと考えられています。 また、SREはお客さまへ提供するサービスの品質(全てひっくるめて)の向上を目的とするものであり、かつ提供する側(

                                    Google Cloud:Site Reliability Engineering(SRE)の基礎についてまとめた | DevelopersIO
                                  • Lessons learned from two decades of Site Reliability Engineering

                                    Lessons Learned from Twenty Years of Site Reliability Engineering Or, Eleven things we have learned as Site Reliability Engineers at Google Authors Adrienne Walcer, Kavita Guliani, Mikel Ward, Sunny Hsiao, and Vrai Stacey Contributors Ali Biber, Guy Nadler, Luisa Fearnside, Thomas Holdschick, and Trevor Mattson-Hamilton Foreword A lot can happen in twenty years, especially when you're busy growing

                                    • Site Reliability Engineering on AWS - 20211109 JAWS-UG SRE keynotes

                                      Infrastructure as Code (IaC) 談義 2022Amazon Web Services Japan3.3K views•21 slides 20191029 AWS Black Belt Online Seminar Elastic Load Balancing (ELB)Amazon Web Services Japan67.2K views•83 slides

                                        Site Reliability Engineering on AWS - 20211109 JAWS-UG SRE keynotes
                                      • 開発者とともに作る Site Reliability Engineering / SREing with Developers

                                        SRE NEXT 2023 https://sre-next.dev/2023/schedule/#jp011

                                          開発者とともに作る Site Reliability Engineering / SREing with Developers
                                        • Site Reliability Engineering in the Cloud

                                          SRE in the Cloud Learn how to put SRE principles into practice by leveraging cloud technology. Implement SRE in your organization through tooling, hands-on tutorials, videos, blogs, and other resources. Balance development velocity and reliability Manage reliability and drive alignment between developers and operators with baked-in SRE best practices. Create Service-Level Indicators (SLI), set Ser

                                          • Implementing Site Reliability Engineering in your organization

                                            Implementing Site Reliability Engineering in your organization - Making Culture, Enabling DevOps, Building Platform - Infra Study 2nd #7「SREと組織」 https://forkwell.connpass.com/event/228038/

                                              Implementing Site Reliability Engineering in your organization
                                            • GitHub - bregman-arie/sre-checklist: A checklist of anyone practicing Site Reliability Engineering

                                              Team 👫 Responsibilities Skills Must Optional Processes SRE Team Goals SRE Lead New SRE Team Member Production Requirements Provisioning Installation Deployment Configuration Resiliency Technologies 💻 Git Repositories CI Security Automation Cloud Provisioning Tracking and Monitoring Accounts Resources Reliability Kubernetes Resource Management CI/CD Cluster Management GitOps - ArgoCD Git Reposito

                                                GitHub - bregman-arie/sre-checklist: A checklist of anyone practicing Site Reliability Engineering
                                              • Lessons learned from two decades of Site Reliability Engineering

                                                Lessons Learned from Twenty Years of Site Reliability Engineering Or, Eleven things we have learned as Site Reliability Engineers at Google Authors Adrienne Walcer, Kavita Guliani, Mikel Ward, Sunny Hsiao, and Vrai Stacey Contributors Ali Biber, Guy Nadler, Luisa Fearnside, Thomas Holdschick, and Trevor Mattson-Hamilton Foreword A lot can happen in twenty years, especially when you're busy growing

                                                • Google - Site Reliability Engineering

                                                  Release Engineering Written by Dinah McNutt Edited by Betsy Beyer and Tim Harvey Release engineering is a relatively new and fast-growing discipline of software engineering that can be concisely described as building and delivering software [McN14a]. Release engineers have a solid (if not expert) understanding of source code management, compilers, build configuration languages, automated build too

                                                  • トレンドとなっているSRE(Site Reliability Engineering)とは?従来のDevOpsと何が違う?|コラム|DTS

                                                    トレンドとなっているSRE(Site Reliability Engineering)とは?従来のDevOpsと何が違う? 2020.11.24 従来、システムを開発する役割と運用する役割は「システムの価値を高める」という共通の目標を持っているにもかかわらず、深い溝が生まれる傾向がありました。この問題を解決する考え方としてDevOpsが生まれましたが、このDevOpsを具現化する取り組みであるSREが最近注目されています。 Googleが提唱したSRE(Site Reliability Engineering)とは?SRE(Site Reliability Engineering)とは、Googleが提唱するシステム運用の方法論です。旧来の運用業務は、手順書に沿ってアプリケーションをリリースする、サーバーメンテナンスを行う、ハードウェア障害に対して復旧作業を行うといった、いわばミドル層以下

                                                      トレンドとなっているSRE(Site Reliability Engineering)とは?従来のDevOpsと何が違う?|コラム|DTS
                                                    • SRE (Site Reliability Engineering)からPE (Platform Engineering)へ - OPTiM TECH BLOG

                                                      Platform Engineeringチームの加藤です。PEチームが昨年後半から提供を始めたプラットフォームに1つ目のプロダクトの乗り入れが完了し、PE活動の一つの節目を迎えたため、オプティムにおけるPlatform Engineering活動を紹介します。 PE活動は元SREチームのメンバーが中心となって始めた活動です。そのため SREの振り返り PEチーム発足の経緯 PEの活動 の順で話を進めていきます。 SREの振り返り SREチームは、IoTプラットフォームOPTiM Cloud IoT OSのインフラ開発・運用のメンバーを中心に結成し、2020~2021年度の2年間、オプティムプロダクトの速い・安い・安心を横串で実現することをミッションに活動しました。 SREチームは特定のプロダクトを持たないチームで、 プロダクトを横断的にレビューし 一律に改善する方法を検討し 特定のプロダク

                                                        SRE (Site Reliability Engineering)からPE (Platform Engineering)へ - OPTiM TECH BLOG
                                                      • 【WSA 研】Site Reliability Engineering における重要領域とパフォーマンス指標の提案 - ツナワタリマイライフ

                                                        ずいぶん公開に時間が経ってしまった。6/4 か。。。特に出せなかった理由はない。より「ちゃんとした」形で出したいと思っていたが、そんな日はこないので当時のまま公開する。 WSA 研に初参加し、はじめて自分の身の回りの仕事、SRE の関心対象に対して計測を行なった。当時は本当に手探りであったが、この時泥臭くデータを取り、考察したことが2ヶ月後の今に確実に繋がっている。貴重な機会をくれた WSA研のメンバーに感謝したい。 当日は参加者からたくさんフィードバックをもらえた。その時いただいた意見は今に活きており、より実務に生かすことができている。 修士卒業以来久しぶりに「研究」っぽいことをしたが新鮮で楽しかった。ビジネスと研究、行ったり来たりするのいいかもな、と思った。 本資料は第8回WebSystemArchitecture研究会の予稿です。 以下が当日使ったスライドです。 背景 Site Re

                                                          【WSA 研】Site Reliability Engineering における重要領域とパフォーマンス指標の提案 - ツナワタリマイライフ
                                                        • Anatomy of An Incident - Google - Site Reliability Engineering

                                                          Anatomy of an Incident - Google - Site Reliability Engineering When it comes to system design, failure is inevitable. Scientists and engineers implement solutions based on the available information, without a complete knowledge of the future. You can’t always anticipate the next zero-day event, viral media trend, weather disaster, or shift in technology. But you can be prepared to respond when inc

                                                          • GoogleCloudのSite Reliability Engineeringコースの備忘録 (Coursera/SRE) - Qiita

                                                            GoogleCloudのSite Reliability Engineeringコースの備忘録 (Coursera/SRE)infrastructureインフラcourseraSRESiteReliabilityEngineering はじめに Google Cloudが提供するCourseraのSite Reliability Engineeringコースを修了したので、その備忘録。 受講理由としては、インフラエンジニアとしてはオンプレ〜クラウドと経験してきて、DevOpsもそれなりに携わってきたものの、SREに関してはGoogle本は掻い摘んで読んだりはしてたものの、しっかり学んだことはなかったため、年末年始を利用して学習してみた。という流れ。(ただ、年末年始に全て終えることはできなかったが・・) また受講と並行して、適宜、Googleが無償提供するオンライン書籍を読み進めていった。

                                                              GoogleCloudのSite Reliability Engineeringコースの備忘録 (Coursera/SRE) - Qiita
                                                            • Site Reliability Engineering for Kubernetes

                                                              Over the last 4.5 years, Kubernetes has dramatically improved in terms of usability and it’s now easier than ever to get started with Kubernetes. Cloud providers like Amazon AWS now have managed Kubernetes products that create and manage your clusters for you. This is a huge change compared to rolling your own Kubernetes cluster. One of the most interesting shifts in our industry I have seen over

                                                                Site Reliability Engineering for Kubernetes
                                                              • Scaling Site Reliability Engineering Teams the Right Way | Squadcast

                                                                This blog unpacks everything you need to know about scaling an SRE team like the common indicators, and the steps that need to be taken for scaling your team. The blog uses the People-Process-Tools approach for an effective explanation.

                                                                  Scaling Site Reliability Engineering Teams the Right Way | Squadcast
                                                                • Google - Site Reliability Engineering

                                                                  To realize the full benefits of SRE, organizations need well-thought out reliability targets known as service level objectives (SLOs) that are measured by service level indicators (SLIs), a quantitative measure of an aspect of the service. As examined in this report, these measurable goals set forth in an organization’s SLOs eliminate the conflicts inherent in change management and event handling

                                                                  • Site Reliability Engineering (SRE) 101 with DevOps vs SRE

                                                                    Guest post originally published on the MSys Technologies blog by Sunny Raskar Consider the scenario below An Independent Software Provider (ISV) developed a financial application for a global investment firm that serves global conglomerates, leading central banks, asset managers, broking firms, and governmental bodies. The development strategy for the application encompassed a thought through DevO

                                                                      Site Reliability Engineering (SRE) 101 with DevOps vs SRE
                                                                    • Google - Site Reliability Engineering

                                                                      The Evolving SRE Engagement Model Written by Acacio Cruz and Ashish Bhambhani Edited by Betsy Beyer and Tim Harvey SRE Engagement: What, How, and Why We've discussed in most of the rest of this book what happens when SRE is already in charge of a service. Few services begin their lifecycle enjoying SRE support, so there needs to be a process for evaluating a service, making sure that it merits SRE

                                                                      • 25+ Site Reliability Engineering OKRs – Boost SRE work | SREpath

                                                                        Readme before reviewing the Site Reliability OKRs below Please review these guidelines before you consider adapting the OKRs: Many of the OKRs are ambitious examples – certainly more than what most junior SREs should be given or could handle Most OKRs would be the culmination of efforts by an entire SRE team and not a sole engineer Numbers in the OKRs, e.g. 0.75%, have been created for illustrativ

                                                                        • Google - Site Reliability Engineering

                                                                          Embracing Risk Written by Marc Alvidrez Edited by Kavita Guliani You might expect Google to try to build 100% reliable services—ones that never fail. It turns out that past a certain point, however, increasing reliability is worse for a service (and its users) rather than better! Extreme reliability comes at a cost: maximizing stability limits how fast new features can be developed and how quickly

                                                                          • 「SKILup Festival Japan - Site Reliability Engineering (SRE) DAY -」開催のお知らせ | インフォメーション | トレーニング/研修 | トップアウト ヒューマンキャピタル - Top Out Human Capital -

                                                                            ・13:30-13:35 開催のご挨拶 ・13:35-14:20 Enterprise SRE Adoption at Scale(同時通訳) 組織がSREチームやエンジニアを採用し、規模を拡大し始める中で、企業レベルでの Site Reliability Engineering (SRE) の実践、原則、関係性について紹介します。 また、DevOps Instituteが実施した2022年のGlobal SRE Pulse調査およびレポートから、世界規模でのSREのパターン、活動、メリット、および課題を示すデータも紹介します。 ・14:20-14:35 休憩 ・14:35-15:00 SREとエラーバジェット SREの実践においてエラーバジェットを用いた運用を行うことは必要不可欠です。本セッションではSREがそもそもどのような開発運用手法なのか、そしてその中でエラーバジェットがどのように

                                                                            • スタディサプリ/Quipper オンラインミートアップ#3で How to measure "Site Reliability Engineering" というタイトルで登壇しました - スタディサプリ Product Team Blog

                                                                              こんにちは。SRE の chaspy です。先日オンラインイベントで登壇しました。 quipper.connpass.com 本記事では、その時の発表を完全にブログ化するのではなく、話した内容をベースに、あらためて今我々 SRE Team および開発組織・事業が抱えている課題とその打ち手を説明します。また、当日出た質問への回答も記載します。 抱えていた課題 SLI/SLO を事業レベルで合意できていない Quipper では1年半ほど前に SLI/SLO をプロダクト開発チームに導入し、全てのサービスに SLI/SLO が定義・運用されています。一方で、エラーバジェットポリシーの策定や、SLI/SLO そのものの定期的な見直しができていない点に加えて、Business Developer を含む事業レベルで合意できていないことから、SLO 違反を起こしたときに新規開発と止めて信頼性に投資す

                                                                                スタディサプリ/Quipper オンラインミートアップ#3で How to measure "Site Reliability Engineering" というタイトルで登壇しました - スタディサプリ Product Team Blog
                                                                              • The collection of Site Reliability Engineering(SRE)-related international academic conferences.

                                                                                You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                                  The collection of Site Reliability Engineering(SRE)-related international academic conferences.
                                                                                • songmu on Twitter: "「運用のことを考えながら持続可能な機能開発を最速で行う」という攻防一体のWebアプリケーション開発スタイルは自分の得意とするところだったから、そこで ”Site Reliability Engineering” っていう言葉が出てきたときに凄くしっくりきたんだよな"

                                                                                  「運用のことを考えながら持続可能な機能開発を最速で行う」という攻防一体のWebアプリケーション開発スタイルは自分の得意とするところだったから、そこで ”Site Reliability Engineering” っていう言葉が出てきたときに凄くしっくりきたんだよな

                                                                                    songmu on Twitter: "「運用のことを考えながら持続可能な機能開発を最速で行う」という攻防一体のWebアプリケーション開発スタイルは自分の得意とするところだったから、そこで ”Site Reliability Engineering” っていう言葉が出てきたときに凄くしっくりきたんだよな"