[B! SRE] yassan0627のブックマーク

SLOをゼロからつくる

tfnotify - Show Terraform execution plan beautifully on GitHub

yassan0627 2023/07/06

運用
SRE

リンク

Start graceful degradation

『障害を前提に準備する』 LINE株式会社 Toshiya Kato(@maruloop https://twitter.com/maruloop ) SRE大集合！みんなで学ぶ、信頼性を高めるための取り組みLT大会 https://findy.connpass.com/event/281605/

yassan0627 2023/06/11

SRE

リンク

SRE vs. DevOps vs. Platform Engineering

Join our community of software engineering leaders and aspirational developers. Always stay in-the-know by getting the most important news and exclusive content delivered fresh to your inbox to learn more about at-scale software development.

yassan0627 2023/01/25

SREとDevOpsとPlatform Engineeringの比較・違い

SRE
DevOps

リンク

[SRE NEXT 2022]増大を続けるYahoo! JAPAN Kubernetesクラスタ群キャパシティ管理のモダン化

SRE NEXT 2022 https://sre-next.dev/2022/ [Speaker] ヤフー株式会社 KaaS SRE 水落啓太 [Description] 増大を続けているヤフーKubernetesクラスタ群（1,000+クラスタ, 400,000+コンテナ）のキャパシティ管理をシステム化し、キャパシティプラニングなどキャパシティに関する運用業務健全化に取り組んだ事例を紹介します。私たちは、ヤフーの各種サービスを支えるプラットフォームとしてKubernetesクラスタを簡単に利用可能とするKaaS (Kubernetes as a Service) を運用するチームです。旧来システムのシステム刷新や、ビジネスの伸びやキャンペーンに伴うシステム拡張といったイベントに応じて、ヤフーKaaSには、Kubernetesクラスタ利用の需要が絶えず生じています。私たちは、Kaa

yassan0627 2022/07/01

この取り組み良いなぁ。

リンク

開発者とSREの役割、責任/SRE Lounge 13 LT

SRE Lounge #13 LT 2021.11.19

yassan0627 2021/11/24

SRE
開発

リンク

どのようにPlatformチームの組織変更をしたか | メルカリエンジニアリング

Platform チームの@deeeeeeeetです． Platform チームは2年前にMercariがMicroservicesの移行を始めたときに一緒に立ち上げられたチームです．Platform チームはMicroservicesを動かすための基盤や開発や運用のためのツールセットなど提供しています．立ち上げ時は自分を含めて2-3人で始まったチームですが2年が経ち10人を超えるチームにまで成長しました．チームのメンバーが増えるほど1チームとして動くには限界がきており，またMicroservices化が進めば進むほどチームの負う責任範囲も広くなりCognitive load (認知負荷) も高くなっていました．これらの課題を解決するために組織変更を行い，Platform チームを複数の専門性に特化したチームに分割しました．本記事ではチームのデザイン，チームが分離しても独立性を保ちつつ

yassan0627 2020/07/16

リンク

Using MLOps to Bring ML to Production/The Promise of MLOps

In this final Weave Online User Group of 2019, David Aronchick asks: have you ever struggled with having different environments to build, train and serve ML models, and how to orchestrate between them? While DevOps and GitOps have made huge traction in recent years, many customers struggle to apply these practices to ML workloads. This talk will focus on the ways MLOps has helped to effectively in

yassan0627 2020/02/03

リンク

最高のITエンジニアリングを支える守りと攻めの「設計技術」と「SRE」 - Speaker Deck

最高のIT エンジニアリングとは、ユーザーへの価値提供に最大限集中できる状態を維持し続ける技術だと私は考えます。では、その状態を阻害する要因は一体何であり、どうすれば取り除くことができるのでしょうか。このような具体的な問題と向き合い、近年注目されているSRE の考え方を取り入れ、実装しながら乗り越えてきた体験談についてお話します。（HashiCorp ツールの実装、運用自動化など）また、一歩進んだIT エンジニアになるため、実装に留まらない組織的な施策実行の考え方や実際の進め方についてもお伝えします。July Tech Festa 2018 での発表資料です。

yassan0627 2020/01/04

リンク

SRE実践の手引 ─ 信頼性をどう制御するか？から始める、現実的な指標と目標の設計と計測 - エンジニアHub｜Webエンジニアのキャリアを考える！

SRE実践の手引 ─ 信頼性をどう制御するか？から始める、現実的な指標と目標の設計と計測 SREの役割には、信頼性、SLIとSLO、エラーバジェット、トイル、ソフトウェアエンジニアリングといった複数のキーワードが存在するがゆえ、なかなかうまく実践できない、という声もあります。本稿では、難しく見られがちなSREの内実を、「信頼性の制御」というコンセプトを軸に整理し、小さく始める一歩を坪内佑樹（ゆううき）さんが解説します。こんにちは。SREの研究者をやっているゆううき（@yuuk1t）です。 SRE（Site Reliability Engineering）は、従来のオペレーションエンジニア、システム管理者（sysadmin）と呼ばれる人々が担っていた技術領域の新しい形です。Googleによって提唱され、日本国内でも2015年ごろからWebコンテンツ事業者のコミュニティを中心に広く知られる

yassan0627 2019/12/05

リンク

Google - Site Reliability Engineering

Written by: Heather Adkins, Betsy Beyer, Paul Blankinship, Ana Oprea, Piotr Lewandowski, Adam Stubblefield Can a system be considered truly reliable if it isn't fundamentally secure? Or can it be considered secure if it's unreliable? Security is crucial to the design and operation of scala ble systems in production, as it plays an important part in product quality, performance, and availability. In

yassan0627 2019/11/20

SRE本の第3版のEarly Release版

SRE

リンク

SREチームの発足 | ランサーズ（Lancers）エンジニアブログ

SREチームの金澤です。 2018年度より、SREチームを発足しました。その経緯をお話ししたいと思います。インフラエンジニアとして私は、2013年11月にランサーズに入社しました。ランサーズ5年目にして、サービスが本格的に伸び始めた時期で、アプリエンジニアが運用を兼務するには荷が重くなり始めており、専任のインフラエンジニアが必要でした。入社後、4年半にわたり、サービスの安定化や負荷対策、最新の技術やサービスへの追従など、様々な施策を実行してきました。スタートアップのインフラエンジニアに求められる仕事は多岐にわたります。時には、サービスのソースコードに手を入れることも度々ありました。また、この時期のランサーズは、開発環境の支援や、社内インフラの整備もできる人材が不足しており、そのような業務もインフラエンジニアである私が担っていました。インフラエンジニア採用の難しさ 2017

yassan0627 2018/07/03

むっちゃ良い話。自分とこも徐々に進歩して行きたい。

リンク

コレ1枚で分かる「SRE（Site Reliability Engineer）」

インフラにおける日々の運用業務は、クラウド事業者に任せられるようになりました。またインフラを使うために必要な設定は、クラウドであればツールやAPI（Application Program Interface）を介して使えるようになり、アプリケーション開発者にもできる時代です。このような仕組みが、先に紹介したインフラを設定する全ての手順をコード化する「インフラストラクチャアズコード」です。こんな時代に運用技術者に求められる役割も大きく変わろうとしています。例えば、これまで求められてきた業務は、次のような内容でした。 ITの実務上の利用方法について問い合わせを受けて対応する窓口業務定められたオペレーションを繰り返し実施する定常業務 ITに関するトラブルに対応する障害対応業務インフラに関する管理業務（構成管理やキャパシティー管理など）このような業務は積極的にクラウドサービスや自動化ツール

yassan0627 2018/04/14

リンク

SLO、SLI、SLA について考える : CRE が現場で学んだこと | Google Cloud 公式ブログ

前回の『CRE が現場で学んだこと』シリーズでは、システムの可用性を担保するにあたってターゲットとする正確な数値をいかにして割り出すか、ということについてお話ししました。このターゲットをシステムのサービスレベル目標（SLO）と呼びます。今後、システムが十分な信頼性を保って稼働しているか、またシステムにどんな設計やアーキテクチャの変更が必要かについて議論する際は、システムが継続的に SLO を満たしているという枠の中で語る必要があります。 SLO の適合性は直接測定することが可能です。システムにおいて精査が成功した頻度で計るのです。これをサービスレベル指標（SLI）といいます。システムが過去 1 週間 SLO を満たしつつ稼働していたかどうかを評価する場合に、SLI からサービスの可用率を把握するのです。定められた SLO を下回っているとなれば問題があるということですから、他の場所に

yassan0627 2017/09/26

SLO、SLI、SLAについて分かりやすかった。

SRE

リンク

SREグループができてこの半年間やってきたこと

SRE Tech Talks #2 XFLAG スタジオにおけるSREの紹介、MySQL, InnoDB, THPのチューニングなど

yassan0627 2017/01/31

リンク

インフラチーム改め Site Reliability Engineering (SRE) チームになりました

インフラチーム改め Site Reliability Engineering (SRE) チームになりました Organization Author: kazeburo インフラチーム改めSite Reliability Engineering チームの @kazeburo です。この記事ではまだ馴染みの薄い Site Reliability Engineer とは何かについて紹介したいと思います。 SREとGoogleのSRE Site Reliability Engineerは日本語にすると「サイト信頼性エンジニア」となりますが、あまりキャッチーではないので普段は略語の「SRE」を使用しています。SREという職種は日本ではあまり聞く事はありませんが、FacebookやAirbnb、Dropboxなどの企業でSREが募集され、それぞれのサービスを支える重要な役割を担っていると思われます。

yassan0627 2016/09/21

SREかぁ。このロールって、技術力も必要何だけど、結構コミュニケーション大事そう。やり甲斐のあって楽しそうやなぁ。

リンク

はてなブックマーク

タグ

関連タグで絞り込む (17)

SREに関するyassan0627のブックマーク (15)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス