[B! sre] kakku22のブックマーク

Google SRE Book Updates, by Topic

SRE Book Updates, by Topic Click on a chapter thumbnail to see relevant publications, conference talks, and workshops by Google SREs.

kakku22 2023/08/15

sre

リンク

Google - Site Reliability Engineering

kakku22 2023/08/15

sre

リンク

Self-Hosted Cluster から EKS への移行と Platform の Production Readiness - スタディサプリ Product Team Blog

こんにちは。SRE の @chaspy です。 Quipper では AWS 上で Kubernetes Cluster を運用してサービスを提供しています。これまで kube-aws を用いて Kubernetes Cluster を Self Host してきましたが、このたび Managed Services である Amazon EKS に移行しました。（以下、 Amazon EKS を EKS と表記します）本記事では、 Kubernetes Cluster の移行で遭遇した問題をどのように解決したかを説明します。また、数多くの Application が稼働している Platform を移行する際にどのような点を考慮するとよいのか、経験を通して学んだことを共有します。 EKS への移行を検討している方はもちろん、Platform Migration に携わる方にとって学びに

kakku22 2020/08/11

リンク

SRE風のインフラエンジニアにならないために - Work Records

この記事は、SRE Advent Calendar 2018 - Qiitaの24日目として投稿しています。 SRE風のインフラエンジニア SREとDevOps そもそもDevOpsとは SRE本でも取り上げられている、DevとOpsの目的の差異ミクロなDevの目的ミクロなOpsの目的 Ops側の視点での安定性の考え方を改めるシステムを高速に更新可能にしておくことで安定性を担保するインフラエンジニアではなくSREとしてどう高速リリースを実現するかプロダクトの高速リリースに効くところを見極めるリリースするにあたっての心配事を潰す開発チームが自律して動ける仕組みやツールを提供する今の組織でやれていること開発チーム出身の人がSREチームにジョインしてくれている SREチームに入る新人のエンジニアさんもRails研修などを通して最低限の開発力を持っている SREチームのケツを叩い

kakku22 2018/12/25

"class SRE implements DevOps" 良い表現！もう少し「SRE風（ネガティブな意味で）」っぽさが書かれてると思ったけど，そんなことはなかった

sre

リンク

最高のITエンジニアリングを支える守りと攻めの「設計技術」と「SRE」 - Speaker Deck

最高のIT エンジニアリングとは、ユーザーへの価値提供に最大限集中できる状態を維持し続ける技術だと私は考えます。では、その状態を阻害する要因は一体何であり、どうすれば取り除くことができるのでしょうか。このような具体的な問題と向き合い、近年注目されているSRE の考え方を取り入れ、実装しながら乗り越えてきた体験談についてお話します。（HashiCorp ツールの実装、運用自動化など）また、一歩進んだIT エンジニアになるため、実装に留まらない組織的な施策実行の考え方や実際の進め方についてもお伝えします。July Tech Festa 2018 での発表資料です。

kakku22 2018/07/30

かつひささん！モニタリング分類はキレイ！内容もそうだけど，こういう取り組みをうまく言語化して，大きな価値に転換できてるところが素晴らしすぎる

sre

リンク

ウェブシステムの運用自律化に向けた構想 - 第3回ウェブサイエンス研究会 - ゆううきブログ

はてなエンジニア Advent Calendar 2017の2日目です。昨日は、id:syou6162 さんによるAWS Lambda上で鯖(Mackerel)の曖昧性問題を機械学習で解決しよう - yasuhisa's blogでした。この記事は、人工知能学会合同研究会2017 第3回ウェブサイエンス研究会の招待講演の内容を加筆修正したものです。講演のテーマは、「自然現象としてのウェブ」ということでそれに合わせて、「自然のごとく複雑化したウェブシステムの運用自律化に向けて」というタイトルで講演しました。一応、他の情報科学の分野の研究者や技術者に向けて書いているつもりですが、その意図がうまく反映されているかはわかりません。概要 1. ウェブシステムの信頼性を守る仕事 2. ウェブシステム運用の現状国内のウェブシステムの運用技術の変遷クラウド時代コンテナ型仮想化技術サーバ

kakku22 2017/12/08

これすごい．参考文献も気になるものばかりだ

hatena
sre

リンク

SREサイトリライアビリティエンジニアリングを読もう - yoshidashingo

セクションナインの吉田真吾（@yoshidashingo）です。 SRE本の原書が出てから早1年半が経ちました。原書はすでにオンラインで無料で読めるようになっています。 Google - Site Reliability Engineering 前回このブログでSREについて書いたのが、原書の出る1ヶ月くらい前ですね。 yoshidashingo.hatena blog.com 国内でもSRE部署の設置が急速に進んでますが、運用部門をSREと看板を掛け替えただけの劣化コピーが大量生産されていることも否めなかったりなかったり。そもそもSREは、従来のシスアドではなくソフトウェアエンジニアです。そして、開発／運用の分断による必然的な対立関係をインセンティブ設計で統合し、サービスの成長と運用コストが比例しないように切り離すための組織設計であり、そのための技術ノウハウです。今日は今週末発売さ

kakku22 2017/08/12

翻訳版待ってた！さっそく購入した！1人で読むよりも輪読会しながら議論した方が効果ありそう

本
sre

リンク

Books For Site Reliability Engineering

By: Heather Adkins, Betsy Beyer, Paul Blankinship, Ana Oprea, Piotr Lewandowski, Adam Stubblefield Can a system be considered truly reliable if it isn't fundamentally secure? Or can it be considered secure if it's unreliable? Security is crucial to the design and operation of scala ble systems in production, as it plays an important part in product quality, performance, and availability. In this bo

kakku22 2017/01/29

本
sre

リンク

Site::Reliability::Engineering - YAPC::Hakkaido 2016 Sapporo

kakku22 2016/12/12

mercari
sre

リンク

運用の課題をエンジニアリングで解決し、使いやすいものへと洗練していくことがこれからの「インフラエンジニア」の役割－スマートニュース坂本卓巳(takus)氏

kakku22 2016/09/14

"プロダクトを作るインフラエンジニア" って表現が凄く良い

リンク

(レポート)SRE Tech Talks 第1回 #sretalks | DevelopersIO

本記事は2016年7月25日(月)に開催された SRE Tech Talks #1〜Site Reliability Engineeringにまつわるエトセトラ)〜のレポート記事です。 SREは”Site Reliability Engineering”の略です。SREの概念を広めたGoogleでSREチームを作った Ben Treynor Sloss は SRE のことを次のように定義しています。 "Fundamentally, it's what happens when you ask a software engineer to design an operations function” https://landing.google.com/sre/ 日本で SRE の名前が広まったのは Mercari の2015年11月18日の次のブログがきっかけとよく言われます。インフラ

kakku22 2016/08/09

良かった

sre

リンク

Hybrid SERVER Architecture in Mercari

Hybrid SERVER Architecture in Mercari / SRE Tech Talks #1 #sretalks

kakku22 2016/07/26

UK に拠点ができてもスケールできるって凄いなぁ

sre
mercari

リンク

Site Reliability Engineering (SRE)チームとは - yoshidashingo

どうも、セクションナインの吉田真吾（@yoshidashingo）です。はじめにメルカリにおけるSite Reliability Engineering(SRE)チームメルカリSREの定義メルカリでのSREチームの導入経緯メルカリでのSREチームの業務メルカリSREに求める人材像感想：カスタマー目線なチーム Google SRE Site Reliability Engineeringブログ RedditでのGoogle SREたちによるAMA インタビュー : Site Reliability Engineerは世界で最も強烈なピットクルーインタビュー : Site Reliability Engineerは最も面白い問題を解いているサンタモニカのSREチームの発表他社の採用情報 Facebook Netflix sysadmin to SRE まとめはじめに

kakku22 2016/07/19

"すべてのサービスが超安定して超速く稼働するように担保するソフトウェアエンジニア"

sre

リンク

メルカリの大規模システムを安定運用へと導いた『DevOps』とは！？ | dots. CONFERENCE SPRING 2016 | THE LANCER

大規模システムに携わるエンジニア必見！メルカリが導入した安定運用のための技術『DevOps』というバズワードはどこかあいまいで、つかみどころがないと思っている方も多いことでしょう。運用と開発を一体化するという概念に厳密な定義はなく、どのように実務に落とし込めばよいのかが漠然としているからです。しかし、急成長したメルカリの大規模システムを支えるSREという役割を持つエンジニア佐々木健一氏の語る奮闘から、DevOpsの本質が見えてくるのではないでしょうか。DevOpsで実現した大規模システムを安定して運用する仕組み作りをご紹介いたします。テーマ：『メルカリDevOps物語 – 俺たちの戦いはこれからだ -』メルカリDevOps物語ー俺たちの戦いはこれからだーメルカリはサービス開始が2013年と歴史は浅いのですが、アプリが急成長しユーザーが増えて、いろいろ困ったことがあったのでそ