SRE Book Updates, by Topic Click on a chapter thumbnail to see relevant publications, conference talks, and workshops by Google SREs.
こんにちは。SRE の @chaspy です。 Quipper では AWS 上で Kubernetes Cluster を運用してサービスを提供しています。 これまで kube-aws を用いて Kubernetes Cluster を Self Host してきましたが、このたび Managed Services である Amazon EKS に移行しました。(以下、 Amazon EKS を EKS と表記します) 本記事では、 Kubernetes Cluster の移行で遭遇した問題をどのように解決したかを説明します。また、数多くの Application が稼働している Platform を移行する際にどのような点を考慮するとよいのか、経験を通して学んだことを共有します。 EKS への移行を検討している方はもちろん、Platform Migration に携わる方にとって学びに
この記事は、SRE Advent Calendar 2018 - Qiitaの24日目として投稿しています。 SRE風のインフラエンジニア SREとDevOps そもそもDevOpsとは SRE本でも取り上げられている、DevとOpsの目的の差異 ミクロなDevの目的 ミクロなOpsの目的 Ops側の視点での安定性の考え方を改める システムを高速に更新可能にしておくことで安定性を担保する インフラエンジニアではなくSREとしてどう高速リリースを実現するか プロダクトの高速リリースに効くところを見極める リリースするにあたっての心配事を潰す 開発チームが自律して動ける仕組みやツールを提供する 今の組織でやれていること 開発チーム出身の人がSREチームにジョインしてくれている SREチームに入る新人のエンジニアさんもRails研修などを通して最低限の開発力を持っている SREチームのケツを叩い
はてなエンジニア Advent Calendar 2017の2日目です。 昨日は、id:syou6162 さんによるAWS Lambda上で鯖(Mackerel)の曖昧性問題を機械学習で解決しよう - yasuhisa's blogでした。 この記事は、人工知能学会 合同研究会2017 第3回ウェブサイエンス研究会の招待講演の内容を加筆修正したものです。 講演のテーマは、「自然現象としてのウェブ」ということでそれに合わせて、「自然のごとく複雑化したウェブシステムの運用自律化に向けて」というタイトルで講演しました。 一応、他の情報科学の分野の研究者や技術者に向けて書いているつもりですが、その意図がうまく反映されているかはわかりません。 概要 1. ウェブシステムの信頼性を守る仕事 2. ウェブシステム運用の現状 国内のウェブシステムの運用技術の変遷 クラウド時代 コンテナ型仮想化技術 サーバ
セクションナイン の 吉田真吾(@yoshidashingo)です。 SRE本の原書が出てから早1年半が経ちました。原書はすでにオンラインで無料で読めるようになっています。 Google - Site Reliability Engineering 前回このブログでSREについて書いたのが、原書の出る1ヶ月くらい前ですね。 yoshidashingo.hatenablog.com 国内でもSRE部署の設置が急速に進んでますが、運用部門をSREと看板を掛け替えただけの劣化コピーが大量生産されていることも否めなかったりなかったり。 そもそもSREは、従来のシスアドではなくソフトウェアエンジニアです。そして、開発/運用の分断による必然的な対立関係をインセンティブ設計で統合し、サービスの成長と運用コストが比例しないように切り離すための組織設計であり、そのための技術ノウハウです。 今日は今週末発売さ
By: Heather Adkins, Betsy Beyer, Paul Blankinship, Ana Oprea, Piotr Lewandowski, Adam Stubblefield Can a system be considered truly reliable if it isn't fundamentally secure? Or can it be considered secure if it's unreliable? Security is crucial to the design and operation of scalable systems in production, as it plays an important part in product quality, performance, and availability. In this bo
本記事は2016年7月25日(月)に開催された SRE Tech Talks #1〜Site Reliability Engineeringにまつわるエトセトラ)〜 のレポート記事です。 SREは”Site Reliability Engineering”の略です。SREの概念を広めたGoogleでSREチームを作った Ben Treynor Sloss は SRE のことを次のように定義しています。 "Fundamentally, it's what happens when you ask a software engineer to design an operations function” https://landing.google.com/sre/ 日本で SRE の名前が広まったのは Mercari の2015年11月18日の次のブログがきっかけとよく言われます。 インフラ
どうも、セクションナイン の 吉田真吾(@yoshidashingo)です。 はじめに メルカリにおけるSite Reliability Engineering(SRE)チーム メルカリSREの定義 メルカリでのSREチームの導入経緯 メルカリでのSREチームの業務 メルカリSREに求める人材像 感想:カスタマー目線なチーム Google SRE Site Reliability Engineeringブログ RedditでのGoogle SREたちによるAMA インタビュー : Site Reliability Engineerは世界で最も強烈なピットクルー インタビュー : Site Reliability Engineerは最も面白い問題を解いている サンタモニカのSREチームの発表 他社の採用情報 Facebook Netflix sysadmin to SRE まとめ はじめに
大規模システムに携わるエンジニア必見! メルカリが導入した安定運用のための技術『DevOps』というバズワードはどこかあいまいで、つかみどころがないと思っている方も多いことでしょう。運用と開発を一体化するという概念に厳密な定義はなく、どのように実務に落とし込めばよいのかが漠然としているからです。 しかし、急成長したメルカリの大規模システムを支えるSREという役割を持つエンジニア佐々木健一氏の語る奮闘から、DevOpsの本質が見えてくるのではないでしょうか。DevOpsで実現した大規模システムを安定して運用する仕組み作りをご紹介いたします。 テーマ:『メルカリDevOps物語 – 俺たちの戦いはこれからだ -』 メルカリDevOps物語 ー 俺たちの戦いはこれからだ ー メルカリはサービス開始が2013年と歴史は浅いのですが、アプリが急成長しユーザーが増えて、いろいろ困ったことがあったのでそ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く