タグ

reliabilityに関するvanbraamのブックマーク (5)

  • Zero Touch Productionとは何か

    GoogleのSREとSecurityによるBuilding Secure Reliable Systems というの中で「Zero Touch Production (ZTP) 」という考え方が紹介されていた.これはインフラの権限管理やインフラの構築そのものの指針となる概念であり,自分がそうあるべきだとずっと思ってきた考え方でもある.これはどのような考え方なのか?をこれまでの歴史を踏まえて具体的なツールや事例とともにまとめておく. Zero Touch Production Building Secure Reliable Systems においてZero Touch Production (ZTP) は以下のように定義されている. The SRE organization at Google is working to build upon the concept of least

    vanbraam
    vanbraam 2020/10/17
    「sshしたら負け」という話は,ChefやAnsibleが流行った頃から言われ出していて(所謂Immutable Infrastructure, 以下II), Docker/k8sの時代にはそれが当然になった様に思う.ZTPはIIの言い換えとも感じるが,記事中にはIIへの言及がない
  • SREによる構成変更がGmailなど広範囲な障害の引き金に。3月13日に発生した障害についてGoogleが報告

    SREによる構成変更がGmailなど広範囲な障害の引き金に。3月13日に発生した障害についてGoogleが報告 3月13日の11時53分から15時13分(いずれも日時間)までの3時間20分のあいだ、GmailやGoogle Drive、Google Photos、Google Storage、App EngineのBlobstore APIなどGoogleの広範囲なサービスで一部の機能が利用できなくなる、あるいは遅延が発生するなどの障害が発生しました。 その原因と対策について、Googleが「Google Cloud Status Dashboardのインシデント#19002」として報告しています。 報告では障害の原因が、ストレージ内のリソースを削減しようとしたSRE(Site Reliability Engineer)による構成変更にあったと説明。 SRE(Site Reliabili

    SREによる構成変更がGmailなど広範囲な障害の引き金に。3月13日に発生した障害についてGoogleが報告
    vanbraam
    vanbraam 2019/03/18
    SREは100%のavailabilityを保証するものではない.妥当な範囲でリスクを取る事を目指すもの.そこがわかってない人の言う"SRE"は危うい
  • CRE という仕事の話し - builderscon tokyo 2018

    Abstract GoogleCRE = Customer Reliability Engineering(顧客信頼性エンジニアリング) というタイトルを提起してから 2 年ほど経ちました。それ以降、主に Web を主にした各企業が CRE を設立し、広く知られるようになってきました。Google が提起する以前、また、クラウドが登場する前からも、プリセールスや技術営業、プロアクティブサポート等と呼ばれる役職がその役割を担っていましたが、その活動内容や提供できる価値は、各社、各部署によって大きく異なります。 このセッションでは、自身の CRE、プロアクティブサポートの立場で得た知見や会社の体制から、なぜ CRE が必要なのか、CRE が提供できる価値、CRE 自身の評価等をお話しする予定です。 問題提起と考察 CRE は顧客とのリレーションの確立を図り、顧客の課題を十分に認識した上で

    CRE という仕事の話し - builderscon tokyo 2018
    vanbraam
    vanbraam 2018/07/02
    SREだとブクマが付くが,CREだと余り付かない不思議.CREの方が身近な職種なのに.ブクマカーもbuzzwordだけ見てる人が多い事の証左かな?
  • 第9回 努力する気のない顧客は来なくていい ―Googleがクラウドビジネスで提唱するSRE/CREという概念 | gihyo.jp

    IT Cutting Edge ─世界を変えるテクノロジの最前線 第9回努力する気のない顧客は来なくていい ―Googleがクラウドビジネスで提唱するSRE/CREという概念 7月のリリース以来、今もなお世界中で多くのプレイヤーをとりこにし、社会現象にまで発展したスマホの位置情報ゲーム「Pokémon GO⁠」⁠。筆者はたまたまニューヨークでとあるカンファレンスを取材中にそのローンチのニュースを耳にしたのですが、コンシューマのみならずエンタープライズ業界においても「Pokémon GOこそは新しいイノベーションだ!」と熱く語るIT関係者が多かったことに驚きを覚えました。実際、Pokémon GOの成功は、オリジナルコンテンツの魅力に加え、ゲームのバックボーンを構築したGoogle派生のベンチャー企業であるNianticの技術力に大きく依存しています。 GoogleからフォークしたNiant

    第9回 努力する気のない顧客は来なくていい ―Googleがクラウドビジネスで提唱するSRE/CREという概念 | gihyo.jp
    vanbraam
    vanbraam 2016/10/22
    "自分たちで努力する意思をもつ企業でなければ,CREを利用するに値しない"<正しいと思う.ただAWSにおけるAmazonの対応は基本"SLA読め"でそれ以上の事はやらないので,下地はあった気がする.Googleは1歩踏み込んだ印象
  • Google の新しい専門職 : CRE が必要な理由

    Google Cloud Platform (Google App Engine, Compute Engine, BigQuery や Container Engine など)の情報の日公式ブログ

    Google の新しい専門職 : CRE が必要な理由
    vanbraam
    vanbraam 2016/10/20
    エラー予算=1-"SLAの可用性".サービス提供者の「信頼性やセキュリティは100%でなければならない」という非現実的な信仰を抱いている日本の一部顧客には受け入れられない考えだろう.その信仰とともに滅びれば良いと思う
  • 1