July Tech Festa 2021 winter E2セッションの資料です ITシステム監視とは何か 監視エンジニアの未来 監視エンジニアのトレーニング 次世代MSPの役割
58日目 これは役立ちそう。 cloudplatform-jp.googleblog.com 実は原文を先に読んでいたが、意味がよくわからなかった(日本語に訳しづらかった)ところがあったので備忘録として残しておこう 初級者チーム リリース プロセス、サービスのセットアップとティアダウン(そして可能ならフェイルオーバー)のためのマニュアルを整備していること 「ティアダウン」ってなんだろう?サービス終了? SRE がプロジェクトの仕事を立案、実施していること(開発者の支持を必要としない運用負担軽減の取り組みなど、開発者から直接見えない部分でもかまいません) project workはそのままプロジェクトの仕事でいいのか SRE の統括責任者(つまり CTO)が審査、承認した SRE チーム憲章 憲章とか日本語でもよくわからない。よく確認しておく 中級者チーム 全体として少量の苦役があること(負
こんにちは、@ueokandeです。早速ですが、皆さんが運用しているサービスには、SLO (Service-level objective: サービスレベル目標) がありますか?アラートの監視項目はどのように設定して、基準値をどのように決めていますか? 社外とのコミュニケーションだけでなく、社内向けのSLOを決めておくことで、サービスの健康状態を知るための手がかりや、普段の開発・運用タスクの優先度を決める上での指標にもなります。 またSLOがあると、サービスを監視するアラートに、理にかなった閾値を設定できます。 この記事ではAWS版kintoneの、SLOとアラートを設定するまでの記録について紹介します。 cybozu.com版kintoneのSLOとアラート 国内のcybozu.comで運用しているkintoneにも、もちろんSLOやアラートはあります。 しかし現状のSLOはkinton
GoogleのSREとSecurityによるBuilding Secure Reliable Systems という本の中で「Zero Touch Production (ZTP) 」という考え方が紹介されていた.これはインフラの権限管理やインフラの構築そのものの指針となる概念であり,自分がそうあるべきだとずっと思ってきた考え方でもある.これはどのような考え方なのか?をこれまでの歴史を踏まえて具体的なツールや事例とともにまとめておく. Zero Touch Production Building Secure Reliable Systems においてZero Touch Production (ZTP) は以下のように定義されている. The SRE organization at Google is working to build upon the concept of least
This is a slide for SRE NEXT 2020 (https://sre-next.dev/). Mercari Microservices Platform Team is building a platform for backend developers to build and run microservices. Currently, in this platform, around 100+ microservices are running and more than 200+ developers are working with. To run this scale of platform, the reliability is really critical. In this talk, I will share how we operate thi
「Jenkins X」発表。Git/Docker/Kubernetesに特化したことでCI/CD環境の構築運用を自動化 ソフトウェアの開発プロセスにおいて、「Jenkins」はビルドやテスト、デプロイなどを自動化してくれるツールとしてよく知られています。 そのJenkinsの派生プロジェクトとして、「Jenkins X」が発表されました。Jenkins Xは、Git、Docker、Kubernetesの環境を前提とすることで、Jenkinsの設定、運用などを大幅に自動化し、より簡単な導入と運用を実現するものです。 Jenkins Xは、Git/Docker/Kubernetes環境に特化 オリジナルのJenkinsは汎用的なビルドやテストの自動化ツールとして、さまざまな環境やツールと連係できるように作られています。そのため柔軟なコンフィグレーションが可能になっていますが、一方でそれが導入や
はじめに CTO兼SREエンジニアリングマネージャーの中野です。ここしばらくの間、CTO/SREエンジニアリングマネージャーとして注力しているKubernetes導入について紹介したいと思います。 今回は、Kubernetes自体がどういうものなのかということより、それをツールとしてどう使い、それでどういう世界を実現したいのかみたいなところを中心に紹介できたらと思います。 まず現在の状況ですが、Quipperでは、大きく分けてスタディサプリの小中高校生向けと日本以外向けの2つのサービスを展開しています。サービスとしての構成はほぼ同じですが、基盤としては別々のAWSアカウントで運営されています。このうち日本国外向け環境では、Kubernetes化がほぼ完了というステータスになっています。目下、スタディサプリも移行中です。 Kubernetes化以前は、Deis(Herokuクローン的なもの)
システムマネジメントサービス部の蝶野です。 運用方法論は9つの「管理項目」で構成されています。 構成管理資産管理性能管理稼動管理変更管理問題管理配布管理回復管理機密管理日常的な運用現場のどんなシーンで、どの管理が必要になるか、具体的な場面を想定して解説しましょう。 新たにシステムを全面的に更新するケースはまれなので、ここでは既に稼動しているシステムのデータを活用し、企業として新しいサービスを顧客に提供しようとした場合にどのような事象が発生するか考え、これに付随してどのような運用管理が発生するのかを述べていきます。 想定シーン新サービスのために顧客インターフェイスとしてインターネットを活用することとした。サーバーは企業PR用のものが既にあったが、これとは別にさらに信頼性の高いものを用意し、24時間×365日稼動させることを目標とした。商品データは既にあるデータベースから抽出するが、顧客データ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く