並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 8 件 / 8件

新着順 人気順

SREの検索結果1 - 8 件 / 8件

  • 自動生成を活用した、運用保守コストを抑える Error/Alert/Runbook の一元集約管理 / Centralized management of Error/Alert/Runbook to minimize operational costs using automated code generation

    DevOpsDays TOKYO 2024 の登壇資料です。 https://confengine.com/conferences/devopsdays-tokyo-2024/proposal/19703/erroralertrunbook-centralized-management-of-erroralertrunbook-to-minimize-operational-costs-using-automated-code-generation

      自動生成を活用した、運用保守コストを抑える Error/Alert/Runbook の一元集約管理 / Centralized management of Error/Alert/Runbook to minimize operational costs using automated code generation
    • もう一度読むObservability Engineering - じゃあ、おうちで学べる

      はじめに 本書『Observability Engineering』は、複雑化の一途をたどる現代のソフトウェアシステムに立ち向かうための、強力な武器となる一冊であり本稿はその読書感想文です。Observability Engineering を今から知りたい方はもちろん、Observability Engineering の基礎を改めて学びたい方もぜひお読みください。この記事もかなりの長さになるので普通に書籍を読んだほうがいいかもです learning.oreilly.com 「Observability:可観測性」という言葉は、近年ソフトウェアエンジニアリングの世界で大きな注目を集めています。しかし、その概念の本質を理解し、実践に移すことは容易ではありません。 本書は、そのオブザーバビリティについて、その基本的な考え方から、具体的な実装方法、そして組織への適用まで、幅広くかつ深く解説して

        もう一度読むObservability Engineering - じゃあ、おうちで学べる
      • SREとその組織類型

        PHPカンファレンス小田原2024での発表です。 #phpcon_odawara

          SREとその組織類型
        • Mackerel で行った障害対応演習を紹介します - Hatena Developer Blog

          こんにちは、Mackerel チーム SRE の id:heleeen です。 この記事は、はてなの SRE が毎月交代で書いている SRE 連載の4月号で、先月分は id:taxintt さんのサービスの一般公開前からSLI/SLOと向き合うです。 今回は、先日 Mackerel チームで行った障害対応演習で実施した内容と、どのような学びを得たかについて紹介します。 本番障害はできればなくしたいものですが、すべての障害を完全になくし可用性を100%にするのはとても困難です。そのため、障害が発生したときの影響範囲を小さくする仕組みを導入したり、ロールバックを素早く行えるようにしておくなど、影響を抑えるための取り組みが必要になります。 Mackerel では、その一環として、障害対応時のオペレーションの確認やバックアップからの復旧が行えるかの検証などの起きてしまった障害を素早く収束させたり、

            Mackerel で行った障害対応演習を紹介します - Hatena Developer Blog
          • SREに触れて「いろいろやろうぜ」のモードになった - 生涯未熟

            SRE界隈の隅っこでワチャワチャやっているしょっさんです。 今色々やっているコミュニティ活動についてのお話を書き留めておきたいなと思ったので、ここにパパッと書いていきます。 今までについて 今までのコミュニティ活動の関わりについては以下のしずかなインターネットの記事として書きました。 sizu.me そんなこんなで「ゆるSRE勉強会」の運営に関わらせていただいているのですが、せっかく再びコミュニティ活動始めたなら色々やってみっか!ってことで色々走らせてみました。 SRE Magazine SREに関する記事を探すと様々なところに散らばっており、SRE Weeklyみたいな集約された場所があると面白いよな〜ということでエイヤの精神でやってみました。 sre-magazine.net 「るびま」を参考に構成しているWebマガジンなのですが、最近第1号が発刊することができました。で、始めるにあた

              SREに触れて「いろいろやろうぜ」のモードになった - 生涯未熟
            • HashiCorp 製品導入の背景と今後の展望|イオンスマートテクノロジーのDX |AEON TECH HUB

              イオンスマートテクノロジー CTO室SREチームの香西が、「Cloud Native Week 2024冬」に登壇しました。HashiCorp製品導入の背景と今後の展望ということで、HCP Terraformを導入した背景などをまとめています。導入当時に抱えていた課題は何だったのか?HashiCorp製品を活用しながらどのように改善していったか?文末の資料と動画では、HashiCorp Japan・村田氏のプレゼン内容もご覧いただけます。

                HashiCorp 製品導入の背景と今後の展望|イオンスマートテクノロジーのDX |AEON TECH HUB
              • 「コスト削減」というパワーワードに負けずにコストコントロールを素早く進めたい

                この記事は株式会社 X-Tech5 CTOの、ばば(netmarkjp)が書きました。 事業でのコストコントロールは永遠の課題ですね。クラウドサービスのコストコントロールは昨年あたりから特に大きく取り上げられている印象です。 キーワードとしては「コスト削減」や「コスト最適化」がよく使われます。ここではまるっとコストコントロールと呼びます。 わたしはお仕事で色々な会社のSREの実践や体制構築をお手伝いするSREサービスや、SRE/オブザーバビリティの導入・定着支援をしています。 各種クラウドサービスのコストコントロールの機会も多々あるので、その中で得たクラウドサービスのコストコントロールにスムーズに取り組むためのヒントを共有します。 同じ成果なら支出は少ないほうが嬉しい 何をいまさら、という感じかもしれませんが、支出は少ないほうが嬉しいですよね。それはそう。 ただ、この「同じ成果なら」という

                  「コスト削減」というパワーワードに負けずにコストコントロールを素早く進めたい
                • オンコール対応とは?〜現場担当者が語るオンコール対応の不安解消方法を解説!~|インシデント管理プラットフォーム│PagerDuty

                  DevOpsの導入によって、開発エンジニアがサービスの信頼性と可用性に対する責任を負い、オンコール対応に携わるようになりました。オンコールは重要な職務ですが、精神的な負荷が大きいため不安を感じる方も多く、いわゆる「燃え尽き症候群」に陥る方も生じます。 そこで今回は、PagerDutyコミュニティのメンバーから寄せられた、オンコール対応の不安を取り除く方法や、オンコールローテーションに臨む際のアドバイスをご紹介します。ぜひ、今後の参考にしてください! インシデント管理における「オンコール対応の重要性」オンコールとは、勤務時間外を含めて緊急対応が必要なインシデントに対応できるように、対応者や担当時間を決めておく仕組みです。 現在は、24時間365日稼働が前提となるシステムが多いなか、サービスの信頼性を守るには迅速なインシデント対応が求められます。仮にサービスが停止することになれば、機会喪失や顧

                    オンコール対応とは?〜現場担当者が語るオンコール対応の不安解消方法を解説!~|インシデント管理プラットフォーム│PagerDuty
                  1