並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 11 件 / 11件

新着順 人気順

SREの検索結果1 - 11 件 / 11件

  • オブザーバビリティ研修実践編

    株式会社サイバーエージェント AI事業本部 2024年度エンジニア新卒研修 オブザーバビリティ研修実践編(一部社内向けの内容)

      オブザーバビリティ研修実践編
    • さくらインターネットで活躍中の id:y_uukiを訪問 | はてな卒業生訪問企画 [#9] - Hatena Developer Blog

      こんにちは、エンジニアリングマネージャーの id:onk です。 Hatena Developer Blogの連載企画「卒業生訪問インタビュー」では、創業からはてなの開発に関わってきた取締役の id:onishi、CTOの id:motemen、エンジニアリングマネージャーの id:onkが、いま会いたい元はてなスタッフを訪問してお話を伺っていきます。 id:onkが担当する第9回のゲストは、さくらインターネット株式会社の組織内研究所であるさくらインターネット研究所の上級研究員で、SRE (Site Reliability Engineering)の研究者としても活躍する id:y_uuki さんこと、坪内佑樹さんです。 2013年にはてなに新卒でWebオペレーションエンジニアとして入社後、サーバー監視サービス「Mackerel」をはじめとするサービス開発やはてなのインフラ開発・運用にSR

        さくらインターネットで活躍中の id:y_uukiを訪問 | はてな卒業生訪問企画 [#9] - Hatena Developer Blog
      • もう一度読むObservability Engineering - じゃあ、おうちで学べる

        はじめに 本書『Observability Engineering』は、複雑化の一途をたどる現代のソフトウェアシステムに立ち向かうための、強力な武器となる一冊であり本稿はその読書感想文です。Observability Engineering を今から知りたい方はもちろん、Observability Engineering の基礎を改めて学びたい方もぜひお読みください。この記事もかなりの長さになるので普通に書籍を読んだほうがいいかもです learning.oreilly.com 「Observability:可観測性」という言葉は、近年ソフトウェアエンジニアリングの世界で大きな注目を集めています。しかし、その概念の本質を理解し、実践に移すことは容易ではありません。 本書は、そのオブザーバビリティについて、その基本的な考え方から、具体的な実装方法、そして組織への適用まで、幅広くかつ深く解説して

          もう一度読むObservability Engineering - じゃあ、おうちで学べる
        • SLOいつ決めましょう?

          第3木曜LT会というイベントの「SREどうでしょう」という会でSLOはいつ決めたらよいか?自分なりに考えた結果を発表したLT資料 https://metaps.connpass.com/event/313921/

            SLOいつ決めましょう?
          • Mackerel で行った障害対応演習を紹介します - Hatena Developer Blog

            こんにちは、Mackerel チーム SRE の id:heleeen です。 この記事は、はてなの SRE が毎月交代で書いている SRE 連載の4月号で、先月分は id:taxintt さんのサービスの一般公開前からSLI/SLOと向き合うです。 今回は、先日 Mackerel チームで行った障害対応演習で実施した内容と、どのような学びを得たかについて紹介します。 本番障害はできればなくしたいものですが、すべての障害を完全になくし可用性を100%にするのはとても困難です。そのため、障害が発生したときの影響範囲を小さくする仕組みを導入したり、ロールバックを素早く行えるようにしておくなど、影響を抑えるための取り組みが必要になります。 Mackerel では、その一環として、障害対応時のオペレーションの確認やバックアップからの復旧が行えるかの検証などの起きてしまった障害を素早く収束させたり、

              Mackerel で行った障害対応演習を紹介します - Hatena Developer Blog
            • 「春のSREまつり2024 〜OpenTelemetry活用すべて見せます〜」を開催しました - Pepabo Tech Portal

              新緑の候、どこまでも澄んだ空気が視界を広げるように、システムの透明性が深い洞察を可能にしていることと存じます。技術部プラットフォームグループのそめやポチです。 2024年5月9日に、「Pepabo Tech Conference #22 春のSREまつり」と題した技術イベントを開催しました。「SREまつり」とは、ペパボのエンジニアたちがSREについての知見を発信することで、社外のSREコミュニティとの交流を図るイベントです。 昨年の春のSREまつり、夏のSREまつりに続いて、3回目の開催となりました。恒例イベントとして社内外に定着しつつあると感じています。 イベントは、物理会場とライブ配信会場の2つの会場で開催しました。物理会場は、シナジーカフェGMO Yours・フクラスという、GMOインターネットグループのカフェスペースを使用しました。ライブ配信会場は、YouTube Liveを使用し

                「春のSREまつり2024 〜OpenTelemetry活用すべて見せます〜」を開催しました - Pepabo Tech Portal
              • HashiCorp 製品導入の背景と今後の展望|イオンスマートテクノロジーのDX |AEON TECH HUB

                イオンスマートテクノロジー CTO室SREチームの香西が、「Cloud Native Week 2024冬」に登壇しました。HashiCorp製品導入の背景と今後の展望ということで、HCP Terraformを導入した背景などをまとめています。導入当時に抱えていた課題は何だったのか?HashiCorp製品を活用しながらどのように改善していったか?文末の資料と動画では、HashiCorp Japan・村田氏のプレゼン内容もご覧いただけます。

                  HashiCorp 製品導入の背景と今後の展望|イオンスマートテクノロジーのDX |AEON TECH HUB
                • SREが明かす!システム監視における動的閾値設定の適応例 / 開発者向けブログ・イベント | GMO Developers

                  お疲れ様です。技術ブログを久しぶりに投稿します。SREチームのキム・ドンヒョンです。 SREチームは、信頼性の高いシステムを提供するため、様々な活動を通じてシステムをサポートしています。その中でもシステムの監視と通知活動は、SREチームの重要な業務の一つです。今回は、サービスの安定性を確保するための重要な活動の一つである閾値設定について詳しく説明します。 基本的な監視と閾値設定 基本的なシステムの監視は、システムのパフォーマンスが特定の閾値を超えたり下回ったりしたときに警告を発することです。こうした監視により、システムは自己フィードバックを受けて安定した正常状態を保つことができます。例えば、エアコンのように室内温度を一定に保つ必要があるシステムでは、温度が一定の範囲を外れるとイベントを発生させたり、必要な動作を行ったりしてシステムの安定性を維持します。このような閾値設定は、システムの特性に

                  • 「コスト削減」というパワーワードに負けずにコストコントロールを素早く進めたい

                    この記事は株式会社 X-Tech5 CTOの、ばば(netmarkjp)が書きました。 事業でのコストコントロールは永遠の課題ですね。クラウドサービスのコストコントロールは昨年あたりから特に大きく取り上げられている印象です。 キーワードとしては「コスト削減」や「コスト最適化」がよく使われます。ここではまるっとコストコントロールと呼びます。 わたしはお仕事で色々な会社のSREの実践や体制構築をお手伝いするSREサービスや、SRE/オブザーバビリティの導入・定着支援をしています。 各種クラウドサービスのコストコントロールの機会も多々あるので、その中で得たクラウドサービスのコストコントロールにスムーズに取り組むためのヒントを共有します。 同じ成果なら支出は少ないほうが嬉しい 何をいまさら、という感じかもしれませんが、支出は少ないほうが嬉しいですよね。それはそう。 ただ、この「同じ成果なら」という

                      「コスト削減」というパワーワードに負けずにコストコントロールを素早く進めたい
                    • オンコール対応とは?〜現場担当者が語るオンコール対応の不安解消方法を解説!~|インシデント管理プラットフォーム│PagerDuty

                      DevOpsの導入によって、開発エンジニアがサービスの信頼性と可用性に対する責任を負い、オンコール対応に携わるようになりました。オンコールは重要な職務ですが、精神的な負荷が大きいため不安を感じる方も多く、いわゆる「燃え尽き症候群」に陥る方も生じます。 そこで今回は、PagerDutyコミュニティのメンバーから寄せられた、オンコール対応の不安を取り除く方法や、オンコールローテーションに臨む際のアドバイスをご紹介します。ぜひ、今後の参考にしてください! インシデント管理における「オンコール対応の重要性」オンコールとは、勤務時間外を含めて緊急対応が必要なインシデントに対応できるように、対応者や担当時間を決めておく仕組みです。 現在は、24時間365日稼働が前提となるシステムが多いなか、サービスの信頼性を守るには迅速なインシデント対応が求められます。仮にサービスが停止することになれば、機会喪失や顧

                        オンコール対応とは?〜現場担当者が語るオンコール対応の不安解消方法を解説!~|インシデント管理プラットフォーム│PagerDuty
                      • 教科書を読んだだけでは分からないSRE推進の取り組みを公開!──SHIFT・X-Tech5・NTTデータのエンジニアが語った事例も紹介 - TECH PLAY Magazine

                        Google社が提唱したITシステムの構築や運用のアプローチ方法であるSRE。導入する企業も増えてきた一方で、期待する効果が得られていない企業も少なくない。そこで今回は、SHIFT、X-Tech5、NTTデータのエンジニアに、導入事例を交えながら、SREの推進・定着・効果などについて語ってもらった。 SREsのためのSRE定着ガイド──X-Tech5 株式会社X-Tech5 取締役CTO 馬場 俊彰氏 最初に登壇したのは、X-Tech5の馬場俊彰氏だ。システムの運用フェーズに携わること、特にモニタリング、オブザーバビリティ、パフォーマンスチューニングが大好きだというCTO馬場氏。iCARE社の技術顧問も務め、専門領域に関する著書を多数上梓している。 馬場氏はまず「SRE(Site Reliability Engineering)とは何か」を関連本を紹介しながら、こう述べた。 「SREはDe

                          教科書を読んだだけでは分からないSRE推進の取り組みを公開!──SHIFT・X-Tech5・NTTデータのエンジニアが語った事例も紹介 - TECH PLAY Magazine
                        1