並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 123件

新着順 人気順

SREの検索結果1 - 40 件 / 123件

  • 2024年に読んだほうがいいエンジニアな書籍10冊+α - CloudとSREそしてキャリア本 - Lean Baseball

    Google Cloud Partner Top Engineer 2024を頂いた者です. 仕事はエンジニア系のコンサルとSRE, 趣味(と前職以前の仕事)で機械学習や生成AI*1をやっとります. この記事は当ブログの名物かつ人気シリーズである, 主に技術書を中心としたオススメ書籍(元々はPython本メイン)の紹介エントリーです. ※去年の記事はこちら. 本年のこのエントリーは, 2024年の推し本4冊 CloudおよびSREな4冊 いい感じな技術書2冊 この三本立て(+私の完全なる趣味チョイスで数冊)でご紹介できればと思います. というわけで, 本年のラインナップは以下の通りです. この記事の著者 2024年の推し技術書10冊 特に推したい4冊 クラウドストラテジー 世界一流エンジニアの思考法 仕事に役立つ新・必修科目「情報Ⅰ」 キャリアづくりの教科書 CloudおよびSREな4冊

      2024年に読んだほうがいいエンジニアな書籍10冊+α - CloudとSREそしてキャリア本 - Lean Baseball
    • SREはインフラエンジニアだけでなく、みんなの活動 - ytake blog

      みなさんSREしてますか? サービスなどの品質を維持していくために切っても切り離せないSREですが、 日本でもSREという言葉が定着しつつあるかと思います。 このSREについて書いていきたいと思います。 SRE NextのCFP忘れてたのでその代わりに・・ SREってインフラですよね? 非常によくあるケース、というか多分ほとんどがこうなっていると思います。 もちろん会社としてインフラのことを指しても問題はありませんが、 SREとはどういうものなのか、正しく認識して今一度現状を振り返ることで さらに良い活動に繋がることが多いと思います。 なんのこっちゃ、という方も多いかもしれません。 SREはエラーバジェットなどの話が必ず出てきますので、 モニタリングや監視などが必ずセットにはなっていきます。 ですが、この部分が強調されているのかどうしてもインフラエンジニアでしょ、 というのが定着している場

        SREはインフラエンジニアだけでなく、みんなの活動 - ytake blog
      • このSRE本がすごい!2024年版 - じゃあ、おうちで学べる

        はじめに 有用な知識の特性 Google SRE リソース Site Reliability Engineering: How Google Runs Production Systems The Site Reliability Workbook: Practical Ways to Implement SRE Building Secure and Reliable Systems: Best Practices for Designing, Implementing, and Maintaining Systems SLO Adoption and Usage in SRE Creating a Production Launch Plan Training Site Reliability Engineers: What Your Organization Needs to Cre

          このSRE本がすごい!2024年版 - じゃあ、おうちで学べる
        • 限られた人数で MIXI のあらゆる公式サイト群を保守・運用する ノウハウとその体制 | MIXI SRE秋祭り 〜 MIXIのもうひとつのSRE 〜

          2023年10月31日に株式会社MIXIで行われた「MIXI SRE秋祭り 〜 MIXIのもうひとつのSRE 〜」での発表資料です。 イベントページ https://mixi.connpass.com/event/299121/ ─────────────── MIXIのSREは、サービスの信頼性に直接関わる負荷やコスト、システムの信頼性などをサービス開発と密接に連携しながら取り組むようなSREと、社内の共通課題やスポットで相談された事業などへの技術支援など、全社的なサービスの信頼性に関わるありとあらゆることに取り組むSREがいます。 本イベントでは、後者の全社的なサービスの信頼性に関わるSREから、最近の取り組み事例を紹介させていただき、Q&Aの時間などを通して、ご参加の皆様と共に情報交換ができれば幸いです。 ◎こんな方におすすめ◎ ・SREとしてサイト信頼性だけでなく、企画や事業開発な

            限られた人数で MIXI のあらゆる公式サイト群を保守・運用する ノウハウとその体制 | MIXI SRE秋祭り 〜 MIXIのもうひとつのSRE 〜
          • “LLM for SRE“の世界探索 - ゆううきブログ

            ChatGPTが登場した当初、対話や要約、翻訳、コード生成などの典型的な言語タスクができても、SREやAIOpsの研究開発にはあまり関係ないのではないかと正直思っていた。AIOpsでは典型的にはいわゆるObservabilityデータ(メトリクス、ログ、トレースなど)が入力となるため、自然言語ではなく数値のデータを解析することが求められる。自然言語のタスクを研究対象としていなかったため、AIOpsとChatGPTに強い関係性は見いだせなかった*1。 しかし、自分で大規模言語モデル(Large Language Model: LLM)を日常的に使用したり、表題にあるようにSREのためのLLM(LLM for SRE, LLM4SRE)に関する論文を読むうちに、LLMのテキスト生成器としての性質よりもその優れた推論機械としての性質に注目するようになった。特にSREの障害診断は、人間の専門家が推

              “LLM for SRE“の世界探索 - ゆううきブログ
            • インフラエンジニアはSREではないし、SREとPlatform Engineeringも別物 - inductor's blog

              インフラエンジニアの肩書きをSREに変えるタイプの組織変更は近いところから遠いところまでいろんなところで見かけてるんだけど、改めてそれって名前変えただけじゃないよね?って問いかけは個人が組織に、組織が個人にそれぞれ相互でした方がいいと思う。 インフラエンジニアって言葉もまあ定義が死ぬほど広くてどこからどこまで指すのってのは組織によって違うね大変だねって話ではあるんだけど、SRE(Site Reliability Engineering)やPE(Platform Engineering)はインフラと必ずしも対応関係にあるわけではないんだよな。 Platformってのは言ってしまえば会社のエンジニア組織の中で自分達に最適化された基盤を作る人たちの集合体とそのプロダクトそのものを指していて、Platform Engineering組織の中には当然フロントエンドエンジニアやデザイナー、プロダクトオ

                インフラエンジニアはSREではないし、SREとPlatform Engineeringも別物 - inductor's blog
              • エンジニアのためのSRE論文への招待 - SRE NEXT 2023 - ゆううきブログ

                この記事では、2023年9月29日に開催されたSRE NEXT 2023 IN TOKYOでの講演の概要に加えて、講演では触れられなかった部分の補足と、発表を終えての後記、最後にSRE NEXT全体の感想を書きました。 SRE NEXT 2020の基調講演に招いていただいたところから始まり、昨年のSRE NEXT 2022の公募セッションでも発表し、今回で3回目の発表になりました。今回の講演は、SRE NEXTの「NEXT」と価値観の一つである「Diversity」を踏まえて、自身のエンジニアと研究者の両方の経験を活かして、SREを深く実践する上で、技術論文を探して読むアプローチを提示するものです。昨今の国内のSREコミュニティでは組織的実践に主な関心が移っている状況と対比させて、コンピュータサイエンスに基づく技術的挑戦の可能性を示唆する意欲的な講演を目指したつもりです。 この講演での主要

                  エンジニアのためのSRE論文への招待 - SRE NEXT 2023 - ゆううきブログ
                • 「Datadog入れてみたらAWSの料金が爆発した話」@ゆるSRE勉強会 #1

                  ゆるSRE勉強会 #1 でお話しさせて頂いたLTの資料です! https://yuru-sre.connpass.com/event/292063/

                    「Datadog入れてみたらAWSの料金が爆発した話」@ゆるSRE勉強会 #1
                  • Terraformを使って学ぶーAWSにインフラを構築するIaCの基本と、SREが実務で役立つ機能とエコシステムを徹底解説|ハイクラス転職・求人情報サイト AMBI(アンビ)

                    ハイクラス求人TOPIT記事一覧Terraformを使って学ぶーAWSにインフラを構築するIaCの基本と、SREが実務で役立つ機能とエコシステムを徹底解説 Terraformを使って学ぶーAWSにインフラを構築するIaCの基本と、SREが実務で役立つ機能とエコシステムを徹底解説 Terraformは、パブリッククラウドのインフラ構築と自動化のツールとして、IaCのデファクトスタンダードとなっています。この記事では、AWS(Amazon Web Services)を活用するハンズオンを通してTerraformの動作を理解し、実務にもとづいて役立つ機能や便利なエコシステム、さらにSRE視点の事例を紹介します。アソビュー株式会社でSREユニットリーダーを務める鈴木剛志さんを中心に6名のメンバーによる共同執筆です。 アイキャッチ画像 アソビューでは、インフラストラクチャーの変更管理にTerrafo

                      Terraformを使って学ぶーAWSにインフラを構築するIaCの基本と、SREが実務で役立つ機能とエコシステムを徹底解説|ハイクラス転職・求人情報サイト AMBI(アンビ)
                    • SREこのへんで苦戦しがちじゃないですか?

                      登壇資料 SRE立ち上げてどうなった?最新のコア技術とSRE事情 Lunch LT https://findy.connpass.com/event/305677/ ハッシュタグ :#SRE_findy

                        SREこのへんで苦戦しがちじゃないですか?
                      • SRE Magazine - 001号(2024/04/01)

                        巻頭言:SRE Magazineを始めました 書いた人:しょっさん( @syossan27 ) SRE Magazineの発刊についての想いなどを書いてます。 ばばさんがお勧めする「SRE入門」と「SRE入門の入門」に効く書籍や文章 書いた人:ばば/netmarkjp さん( @netmarkjp ) SRE入門に効く書籍や文章を紹介しています。 非常時の可用性をフィーチャーフラグで保つアイディア 書いた人:iwamot さん( @iwamot ) アクセス急増などの非常時でも可用性を保つ手法に「緊急レバー」があります。この記事では、緊急レバーの実装にフィーチャーフラグを用いるアイディアを提示します。 SIEMってサイトの信頼性向上に寄与するの? 書いた人:Yuta Kawasaki(ゆーた)さん( @yuta_k0911 ) SIEM on Amazon OpenSearch Servi

                          SRE Magazine - 001号(2024/04/01)
                        • SREエンジニアが組織改善プロジェクトを立ち上げてみた - ぐるなびをちょっと良くするエンジニアブログ

                          こんにちは。データ・AI戦略部 SREチームの小野です。普段は部内のシステムに対し、SRE推進活動を行っています。直近では、データエンジニアと協力してデータ基盤周りの改善に取り組んでいます。 <SREの主な仕事> IaC化(Terraform/Terraform Cloud Business)の導入・推進 SLI/SLOの導入・推進 ポストモーテムの導入・推進 アプリケーションデプロイ基盤の導入・推進 ツールやAPIの設計・開発 インフラ設計・開発・運用 トイル削除・システムの自動化 データ基盤改善 一般的なSREエンジニアは、インフラ関連の業務が中心になると思います。しかし、データ・AI戦略部のSREチームは、開発を含めた幅広い仕事をします。やりたいことがあり、手をあげればそれを後押ししてくれる雰囲気の職場です。 今回は、SREエンジニアである私が、組織改善プロジェクトを立ち上げた話をお

                            SREエンジニアが組織改善プロジェクトを立ち上げてみた - ぐるなびをちょっと良くするエンジニアブログ
                          • SRE座談会 - 株式会社はてな

                            はてなでは、さまざまなチームのSRE(Site Reliability Engineer)が横断的に集まり、技術的な標準化を通じて社内の各チームのSREを支える活動を行っています。チームごとの具体的な取り組みについて、CTOのid:motemenと、SREのid:masayosu、id:taxintt、id:cohalzの3人に語ってもらいました。 はてなのSREが取り組む社内技術の標準化とはまずはみなさんの自己紹介、チームでの役割を教えてください。

                              SRE座談会 - 株式会社はてな
                            • SREチームがNew Relicを使って AWSコスト最適化に貢献した話 | ドクセル

                              SREチームがNew Relicを使って AWSコスト最適化に貢献した話 株式会社ニューズピックス 安藤 裕紀 NRUG (New Relic User Group) SRE支部 Vol.3 - 2023.6.27(Tue)

                                SREチームがNew Relicを使って AWSコスト最適化に貢献した話 | ドクセル
                              • SRE Technology Map

                                サイバーエージェントは創業来、インターネット産業の拡大とともに事業成長を続けてきました。またそれと同時に、SRE領域へも注力してきました。SRE Technology Mapは、サイバーエージェントのSREチームの取り組みを知ってもらうことを期待して製作しています。 Developer Experts of SRE 柘植 翔太 Shota Tsuge サイバーエージェントが提供する幅広い事業サービスの信頼性向上に、私達SREsは日々取り組んでいます。事業領域や事業フェーズ、組織規模が異なれば、SREsのアプローチも違ってきます。それぞれのSRE組織が、様々な課題解決に取り組んだことによって得られた知見や考え方などを多くの人に知ってもらいたいと考え、「SRE Technology Map」を作成しました。 「SRE Technology Map」を通して、少しでもサイバーエージェントに興味を

                                  SRE Technology Map
                                • テックタッチにおけるSREの役割・課題感を紹介します - Techtouch Developers Blog

                                  テックタッチという会社・サービス テックタッチの SRE チーム 何をやっているの インフラエンジニアというよりもソフトウェアエンジニア 課題感 SREチームの活動 - 大きなサイクル・小さなサイクル コミュニケーション 技術スタック・ツール 終わりに こんにちは。SRE の roki です。暑い日はまだあるものの、朝はすっかり秋を感じるようになり子どもたちが登校しやすくなってホッとしている今日このごろです。 この記事では、テックタッチという会社・サービスに触れつつ、SRE チームの働く環境や課題感を共有しながらチームの紹介をしていきます。興味を持っていただけたらぜひお声がけください。カジュアルに話し合う場を設けさせてもらっており、採用情報ページにて受け付けています。 テックタッチという会社・サービス テックタッチでは、社名と同じ「テックタッチ」という名前のサービスを運営しています。どのよ

                                    テックタッチにおけるSREの役割・課題感を紹介します - Techtouch Developers Blog
                                  • なれる!SRE - Becoming SREで学んだこと - じゃあ、おうちで学べる

                                    はじめに エンジニアとして就職する前に読んだ「なれる!SE 2週間でわかる?SE入門」の内容があまりにも厳しく、業界に就職するのが怖くなったことを覚えています。本の中に登場する中学生の少女にしか見えない凄腕のSE、室見立華さんのような人物は現実には存在しないでしょうが、実際の業界には彼女のような凄腕エンジニアや年齢不相応な技術力を持つ人間も確かに存在します。 なれる!SE 2週間でわかる?SE入門 (電撃文庫) 作者:夏海 公司,IxyKADOKAWAAmazon SREの探求『Becoming SRE』の内容紹介 私は「なれる!SE」が好きすぎるあまり、「なれる!SRE」というタイトルのクソみたいな文章を吐き出したこともありましたが、そのクオリティがあまりにも低かったため、外には公開せずに留めておきました。そんな中、SREの探求の原著者であるDavid Blank-Edelman(ott

                                      なれる!SRE - Becoming SREで学んだこと - じゃあ、おうちで学べる
                                    • SREがカバー株式会社に入社して3ヶ月でおこなったこと|カバー株式会社 公式note

                                      こんやっぴー👾 カバー株式会社 技術開発本部のSです。カバー株式会社では組織横断的にSRE(Site Reliability Engineering)やサーバーサイドのエンジニアをしています。 2023年5月に入社し3ヶ月ほどホロプラスのパフォーマンスチューニングや開発環境の整備をしてきましたので、今回はそちらについてご説明します。 ホロプラスとは?ホロプラスは「推しをもっと好きになる!」がコンセプトの、ホロライブプロダクション公式アプリです。先日8月29日に正式リリースされました。主に、以下の二つの体験を提供します。 ホロライブプロダクションの最新情報が公式アプリならではの機能で手軽に逃さずチェックできる 共感でつながるファンコミュニティで投稿やいいねを通じたコミュニケーションが楽しめる ※画面は開発中のイメージですホロプラスのシステム構成ホロプラスは図のようなシンプルな構成でGo言語

                                        SREがカバー株式会社に入社して3ヶ月でおこなったこと|カバー株式会社 公式note
                                      • 2023年のSREチームのAWSコスト削減を振り返る - Uzabase for Engineers

                                        概要 全般 何はともあれコストタグ Cost Explorer でリソース別にコストを見よう IaC化しよう QuickSight も使おう 稼働時間対応する際はマスタカレンダを用意したい コンピューティング、コンテナ関連 EC2 定時バッチはマネージド化しよう EBS, Snapshot, AMI, EIP を消す ECS Container Insights の有効/無効を使い分けよう 何でも Fargate を選択すれば良いわけではない Fargate スポットを活用しよう Lambda Graviton対応しよう ECR イメージサイズを抑えよう ライフサイクルポリシーを設定しよう ネットワーキング VPC VPCエンドポイント入れ忘れに注意 VPC Flow Logs のS3バケット設定に注意しよう ストレージ系 RDS スロークエリ出てないかAPMを使って確認 DynamoDB

                                          2023年のSREチームのAWSコスト削減を振り返る - Uzabase for Engineers
                                        • SREチームのリーダーになって1年経過した|あんどぅ

                                          SIerから事業会社のエンジニアに転職後、SREチームのリーダーになって1年経過※したので、個人的なふりかえりのためにやったことを言語化し整理します。 ※ 本当は7月で1年なので先月書きたかったけど、7月は評価と目標設定に加えて障害対応などが重なりめちゃくちゃ忙しかった。。。 筆者の略歴SIerで10年半、インフラ主軸で大企業向けクライアントワーク&技術支援 2021/10〜、NewsPicksのSREチームメンバーとして参画 2022/7〜、同チームリーダーになり、現在に至る SREチームの業務Googleが提唱した サイト信頼性エンジニアリング(SRE)がチーム名の由来です。SREはサービスの安定運用と変化への対応のバランスをとるためのプラクティス(技術的実践)なので、このプラクティスを遂行することがチームの業務と完全に一致するかというとそうではありません。 とはいえ、それを体現するチ

                                            SREチームのリーダーになって1年経過した|あんどぅ
                                          • SREからPlatform Engineerへの拡大

                                            SREからPlatform Engineerへの拡大 というタイトルで登壇してきました Cloud Operator Days Tokyo 2023 運用の新時代 〜Effortless Operation〜 https://cloudopsdays.com/ クラウドインフラ運用技術者のための年次イベント「Cloud Operator Days Tokyo 2023」の見所を紹介 https://cloud.watch.impress.co.jp/docs/news/1518302.html SREからPlatform Engineerへの拡大 というタイトルで登壇しました - じゃあ、おうちで学べる https://syu-m-5151.hatenablog.com/entry/2023/08/10/150412 登壇しかないので20分しかないのでギュッとしてしまいました。

                                              SREからPlatform Engineerへの拡大
                                            • SRE成熟度評価におけるポストモーテムLv.3ガイドライン

                                              ポストモーテムLT会!「SRE成熟度評価」「社内共有会」カルチャーを醸成するためにやったこと https://findy.connpass.com/event/294084/ □ Slide内資料リンク SRG Portal https://ca-srg.dev/ Developer Experts制度 https://www.cyberagent.co.jp/techinfo/info/detail/id=23823 データで見るサイバーエージェントグループのSREと横断的なSRE推進の取り組み https://speakerdeck.com/shotatsuge/ca-sre-promotion SRE Technology Map https://www.cyberagent.co.jp/techinfo/info/detail/id=28998 サイバーエージェントグループ エンジ

                                                SRE成熟度評価におけるポストモーテムLv.3ガイドライン
                                              • イオンの長い歴史と複雑なシステムに挑むSREチームがつくった「信頼」を勝ち取るための4つの行動指針|イオン・エンジニアインタビュー |AEON TECH HUB

                                                イオンスマートテクノロジー・SREチームでリーダーを務める香西のインタビューです。来期にむけたSREチームのミッションや行動指針に込められた想い、入社時のエピソード、行動力の源泉などを伺いました。

                                                  イオンの長い歴史と複雑なシステムに挑むSREチームがつくった「信頼」を勝ち取るための4つの行動指針|イオン・エンジニアインタビュー |AEON TECH HUB
                                                • ニーリーのSREによるリリースサイクルの改善〜「隔週深夜1回→1日2回」にリリース頻度を向上させた道のり〜|株式会社ニーリー公式note

                                                  プロダクト開発グループSREチームの大木(おおぎ)と菊地です。 突然ですが、皆さんのプロダクトではリリースはどのように行われていますか? 実は、ニーリーのメインプロダクトであるPark Direct(パークダイレクト)はわずか1年前まで隔週に一度、深夜0時からしかリリースを行うことができていませんでした。開発組織の健全性の指標として使われる d/d/d (deploys / a day / a developer) という指標で、1年前の我々は d/d/d=0.015ぐらいのスコアでした。この指標は d/d/d >= 0.1 が健全な組織としての目安となるそうです(※1)。かなりの開きがありますね・・・。 この記事では、SREチームのリリースエンジニアリングと開発チームのプロセス改善により、リリースの頻度が大幅に向上したというお話をしたいと思います。 ※1 『エンジニアリング組織論への招待

                                                    ニーリーのSREによるリリースサイクルの改善〜「隔週深夜1回→1日2回」にリリース頻度を向上させた道のり〜|株式会社ニーリー公式note
                                                  • 「なんでも屋」は避けたいですか?なんでもできたら最強じゃないですか?:No SRE , No life|教科書には載っていない!俺たちが考えたSRE推進の道しるべ #SHIFT TECH TALKS#1 後記とQA補足 #SHIFT_SRE - 株式会社X-Tech5

                                                    Blog X-Tech5エンジニアがお送りするテックブログ SREやDevOpsをはじめ、インフラエンジニアリングの実践情報を届けします。 「なんでも屋」は避けたいですか?なんでもできたら最強じゃないですか?:No SRE , No life|教科書には載っていない!俺たちが考えたSRE推進の道しるべ #SHIFT TECH TALKS#1 後記とQA補足 #SHIFT_SRE 2024年4月2日 こんにちは。CTOの馬場(@netmarkjp)です。 2024年3月26日に TECH PLAY にて No SRE,No life|教科書には載っていない!俺たちが考えたSRE推進の道しるべ| #SHIFT TECH TALKS#1 が開催されました。 わたしはトップバッターとして『SREsのためのSRE定着ガイド』をお話しました。 ご質問を多数いただきまして、時間内にはすべては扱えず残念で

                                                      「なんでも屋」は避けたいですか?なんでもできたら最強じゃないですか?:No SRE , No life|教科書には載っていない!俺たちが考えたSRE推進の道しるべ #SHIFT TECH TALKS#1 後記とQA補足 #SHIFT_SRE - 株式会社X-Tech5
                                                    • [資料公開] DevOpsとSREのために知るべき3つの原則 〜忙しすぎるエンジニアのための開発環境リファクタリングガイド〜 #devio2023 | DevelopersIO

                                                      盛況のうちに閉幕しましたオフラインイベント。お暑い中多数のご来場をいただき、ほんとうにありがとうございました! 2日目 7/8 の 15:10 より、標題の 長すぎる タイトルのセッションで登壇しました。その時に資料を公開します。 「開発環境」と銘打っていますが、運用がメイン担当であるエンジニアの方にとってもヒントになるものを盛り込めたのではないかなーと自負しています。 *1 内容 日々大切なアプリケーションを開発されている開発者の方々のなかには、開発基盤やパイプラインに何かしらの課題を感じている方も多いのではないでしょうか。 それらを一撃で吹き飛ばす特効薬「銀の弾丸」はもちろん存在しませんが、その一部は、ツールや手法・考え方の工夫次第で軽減できるものかもしれません。 状況の変化に合わせて武器や装備を整え直すRPG(ロールプレイングゲーム)のように、開発環境やパイプラインに改善の余地はない

                                                        [資料公開] DevOpsとSREのために知るべき3つの原則 〜忙しすぎるエンジニアのための開発環境リファクタリングガイド〜 #devio2023 | DevelopersIO
                                                      • SREエンジニアのSLI/SLO導入への挑戦 - ぐるなびをちょっと良くするエンジニアブログ

                                                        こんにちは。データ・AI戦略部 SREチームの小野です。2020年8月に入社してから早3年。SREエンジニアとして、日々業務改善に励んでいます。 ここ一年ほど、DAOという組織改善プロジェクトを推進してきました。このプロジェクトは組織内で発生するあらゆるイベントを「機能」として定義・実装し、それらを束ねてサービスとして組織内外に提供するプロジェクトです。 ※ 詳細はSREエンジニアが組織改善プロジェクトを立ち上げてみたを参照ください これまでの通常業務をサービスとして提供するという考え方は、我ながらとてもユニークかつ俊逸な発想だったと感じています。なぜなら、このサービスベースな考え方により組織にSLI/SLOを導入しやすくなったためです。 SLI/SLOの導入は個人的に難しいと考えています。導入するためにはさまざまな「ハードル」を突破する必要があるためです。しかし一方で、SLI/SLOを導

                                                          SREエンジニアのSLI/SLO導入への挑戦 - ぐるなびをちょっと良くするエンジニアブログ
                                                        • SREとその組織類型

                                                          PHPカンファレンス小田原2024での発表です。 #phpcon_odawara

                                                            SREとその組織類型
                                                          • 実録!一人SREが直面している技術的負債

                                                            Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End

                                                              実録!一人SREが直面している技術的負債
                                                            • SREのキャリア、 あるいは生態 / #ya8

                                                              https://hachiojipm.connpass.com/event/304403/ の発表資料です

                                                                SREのキャリア、 あるいは生態 / #ya8
                                                              • 続・何でも屋になっている SRE 的なチームから責務を分離するまでの道のり 〜新設チームでオンコール体制を構築するまで〜 - Repro Tech Blog

                                                                こんにちは、Platform Team というチームでマネージャーをしている荒引 (@a_bicky) です。 Platform Team は、データエンジニア・アーキテクト的な役割を担う Repro Core Unit と、インフラエンジニア・SRE 的な役割を担う Sys-Infra Unit から成るチームです。 先月 SRE Lounge #15 で「何でも屋になっている SRE 的なチームから責務を分離するまでの道のり 〜新設チームでオンコール体制を構築するまで〜」と題して次の発表をしたんですが、時間の都合上話せなかった内容があるので、それらについて触れたいと思います。 なお、当日の発表内容は動画でも視聴可能です。 アジェンダ 本エントリーのアジェンダは次のとおりです。 SRE Lounge #15 での発表内容の要約 Repro Core と Sys-Infra の棲み分け R

                                                                  続・何でも屋になっている SRE 的なチームから責務を分離するまでの道のり 〜新設チームでオンコール体制を構築するまで〜 - Repro Tech Blog
                                                                • SREエンジニアがヘルプデスク体制を作ってみた話 - ぐるなびをちょっと良くするエンジニアブログ

                                                                  こんにちは。データ・AI戦略部 SREチームの小野です。2020年8月に入社してから早3年。SREエンジニアとして、日々業務改善に励んでいます。 ここ一年ほど、SRE業務の一環で組織作りに挑戦しています。SREエンジニアの責務は自社サービスを安定稼働させ障害に強い基盤を作ることであり、どちらかというと「システム」に焦点が置かれがちです。しかし、個人的にはシステムを運用するメンバーのマネジメント(ピープルマネジメント)を含めた組織作りも重要だと考えています。なぜなら、どれだけ最先端で素晴らしいシステムを構築してもそれを運用するメンバーの行動次第では、障害につながる恐れがあるためです。 私にとってのSREは組織作りにおける文化のようなものであり、「SRE(文化)を組織にインストールする」気概で色々と挑戦しています。 今回は、その挑戦の一つとして「ヘルプデスク体制を構築した話」をお伝えしたいと思

                                                                    SREエンジニアがヘルプデスク体制を作ってみた話 - ぐるなびをちょっと良くするエンジニアブログ
                                                                  • SREsのためのSRE定着ガイド

                                                                    #SHIFT_SRE No SRE,No life|教科書には載っていない!俺たちが考えたSRE推進の道しるべ| #SHIFT TECH TALKS#1 登壇資料

                                                                      SREsのためのSRE定着ガイド
                                                                    • SRE を立ち上げた4ヶ月後の世界

                                                                      この記事は、Magic Moment Advent Calendar 2023 4 日目の記事です。 こんにちは! Magic Moment で Senior Engineering Manager 兼 SRE Engineering Manager をやっている 木村 (@ryurock) です。 Magic Moment アドベントカレンダー 4 日目では、2023年9月に SRE チーム を立ち上げた 4 ヶ月後の世界。 というテーマでアドカレやっていきたいと思っています。( ー`дー´)キリッ SRE チームの立ち上げの経緯 遡る事、2023年7月頃に弊社が提供しているサービス Magic Moment Playbook のコアデータが立て続けに更新できない障害が相次ぎました。 Sales Operation を行う上で、大切なデータが頻繁に反映されないこの由々しき事態はユーザー様

                                                                        SRE を立ち上げた4ヶ月後の世界
                                                                      • 理想は「SREチームをなくすこと」、一人目SREとしてたどり着いた真理|イオン・エンジニアインタビュー |AEON TECH HUB

                                                                        イオンスマートテクノロジー・SREチーム齋藤のインタビューです。2022年に1人目のSREエンジニアとして入社し、多くの課題を抱えていた組織を、地道な活動によって少しずつ変えていきました。Jiraの導入、100ページにわたるドキュメント作成、監視・モニタリング基盤の統一…齋藤はどんな想いで改革を進めていたのか、本音を伺いしました。

                                                                          理想は「SREチームをなくすこと」、一人目SREとしてたどり着いた真理|イオン・エンジニアインタビュー |AEON TECH HUB
                                                                        • SREを以てセキュリティエンジニアリングを制す / SRE, Security Engineering, and You

                                                                          SRE NEXT 2023 のスポンサーセッション (20min) で使用したスライドです。 --- 概要: システムやソフトウェアの信頼性(Reliability)とセキュリティは多くの共通項を持つ概念です。本セッションでは、信頼性に主な関心を置いた技術体系であるSREを、セキュリティリスクの健全な管理のための技術体系として活用する方法を考察します。具体的にはSLO/SLI/エラーバジェット的発想に基づくセキュリティリスク管理や、セキュリティに関するソフトウェアエンジニアリング技法について、具体的な事例も交えながら論じます。 セキュリティ領域は技芸(Art)的解決が必要な課題領域も未だ多く、Engineering的体系は進化の途上にあります。SREというプラクティスを土台としてセキュリティ課題の解決を検討することは、SREに慣れ親しんだ(あるいは興味を持った)技術者の集まる本カンファレン

                                                                            SREを以てセキュリティエンジニアリングを制す / SRE, Security Engineering, and You
                                                                          • 「春のSREまつり2024 〜OpenTelemetry活用すべて見せます〜」を開催しました - Pepabo Tech Portal

                                                                            新緑の候、どこまでも澄んだ空気が視界を広げるように、システムの透明性が深い洞察を可能にしていることと存じます。技術部プラットフォームグループのそめやポチです。 2024年5月9日に、「Pepabo Tech Conference #22 春のSREまつり」と題した技術イベントを開催しました。「SREまつり」とは、ペパボのエンジニアたちがSREについての知見を発信することで、社外のSREコミュニティとの交流を図るイベントです。 昨年の春のSREまつり、夏のSREまつりに続いて、3回目の開催となりました。恒例イベントとして社内外に定着しつつあると感じています。 イベントは、物理会場とライブ配信会場の2つの会場で開催しました。物理会場は、シナジーカフェGMO Yours・フクラスという、GMOインターネットグループのカフェスペースを使用しました。ライブ配信会場は、YouTube Liveを使用し

                                                                              「春のSREまつり2024 〜OpenTelemetry活用すべて見せます〜」を開催しました - Pepabo Tech Portal
                                                                            • SREに触れて「いろいろやろうぜ」のモードになった - 生涯未熟

                                                                              SRE界隈の隅っこでワチャワチャやっているしょっさんです。 今色々やっているコミュニティ活動についてのお話を書き留めておきたいなと思ったので、ここにパパッと書いていきます。 今までについて 今までのコミュニティ活動の関わりについては以下のしずかなインターネットの記事として書きました。 sizu.me そんなこんなで「ゆるSRE勉強会」の運営に関わらせていただいているのですが、せっかく再びコミュニティ活動始めたなら色々やってみっか!ってことで色々走らせてみました。 SRE Magazine SREに関する記事を探すと様々なところに散らばっており、SRE Weeklyみたいな集約された場所があると面白いよな〜ということでエイヤの精神でやってみました。 sre-magazine.net 「るびま」を参考に構成しているWebマガジンなのですが、最近第1号が発刊することができました。で、始めるにあた

                                                                                SREに触れて「いろいろやろうぜ」のモードになった - 生涯未熟
                                                                              • SRE不在のチームに入って2カ月でやったこと - 負荷試験から始めるプラクティスの導入

                                                                                本記事は、TechFeed Experts Night#17 〜 事例で学ぶSRE 〜 ツール、プラクティスから組織づくりまでのセッション書き起こし記事になります。 イベントページのタイムテーブルから、その他のセッションに関する記事もお読み頂けますので、一度アクセスしてみてください。 本セッションの登壇者 セッション動画 面白法人カヤックでSREをしています、藤原俊一郎(Twitter: @fujiwara)です。個人的な活動として、ecspresso(Amazon ECSのデプロイツール)やlambroll(AWS Lambdaのデプロイツール)を作ったり、先ほどのセッションで登壇された馬場さんと共著で達人が教えるWebパフォーマンスチューニング(通称「ISUCON本」)を出版したりしています。 SRE不在のチームに加わった背景 SREが不在だったチームの例として、弊社のSMOUTという

                                                                                  SRE不在のチームに入って2カ月でやったこと - 負荷試験から始めるプラクティスの導入
                                                                                • Dr.WernerのKeynoteは全てのSREに聞いてほしい話だった - Qiita

                                                                                  この記事は、CyberAgent Group SRE Advent Calendar 2023の7日目の記事です。 4年ぶりに、AWS re:Inventに現地参加していたのですが、今年のWerner先生のKeynote(特に前半)がとてもよく、SREを推進する上でも非常に大事なことをお話しされていたので、それについてまとめてみました AWS re:Invent 2023 - Keynote with Dr. Werner Vogels ざっくりどんな事を話していたか クラウド移行によって、様々な制約からは解放されたが、コストを考えてアーキテクトする必要はある そしてコストを考えるということは、サステナビリティを考えることでもある といった感じで、コストとサステナビリティについての話から、WenerがAmazon CTOとして、過去20年間のアーキテクトする上でのコストと持続可能性の考え方

                                                                                    Dr.WernerのKeynoteは全てのSREに聞いてほしい話だった - Qiita