並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 33 件 / 33件

新着順 人気順

"Site Reliability Engineering"の検索結果1 - 33 件 / 33件

  • このSRE本がすごい!2024年版 - じゃあ、おうちで学べる

    はじめに 有用な知識の特性 Google SRE リソース Site Reliability Engineering: How Google Runs Production Systems The Site Reliability Workbook: Practical Ways to Implement SRE Building Secure and Reliable Systems: Best Practices for Designing, Implementing, and Maintaining Systems SLO Adoption and Usage in SRE Creating a Production Launch Plan Training Site Reliability Engineers: What Your Organization Needs to Cre

      このSRE本がすごい!2024年版 - じゃあ、おうちで学べる
    • インフラエンジニアはSREではないし、SREとPlatform Engineeringも別物 - inductor's blog

      インフラエンジニアの肩書きをSREに変えるタイプの組織変更は近いところから遠いところまでいろんなところで見かけてるんだけど、改めてそれって名前変えただけじゃないよね?って問いかけは個人が組織に、組織が個人にそれぞれ相互でした方がいいと思う。 インフラエンジニアって言葉もまあ定義が死ぬほど広くてどこからどこまで指すのってのは組織によって違うね大変だねって話ではあるんだけど、SRE(Site Reliability Engineering)やPE(Platform Engineering)はインフラと必ずしも対応関係にあるわけではないんだよな。 Platformってのは言ってしまえば会社のエンジニア組織の中で自分達に最適化された基盤を作る人たちの集合体とそのプロダクトそのものを指していて、Platform Engineering組織の中には当然フロントエンドエンジニアやデザイナー、プロダクトオ

        インフラエンジニアはSREではないし、SREとPlatform Engineeringも別物 - inductor's blog
      • 日本のSREの火付け役ともなったエンジニアが貫く信念 ─ すべてはログの向こうにいるエンドユーザのために - Findy Engineer Lab

        こんにちは、はじめまして。さくらインターネット株式会社の長野雅広(@kazeburo)です。Webの業界に入ったのは学生だった2000年頃で、キャリアは20年以上になります。おそらくこの業界でも長い方ではないでしょうか。20年の間にmixiやlivedoor、メルカリといった企業で働く機会を得て、どの職場でもサービスの裏側にあるインフラや、Webアプリケーションの運用を支える仕事、今ではSREと呼ばれるような業務に携わってきました。 そして今年の1月から、さくらインターネットにてクラウドを中心にサービスの開発を行っています。つまり、インフラやクラウドを利用して一般のお客様向けにサービスを作るという仕事から、クラウドを作ることを仕事にする、という選択をしました。 この記事では、どのような経験からSREとして働くようになったのか、また現職に至る選択をした経緯について語りたいと思います。加えて、

          日本のSREの火付け役ともなったエンジニアが貫く信念 ─ すべてはログの向こうにいるエンドユーザのために - Findy Engineer Lab
        • エンジニアのためのSRE論文への招待 - SRE NEXT 2023 - ゆううきブログ

          この記事では、2023年9月29日に開催されたSRE NEXT 2023 IN TOKYOでの講演の概要に加えて、講演では触れられなかった部分の補足と、発表を終えての後記、最後にSRE NEXT全体の感想を書きました。 SRE NEXT 2020の基調講演に招いていただいたところから始まり、昨年のSRE NEXT 2022の公募セッションでも発表し、今回で3回目の発表になりました。今回の講演は、SRE NEXTの「NEXT」と価値観の一つである「Diversity」を踏まえて、自身のエンジニアと研究者の両方の経験を活かして、SREを深く実践する上で、技術論文を探して読むアプローチを提示するものです。昨今の国内のSREコミュニティでは組織的実践に主な関心が移っている状況と対比させて、コンピュータサイエンスに基づく技術的挑戦の可能性を示唆する意欲的な講演を目指したつもりです。 この講演での主要

            エンジニアのためのSRE論文への招待 - SRE NEXT 2023 - ゆううきブログ
          • Terraformを使って学ぶーAWSにインフラを構築するIaCの基本と、SREが実務で役立つ機能とエコシステムを徹底解説|ハイクラス転職・求人情報サイト AMBI(アンビ)

            ハイクラス求人TOPIT記事一覧Terraformを使って学ぶーAWSにインフラを構築するIaCの基本と、SREが実務で役立つ機能とエコシステムを徹底解説 Terraformを使って学ぶーAWSにインフラを構築するIaCの基本と、SREが実務で役立つ機能とエコシステムを徹底解説 Terraformは、パブリッククラウドのインフラ構築と自動化のツールとして、IaCのデファクトスタンダードとなっています。この記事では、AWS(Amazon Web Services)を活用するハンズオンを通してTerraformの動作を理解し、実務にもとづいて役立つ機能や便利なエコシステム、さらにSRE視点の事例を紹介します。アソビュー株式会社でSREユニットリーダーを務める鈴木剛志さんを中心に6名のメンバーによる共同執筆です。 アイキャッチ画像 アソビューでは、インフラストラクチャーの変更管理にTerrafo

              Terraformを使って学ぶーAWSにインフラを構築するIaCの基本と、SREが実務で役立つ機能とエコシステムを徹底解説|ハイクラス転職・求人情報サイト AMBI(アンビ)
            • SREエンジニアが組織改善プロジェクトを立ち上げてみた - ぐるなびをちょっと良くするエンジニアブログ

              こんにちは。データ・AI戦略部 SREチームの小野です。普段は部内のシステムに対し、SRE推進活動を行っています。直近では、データエンジニアと協力してデータ基盤周りの改善に取り組んでいます。 <SREの主な仕事> IaC化(Terraform/Terraform Cloud Business)の導入・推進 SLI/SLOの導入・推進 ポストモーテムの導入・推進 アプリケーションデプロイ基盤の導入・推進 ツールやAPIの設計・開発 インフラ設計・開発・運用 トイル削除・システムの自動化 データ基盤改善 一般的なSREエンジニアは、インフラ関連の業務が中心になると思います。しかし、データ・AI戦略部のSREチームは、開発を含めた幅広い仕事をします。やりたいことがあり、手をあげればそれを後押ししてくれる雰囲気の職場です。 今回は、SREエンジニアである私が、組織改善プロジェクトを立ち上げた話をお

                SREエンジニアが組織改善プロジェクトを立ち上げてみた - ぐるなびをちょっと良くするエンジニアブログ
              • SREチームがNew Relicを使って AWSコスト最適化に貢献した話 | ドクセル

                SREチームがNew Relicを使って AWSコスト最適化に貢献した話 株式会社ニューズピックス 安藤 裕紀 NRUG (New Relic User Group) SRE支部 Vol.3 - 2023.6.27(Tue)

                  SREチームがNew Relicを使って AWSコスト最適化に貢献した話 | ドクセル
                • SREチームがスクラムを導入し1年でタスクの可視化と脱属人化を実現した話

                  ビズリーチ事業部のSREチームは、スクラムを導入して1年が経ち、タスクの可視化と脱属人化を実現しました。 導入にあたって何をしたのか、開発チームとは異なる工夫が必要だったところはどこか、導入後何が変わったのかを振り返ってみました。 ビズリーチ事業部のSREチームについて 「ビズリーチ」を担当していて、SRE(Site Reliability Engineer)としてアプリケーションエンジニアと共にプロダクトの継続的な成長のため信頼性・可用性の向上、自動化、効率化などに取り組んでいます。 なお、チームの構成は以下のようになっています。 開発者: SREチームのメンバー(5人) PO: SREチームのマネージャー スクラムマスター: 社内横断組織に所属している専任のスクラムマスター SREチームが抱えていた課題とスクラムの導入目的 まず、SREチームがスクラムを導入した背景を説明します。 PO

                    SREチームがスクラムを導入し1年でタスクの可視化と脱属人化を実現した話
                  • SRE四大行 | 外道父の匠

                    元々なんでも屋ってたけど、我が部署名もSREになったし、インフラエンジニアって書くと『IT』警察が寄ってくるからSREでいきましょう。短いのはイィ。 SREがやることは書籍『O’Reilly Japan – サイトリライアビリティワークブック』がほぼ語っていますが、もうちょっと噛み砕いて自分的にはこの四大行を軸に活動すれば、いっぱしのSREになれんじゃねっていう戯れであります。 SREのお仕事を大雑把に表現すると、サービス開発者が作成したアプリケーションを、動かす環境を用意し、安全・効率的に動かし続けることだと思っています。 IT業界の事情変化につれて、SREの重要性は高まる傾向にあり、それに伴いSREとして活動を希望する人材も増えたような、そうでもないような。気がするけど、SREとして食ってく気ならこれら四大行が基本であり奥義になるよって話です。 『構築』 アプリケーションを動かすための

                      SRE四大行 | 外道父の匠
                    • 「オンコール対応するエンジニアの睡眠時間を確保せよ」 GMOペパボSREチームの6つの取り組み

                      サービスの信頼性を守るため、オンコール対応は重要な仕事だ。だが、夜中に何度も呼び出されるような状況ではエンジニアの肉体的、精神的な疲労は計り知れない。Cloud Operator Days Tokyo 2022のセッション「信頼性を落とさず効果的にオンコールを減らす取り組みを目指して エンジニアの睡眠時間を守ろう」では、こうしたオンコール対応におけるエンジニアへの負担を軽減させる取り組みを紹介した。 「常に何らかのアラート情報が流れている」 GMOペパボの渡部龍一氏(技術部プラットフォームグループ)の役割は、GMOペパボの各種サービスの可用性を確保しビジネスの成長に合わせて適切な環境を提供することだ。そのためのさまざまな業務をこなす中で、オンコール対応は悩みの種になっていた。 「私のチームで対応するサービスだけでも100を超えており、平均すると2、3日に1回のペースで何らかのアラートが発生

                        「オンコール対応するエンジニアの睡眠時間を確保せよ」 GMOペパボSREチームの6つの取り組み
                      • Professional Cloud DevOps Engineer は SRE を目指すエンジニアにお勧めしたい資格でした | DevelopersIO

                        本記事は 2021/07/06 時点の情報になります。そのため時期によって異なる情報になる可能性があります。ご留意の上、お読みください。 はじめに こんにちは、 CX事業本部 MAD事業部 の 田中孝明 です。 つい先日、 Google Cloud 認定資格 の Professional Cloud DevOps Engineer を苦労の末合格しました。 試験の内容に関しては NDA になるため記載することはできませが、勉強した内容をお伝えすることで、挑戦する方の励みになるような記事になればと思い公開いたします。 Professional Cloud DevOps Engineer について Professional Cloud DevOps Engineer は Google Cloud 認定資格 のプロフェッショナル資格に該当する資格です。 一度不合格になりましたが、二度目の挑戦で合

                          Professional Cloud DevOps Engineer は SRE を目指すエンジニアにお勧めしたい資格でした | DevelopersIO
                        • 2023年のSREチームのAWSコスト削減を振り返る - Uzabase for Engineers

                          概要 全般 何はともあれコストタグ Cost Explorer でリソース別にコストを見よう IaC化しよう QuickSight も使おう 稼働時間対応する際はマスタカレンダを用意したい コンピューティング、コンテナ関連 EC2 定時バッチはマネージド化しよう EBS, Snapshot, AMI, EIP を消す ECS Container Insights の有効/無効を使い分けよう 何でも Fargate を選択すれば良いわけではない Fargate スポットを活用しよう Lambda Graviton対応しよう ECR イメージサイズを抑えよう ライフサイクルポリシーを設定しよう ネットワーキング VPC VPCエンドポイント入れ忘れに注意 VPC Flow Logs のS3バケット設定に注意しよう ストレージ系 RDS スロークエリ出てないかAPMを使って確認 DynamoDB

                            2023年のSREチームのAWSコスト削減を振り返る - Uzabase for Engineers
                          • 続・何でも屋になっている SRE 的なチームから責務を分離するまでの道のり 〜新設チームでオンコール体制を構築するまで〜 - Repro Tech Blog

                            こんにちは、Platform Team というチームでマネージャーをしている荒引 (@a_bicky) です。 Platform Team は、データエンジニア・アーキテクト的な役割を担う Repro Core Unit と、インフラエンジニア・SRE 的な役割を担う Sys-Infra Unit から成るチームです。 先月 SRE Lounge #15 で「何でも屋になっている SRE 的なチームから責務を分離するまでの道のり 〜新設チームでオンコール体制を構築するまで〜」と題して次の発表をしたんですが、時間の都合上話せなかった内容があるので、それらについて触れたいと思います。 なお、当日の発表内容は動画でも視聴可能です。 アジェンダ 本エントリーのアジェンダは次のとおりです。 SRE Lounge #15 での発表内容の要約 Repro Core と Sys-Infra の棲み分け R

                              続・何でも屋になっている SRE 的なチームから責務を分離するまでの道のり 〜新設チームでオンコール体制を構築するまで〜 - Repro Tech Blog
                            • SRE不在のチームに入って2カ月でやったこと - 負荷試験から始めるプラクティスの導入

                              本記事は、TechFeed Experts Night#17 〜 事例で学ぶSRE 〜 ツール、プラクティスから組織づくりまでのセッション書き起こし記事になります。 イベントページのタイムテーブルから、その他のセッションに関する記事もお読み頂けますので、一度アクセスしてみてください。 本セッションの登壇者 セッション動画 面白法人カヤックでSREをしています、藤原俊一郎(Twitter: @fujiwara)です。個人的な活動として、ecspresso(Amazon ECSのデプロイツール)やlambroll(AWS Lambdaのデプロイツール)を作ったり、先ほどのセッションで登壇された馬場さんと共著で達人が教えるWebパフォーマンスチューニング(通称「ISUCON本」)を出版したりしています。 SRE不在のチームに加わった背景 SREが不在だったチームの例として、弊社のSMOUTという

                                SRE不在のチームに入って2カ月でやったこと - 負荷試験から始めるプラクティスの導入
                              • SRE NEXT 2023で「Runbookに何を書き、どのようにアラートを振り分けるか?」というお話をしました - ださろぐ@はてな

                                登壇&参加記事です 今までのあらすじ(ずっとアラートの話してる気がする) 今回の発表まわりの蛇足 セッション ギークがイオンに飛び込んだ結果がやばい〜Reliabilityと経営〜 LINEスタンプのSREing事例集:大量のスパイクアクセスを捌くためのSREing エンジニアのためのSRE論文への招待 【コミュニティコラボ企画】パネルディスカッション 〜信頼性に関わる、ご近所さんが集まりました〜 ブルームバーグのセントラル・テレメトリー・システムが業務にもたらす価値 開発者とともに作る Site Reliability Engineering 信頼性目標とシステムアーキテクチャー セッション以外 今後について 今までのあらすじ(ずっとアラートの話してる気がする) 2020 dasalog.hatenablog.jp 2022 dasalog.hatenablog.jp 開発者とともに作る

                                  SRE NEXT 2023で「Runbookに何を書き、どのようにアラートを振り分けるか?」というお話をしました - ださろぐ@はてな
                                • サービスの一般公開前からSLI/SLOと向き合う - Hatena Developer Blog

                                  Mackerel チームで SRE を担当している id:taxintt と申します。 はてなの SRE が毎月交代でブログ記事を書く Hatena Developer Blog の SRE 連載、3月分は私が担当します。2月の記事は id:masayosu さんの はてなにおけるEKSの運用と自動化 (2024年版) でした。 私が所属する Mackerel 開発チームでは、SaaS 型サーバー監視サービスである Mackerel を開発しています。 Mackerel は、テレメトリデータの計装・収集の標準化を目的としたプロジェクトである OpenTelemetry 対応のための開発を進めています。この記事では、OpenTelemetry のメトリックを扱うサブシステムの開発における SLI/SLO の決定・運用についてお話しします。 mackerel.io OpenTelemetry

                                    サービスの一般公開前からSLI/SLOと向き合う - Hatena Developer Blog
                                  • SRE関連Issue、7年分を振り返る - BASEプロダクトチームブログ

                                    この記事は、BASE Advent Calendar 2022の18日目の記事(その2)です。 SRE Group の ngsw です。 先日ネットショップ作成サービス「BASE」は10周年を迎えました。 「BASE」サービスリリース10周年 ~「好きが、売れる。」をコアメッセージに特設Webサイトの公開とクーポンキャンペーンを開始~ | BASE, Inc. 10th Anniversaryクーポンキャンペーン は現在すでに終了しています 好きが、売れる。BASE・10周年特設サイト せっかくの10周年です。ちなんだ記事を書けたら面白いかなとSRE関連のIssuesを振り返っていたのがこの記事のはじまりでした。 BASEの10年分のシステムの課題を読者の皆さんと共有できたならば面白いかな、というのが(後付けの)動機です。 SRE関連のIssuesはGitHub移行後の2016年より存在し

                                      SRE関連Issue、7年分を振り返る - BASEプロダクトチームブログ
                                    • MIXIにおけるクラウドコスト最適化術 〜 10年選手の現SREマネージャー 2名に訊く 〜

                                      ユーザーの増加を喜んでいたら、いつの間にかクラウドコストが高額になっていた!という経験や、コスト削減の結果、安定したサービス運営に必要な部分まで削ってしまわないか不安になった経験はありませんか? 多くの事業にとって、クラウドサービスは欠かせないものになりましたが、何も気にせずに使っているとクラウドコストは右肩上がりで高くなってしまいます。 今や『コスト最適化の知恵』は誰しもが持っていて損が無いもの。ですが、養うのは中々難しい。 こんな時は詳しい人に聞くしかない!ということで、酸いも甘いも知るベテラン SRE のおふたりに、クラウドコスト最適化術について聞いてみました。 クラウドコスト削減のアイデアが欲しい闇雲にコスト削減を目指すのではなく、『コスト最適化』の考え方が知りたい方は、ぜひご覧ください。 ※この記事は「MIXI DEVELOPERS Advent Calendar 2022 」

                                        MIXIにおけるクラウドコスト最適化術 〜 10年選手の現SREマネージャー 2名に訊く 〜
                                      • 「“HOW”を自分たちで考える楽しさ」がある。ユーザー数1500万人を超える「家族アルバム みてね」のSREとして働く魅力とは?

                                        ユーザー数1500万人を超える「家族アルバム みてね」のインフラを支え、ユーザーと開発者の双方によりよい体験を提供するために全力を尽くしている、みてねSREチームにお話を聞いてきました。 「家族アルバム みてね(以下:みてね)」はユーザー数1500万人を突破し(※1)、写真・動画の月間アップロード枚数は2.7億枚に達しています(※2)。そんなみてねのインフラを支え、ユーザーと開発者の双方によりよい体験を提供するために全力を尽くしているのが、みてねプロダクト開発部 基盤開発グループ SREチームです。 今回インタビューに登場してもらったのは、基盤開発グループのマネージャーである清水(写真右)と、チームメンバーの伊東(写真左)。SREチームに焦点をあて、印象的だった担当業務や取り組むべき課題、目指す未来について聞きました。 ※1:2022年8月現在 ※2:2022年10月現在 みてねのSREチ

                                          「“HOW”を自分たちで考える楽しさ」がある。ユーザー数1500万人を超える「家族アルバム みてね」のSREとして働く魅力とは?
                                        • Mackerelでのアラート対応のためのトイルを削減するツール prepalert - KAYAC engineers' blog

                                          この記事はMackerel Advent Calendar 2022とKAYAC Advent Calendar 2022 の7日目です。 こんにちは、SREチーム所属の@mashiikeです。 前年の Mackerel Advent Calendar 2021 ではSREにおいて大事なSLO/エラーバジェットをMackerelのメトリックとして投稿するツール shimesaba について話しました。 1年経って、Mackerelを用いたSLI/SLO/エラーバジェットの運用が安定化してくると、次に気になってくるのはトイルだと思います。 cloud.google.com 「トイルとは、手作業、繰り返される、自動化が可能、戦術的、長期的な価値がない、サービスの成長に比例して増加する、といった特徴を持つ作業です。」 トイルの例としては次のようなものがあります。 ・割り当てリクエストの処理 ・デ

                                            Mackerelでのアラート対応のためのトイルを削減するツール prepalert - KAYAC engineers' blog
                                          • なぜSREをはじめるのは難しいのか - SREにまつわる不安を緩和するためのTips集

                                            本記事は、TechFeed Experts Night#17 〜 事例で学ぶSRE 〜 ツール、プラクティスから組織づくりまでのセッション書き起こし記事になります。 イベントページのタイムテーブルから、その他のセッションに関する記事もお読み頂けますので、一度アクセスしてみてください。 本セッションの登壇者 セッション動画 「なぜSREをはじめるのは難しいのか」について話していこうと思います。よろしくお願いします。 「これでいいんだっけ?」をなくすために なぜ難しいのかを考えたときによくあるのが「これでよかったんだっけ?」となるケースじゃないかなと思います。たとえば、SREとは言ってもインフラエンジニアから名前を変えただけだったり、何でもできるエンジニアが担当した結果、何でも屋さんになってしまったり、他社事例をトレースしたんだけどうまくいかなかったり…などです。 最近はこういう話がすこし高い

                                              なぜSREをはじめるのは難しいのか - SREにまつわる不安を緩和するためのTips集
                                            • クラウドを扱うエンジニアにとって「Terraform」は必須ツール!? 〜MIXIエンジニアが語る技術愛〜

                                              ミクシィには、探究心溢れるエンジニアがたくさん在籍しています。 その探究心は業務で扱う技術にとどまらず、趣味で書いているプログラムだったり、個人的に研究している言語だったりと、自身の気になった技術への追求も留まることを知りません。 そこで、社内のエンジニアに“好きな技術”について、思う存分に語ってもらうシリーズを始めました。 ルールはこの通り。 業務で使っている技術でも、使われていない技術でもOK あくまでも個人的な見解で その技術のどこが面白いのか 愛を込めて語り尽くしてもらう 第2回目は、みてね事業部 開発グループ SREチームの清水に「Terraform」について語ってもらいました。 清水 勲(しみず いさお)Vantageスタジオ みてね事業部 開発グループ 2011年 株式会社ミクシィに入社。SNS mixiのサーバー運用、モンスターストライクのサーバーエンジニアを経て、現在は『

                                                クラウドを扱うエンジニアにとって「Terraform」は必須ツール!? 〜MIXIエンジニアが語る技術愛〜
                                              • SRE プラクティスを促進させるための 4 つのステップ | Google Cloud 公式ブログ

                                                ※この投稿は米国時間 2021 年 5 月 26 日に、Google Cloud blog に投稿されたものの抄訳です。 サイト信頼性エンジニアリング(SRE)を組織内で運用するための第一ステップは、リーダーシップ層の支持を得ることにあるという投稿を、数か月前に行いました。そこで、今回はそれができたものと仮定しましょう。どんなステップが続くでしょうか。SRE を軌道に乗せるには、どんな具体的なステップがあるでしょうか。このブログ投稿では、IT リーダーである皆様がチーム内で SRE を速やかに発展させていくためにできることを調べていきましょう。 ステップ 1: 小さく始めて、繰り返すことわざでは「ローマは一日にしてならず」と言われますが、どこからであっても着手するポイントは必要です。SRE の原則を運用するにあたって、私(および私のチーム)が見い出した最も効果的なアプローチは、概念実証から

                                                  SRE プラクティスを促進させるための 4 つのステップ | Google Cloud 公式ブログ
                                                • Reliabilityを高めるために最短距離を走る LINEのコンテンツプラットフォームSREの仕事

                                                  LINEユーザーとビジネスの価値をつなぐためのSREとは、いったいどんなことをするのか。LINEの7つの領域から9名が登壇し、業務内容や体制、開発における課題、働く個々人のやりがいなどについて話します。加藤俊弥氏は、LINEのコンテンツプラットフォームのSREについて紹介しました。 Redisのヘビーユーザー 加藤俊弥氏:加藤から「コンテンツプラットフォームのSRE」についてご紹介したいと思います。 まず私の紹介から失礼します。2014年に株式会社ドワンゴに入社しまして、niconicoのバックエンドのエンジニアをやっていました。 アプリケーションのエンジニアとして、ScalaやJavaなどを書いて、その後Web API GatewayのチームのリードやOAuthチームのリードを担当し、Redisのヘビーユーザーでもあったので、RedisのDBAも兼任していました。。 Redisのほうから

                                                    Reliabilityを高めるために最短距離を走る LINEのコンテンツプラットフォームSREの仕事
                                                  • 現場がさき、プラクティスがあと、原則はだいじに - SREを始める前に覚えておきたいPrinciple

                                                    本記事は、TechFeed Experts Night#17 〜 事例で学ぶSRE 〜 ツール、プラクティスから組織づくりまでのセッション書き起こし記事になります。 イベントページのタイムテーブルから、その他のセッションに関する記事もお読み頂けますので、一度アクセスしてみてください。 本セッションの登壇者 セッション動画 どうぞよろしくお願いします。「現場がさき、プラクティスがあと、原則はだいじに」というお話をさせていただきます。 馬場といいます。@netmarkjp というIDでやっております。基本的に運用系、クラウドとかインフラ中心のエンジニアリングとか、コンサルティングとか、組織レベルのあれこれとか、事業レベルのあれこれみたいなのを仕事にしています。あとは、ISUCONとかモニタリングとかでいくつか本を書かせてもらってます。会社でもAWSを中心に現場から組織まで幅広くいろいろやってお

                                                      現場がさき、プラクティスがあと、原則はだいじに - SREを始める前に覚えておきたいPrinciple
                                                    • 9月新刊情報『SREの探求』

                                                      『SREの探求 ―様々な企業におけるサイトリライアビリティエンジニアリングの導入と実践』 David N. Blank-Edelman 編、山口 能迪 監訳、渡邉 了介 訳 2021年9月3日発売予定 632ページ ISBN978-4-87311-961-8 定価5,060円(税込) 組織の大小を問わず、システムやアプリケーションの信頼性がビジネスにとって重要なこと、また市場が求めるスピードでイテレーション(反復)しながら、信頼性を維持するのは難しいことが認識されています。サイトリライアビリティエンジニアリング(SRE)は、この課題に対する取り組みです。 本書は、大規模なプロダクションシステムの運用において、様々な企業や組織がSREをどのように実践しているかについて紹介します。Microsoft、Dropbox、Google、SoundCloud、Spotify、Amazon、Facebo

                                                        9月新刊情報『SREの探求』
                                                      • 5 GitHub Projects to make you a better DevOps Engineer ⚡

                                                        DevOps is one of the most challenging fields to be in, and to stay relevant you need to learn constantly. CHeck out SigNoz - an open-source application performance monitoring tool. So today, I want to share 5 amazing GitHub projects which will help you become a better DevOps engineer. These 5 Github projects can come in handy for anyone looking to learn and want good resources to dive in. 🏊‍♀️ So

                                                          5 GitHub Projects to make you a better DevOps Engineer ⚡
                                                        • SREのベストプラクティスに基づいたインシデント対応ツール Waroom オープン β を提供開始

                                                          株式会社 Topotal(代表取締役:髙村 成道、本社:東京都江東区)は、インシデント対応の準備から対応中、対応後のすべてのフェーズで、Site Reliability Engineering のベストプラクティスに基づいたワークフローを提供する Waroom オープン β ( https://waroom.com/ )の提供を開始します。 Waroomオープン β 提供の背景 2016年に Google から  Site Reliability Engineering(以下、SRE) が提唱され、多くの IT 企業が SRE を用いてシステム管理やサービス運用の改善と効率化を実践するようになりました。しかし、インシデント対応の分野においては未だ改善の余地のあるワークフローから脱却できずにいる企業が数多くいます。 インシデントが発生すると事業の機会損失を産むだけではなく、ブランドイメージの

                                                            SREのベストプラクティスに基づいたインシデント対応ツール Waroom オープン β を提供開始
                                                          • Lowe’s が Google SRE プラクティスで顧客の要求に応えている方法 | Google Cloud 公式ブログ

                                                            ※この投稿は米国時間 2021 年 6 月 8 日に、Google Cloud blog に投稿されたものの抄訳です。 編集者注: 今回の投稿では、Lowe’s の SRE チームの声をご紹介します。同社が Google のサイト信頼性エンジニアリング(SRE)フレームワークを導入し、Google Cloud とのパートナーシップを活用して、サポートできるリリース数をどのように増加させたかをご説明いただきます。 Lowe’s では、複数年にわたるテクノロジー トランスフォーメーションで大きな成果を達成しました。自社システムをモダナイズし、お客様と社員向けの新たな機能を構築するために、Google の SRE フレームワークと Google Cloud を活用しています。おかげで、お客様と社員のニーズをスピーディかつ効率的に満たすことができています。こうした取り組みにより、リリースの頻度を

                                                              Lowe’s が Google SRE プラクティスで顧客の要求に応えている方法 | Google Cloud 公式ブログ
                                                            • 『SLOサービスレベル目標』- SLI/SLO/エラーバジェットを私たちは設定できるのか?と考えた - Magnolia Tech

                                                              SLO サービスレベル目標 ―SLI、SLO、エラーバジェット導入の実践ガイド 作者:Alex HidalgoオライリージャパンAmazon 発売されてすぐに買ったものの、なかなか手をつけていなかった『SLOサービスレベル目標』をようやく読んだ。 以下、読書メモ 繰り返し出てくるのは、「完璧を目指さないこと」…目指すのはある程度の完璧さであり、限られたリソースの中、個々の要素に囚われすぎず、全体最適を目指すこと サービスの信頼性は、「ユーザー目線」であるべきで、サービスを提供する側の目線では無い SLI、サービスレベル指標は、ユーザーにとって価値が得られたか否かの閾値、基準を示すもの……例えば、ユーザーへの画面表示は2秒以内に行われるべきである、といった定義がされる SLO、サービスレベル目標は、サービスレベル指標がどの程度の割合となるべきか、その目標を示すもの……例えば、ユーザーへの画面

                                                                『SLOサービスレベル目標』- SLI/SLO/エラーバジェットを私たちは設定できるのか?と考えた - Magnolia Tech
                                                              • MIXI開発本部で働く面白さは、あらゆるプロダクトのコードに触れられること。~新卒MIXIエンジニア成長の軌跡、その後〜

                                                                新卒MIXIエンジニアの成長の軌跡をシリーズでお伝えします。どのような成功体験や失敗体験を経験し、どんな風に成長したのか?スキルやマインドの成長に大きく役立ったターニングポイントとは?について迫ります。 今回ご紹介するのは、開発本部のエンジニアとして活躍する宗形です。技術力やコミュニケーション力において、自身の成長を感じていると語る彼が、これまでどのような努力を重ねてきたのか、話を聞きました。 Go言語への移行という一大プロジェクトに挑む ──宗形さんはもともとエンジニア志望だったんですか? 大学時代は化学系の学科に所属しており、趣味やアルバイトでプログラミングに没頭していました。プログラミングが結構好きだったので、就職先はエンジニアとしてたくさんコードが書けて、先輩のコードを見て学べる環境がいいな……というざっくりとした希望を持っていました。 ──MIXIを知ったきっかけは? 求人イベン

                                                                  MIXI開発本部で働く面白さは、あらゆるプロダクトのコードに触れられること。~新卒MIXIエンジニア成長の軌跡、その後〜
                                                                • メタップス、SREに関する意識調査に基づいた、SRE組織を月額モデルで提供する「SRE:shine」をリリース

                                                                  メタップスは、Webサービスを提供する企業のCTO・開発責任者・リードエンジニアを対象に実施した、SREに関する意識調査の結果を、5月26日に発表した。同調査は、4月19日~22日の期間に行われ、303名から有効回答を得ている。あわせて、同調査の結果を受けて、さらに行った調査に基づき、SRE組織を月額モデルで提供する「SRE:shine(エスリシャイン)」をリリースした。 Webサービスを提供する企業のCTO・開発責任者・リードエンジニアに、勤務先にSREが正社員として在籍しているかを尋ねたところ、「はい」が34.5%、「いいえ」が56.1%となっている。 調査対象者のうち、「自社でSREの業務内容を実施できている」と答えた人に、勤務先でSREの業務内容を誰が担当しているかについて、もっとも当てはまる人を選んでもらった質問では、「SRE」が18.7%、「SREではない、システム担当者」が6

                                                                    メタップス、SREに関する意識調査に基づいた、SRE組織を月額モデルで提供する「SRE:shine」をリリース
                                                                  • 公衆衛生学xスタートアップ事業開発、Ubieで引き起こしたい「健康」の未来|Moriya Ubie / 聖路加SPH

                                                                    こんにちは、守屋祐一郎(@_ymoriya_)と申します! 「テクノロジーで人々を適切な医療に案内する」Ubie株式会社(Ubie Discovery)にて、医療機関向けの事業開発に従事しています。 一人でも多くの方に医療/ヘルスケア/公衆衛生に対するモチベーションを抱いて頂くこと、Ubieで同じ山を登る仲間とのご縁に期待して、久しぶりnoteを書きます。 特にこんな方に読んでほしい 臨床、研究とはまた異なる課題解決手法を模索したい医療従事者 医療/ヘルスケア/公衆衛生に関心があるビジネスパーソン 前向き/コトに向かえるスタートアップで働きたい方 簡単に自己紹介2018/3 慶應経済卒 2018/8-2021/11 セルソース(医療機関向け営業、新規事業、メディカル) 2021/12- Ubie株式会社(Ubie Discovery)(医療機関向け事業開発等) 2023/4 聖路加国際大学

                                                                      公衆衛生学xスタートアップ事業開発、Ubieで引き起こしたい「健康」の未来|Moriya Ubie / 聖路加SPH
                                                                    1