並び順

ブックマーク数

期間指定

  • から
  • まで

201 - 240 件 / 1293件

新着順 人気順

sreの検索結果201 - 240 件 / 1293件

  • AWSのAZ障害でもサービスを継続させる技術 - ABEJA Tech Blog

    こんにちは。ABEJAのインフラ管理してる村主 @rwle1221 です。 本ブログは ABEJA Advent Calendar 2019 の11日目です。 今日は、みなさん記憶に新しい2019年8月末に発生した AWS の東京リージョンの AZ 障害について、どのようにしていればサービス影響を与えずにシステムを稼働させられたのか。という話をしたいと思います。 振り返り 障害の詳細報告はこちら aws.amazon.com 有志によるまとめはこちらから piyolog.hatenadiary.jp 基本は「AZレベルで冗長化していれば問題ない」 中の人に聞くと「AZレベルで冗長化していれば問題ない」とのことでした。 しかし、2番目の方の記事を見ると有名どころのサービスが割と止まっていました。 じゃあ上で紹介されていたような会社がAZレベルの冗長化が出来ていなかったのか。 ※ ALB/WA

      AWSのAZ障害でもサービスを継続させる技術 - ABEJA Tech Blog
    • Four Keysを用いた改善活動のアンチパターンと、本質的な改善のために必要な「なぜ?」 - Agile Journey

      Agile Journeyをご覧のみなさん、はじめまして。株式会社リンクアンドモチベーションの川津(@KawatsuYusuke)です。こちらの記事では主に私たちがFour Keys メトリクスを元に、開発生産性向上を目指した活動に関する話題についてお伝えします。 と言っても、『LeanとDevOpsの科学』をはじめ、Four Keysの運用に関するトピックはすでに多く語られています。また、Four Keysは便利なメトリクスであるがゆえに、ときに「Four Keysを改善する」という手段が目的化してしまうことがあります。本稿では主にこれから開発生産性向上に取り組もうとしている方に向けて、私たちの取り組みと、体験したアンチパターンをもとに、「Four Keys改善の取り組みには "なぜ?" が大事」についてお伝えします。 私たちの開発生産性向上のはじまりと、目指すべき状態の設定 Four

        Four Keysを用いた改善活動のアンチパターンと、本質的な改善のために必要な「なぜ?」 - Agile Journey
      • [書評]「New Relic 実践入門 監視からオブザーバビリティへの変革」は可観測性を学び実践するための一冊 | DevelopersIO

        こんにちは、臼田です。 みなさん、よりよい運用してますか?(挨拶 今回は2021年9月15日に発売された書籍「New Relic 実践入門 監視からオブザーバビリティへの変革」の書評です。オブザーバビリティ(可観測性)について概念的にも実践的にもわかりやすい図とともに理解でき、特にNew Relicを活用して、単純な監視ではない、ビジネスに貢献するための運用の実践ができる一冊でした。 この記事ではこの書籍を読んで感じた、どんな人に向いているか、特に良かったところなどを書いていきます。 どんな人に向いているか 一言でいうと、「これからNew Relicを触る人、あるいは触り始めた人が活用できる書籍」です。「New Relic実践入門」というタイトルそのままですね。 逆に言えば、関連するオブザーバビリティについて理解を深めたい、あるいはNew Relicに限らない監視や運用の考え方を学びたいだ

          [書評]「New Relic 実践入門 監視からオブザーバビリティへの変革」は可観測性を学び実践するための一冊 | DevelopersIO
        • Gitのコミットログに詳細を書く習慣をつけている - freee Developers Hub

          おはこんばんちは、SREの橋本です。この記事は、freee Developers Advent Calendar 2021の16日め記事となります。 わたしがソフトウェアエンジニアとして仕事をするうえで、コミットログを詳細に記述する習慣づけがあり、この機会にその具体例をあえて共有してみます*1。以降はとくに明示しない限り、組織全体でルールがあるわけではなく、あくまでわたしの一個人の意見である点に注意してください。 モチベーション freeeでは、Webサービスからインフラ基盤およびその監視設定を含めてコードで管理されており、GitHub上でのPull Requestでのレビューを必須としています。わたし自身は社内の立候補制異動制度*2によってWeb開発の現場とSREを行き来してきましたが、どちらもリファクタリングのためにゼロベースでコードを書き直すこともあれば、機能追加やバグフィックスのた

            Gitのコミットログに詳細を書く習慣をつけている - freee Developers Hub
          • 不要な DNS リソースレコードは消そう / Delete unused DNS records

            https://yuru-sre.connpass.com/event/317749/ の LT 資料です

              不要な DNS リソースレコードは消そう / Delete unused DNS records
            • SRE の原則に沿ったトイルの洗い出しとトラッキング | Google Cloud 公式ブログ

              ※この投稿は米国時間 2020 年 2 月 1 日に、Google Cloud blog に投稿されたものの抄訳です。 作業効率を検証するために Google のサイト信頼性エンジニア(SRE)が使用している主な測定指標の一つが、日々の時間の使い方です。長期間のエンジニアリング プロジェクトのために時間を確保する必要がありますが、エンジニアには Google のサービスを稼働し続ける責任もあり、そこにも手作業が生じることがあります。Google の SRE は、いわゆる「トイル」に費やされる時間を勤務時間の 50% 未満にすることを目指しています。では、トイルとは何でしょうか。トイルに邪魔されずに開発スピードを維持するには何をすべきでしょうか。本稿ではこれらの問いについて見ていきます。 まずトイルの定義ですが、『Site Reliability Engineering』の第 5 章には次の

                SRE の原則に沿ったトイルの洗い出しとトラッキング | Google Cloud 公式ブログ
              • STORESを支える「運用週」という仕組み - STORES Product Blog

                みなさんは「保守・運用」と聞くとどのようなイメージをお持ちでしょうか? もしかしたら良いイメージをお持ちでない方もいらっしゃるかもしれません。 しかし、売り上げを生み出している既存コードの保守運用はビジネス上、新規機能開発と同等かそれ以上に重要な存在です。 保守運用は歴史あるサービスでは欠かせない作業ですが、STORESもその例外ではありません。 STORESの最初のコードが書かれてから、8年の歳月が経ちました。 今となってはコードの量も多く、今年(2020年)の8月に入社した私(@zakky)も全体を把握しきれてはいません。 STORESにジョインした最初の1ヶ月間、「商品の在庫数を一括で更新する機能」の開発に私は専念しており、その他の機能のコードを触る機会がほとんどありませんでした。 目の前のチケットを消化していくのに必死で、周りを見る余裕が無かったとも言えます。 「運用週」との出会い

                  STORESを支える「運用週」という仕組み - STORES Product Blog
                • インフラ構成ツールの「Pulumi 3.0」正式リリース。APIでPulumiを呼び出し可能、クラウドのアップデートに即時対応など

                  インフラ構成ツールの「Pulumi 3.0」正式リリース。APIでPulumiを呼び出し可能、クラウドのアップデートに即時対応など コードを用いてクラウドをはじめとするITインフラの構成を定義できる、いわゆるInfrastructure as Codeツールの「Pulumi」が、最新版となる「Pulumi 3.0」として正式リリースされました。 Announcing our new #CloudEngineering Platform (Pulumi 3.0)! Native providers with 100% API coverage Pulumi Packages to share #cloud components Automation API for programmatically deploying infrastructure from code Enterprise-g

                    インフラ構成ツールの「Pulumi 3.0」正式リリース。APIでPulumiを呼び出し可能、クラウドのアップデートに即時対応など
                  • スタディサプリENGLISHの基盤をECSからEKSに移行しました | Recruit Tech Blog

                    こんにちは、スタディサプリ ENGLISH SREグループの大島です。 オンライン英語学習サービスであるスタディサプリ ENGLISHは2015年10月のリリース1)当時は英語サプリという名前でリリースしていましたから5年が経ち、おかげさまでサービスを拡充させることができています。リリース当初からインフラにはコンテナを採用し、長い間AWSのコンテナオーケストレーションサービスのAmazon Elastic Container Service(以下、ECS)で運用してきましたが、この度ECSからAmazon Elastic Kubernetes Service(以下、EKS)に移行しました。 今回の記事では、その歴史の変遷となぜEKSにしたのかというところを書いていきたいと思います。 コンテナと歩んできた5年間 まず、ECSからEKSに移行しようと思ったきっかけの前に、インフラの歴史を少し振

                      スタディサプリENGLISHの基盤をECSからEKSに移行しました | Recruit Tech Blog
                    • カード業界の厳しいセキュリティと開発スピードをどう両立? Kyashに学ぶAWS活用

                      急成長中のスタートアップ企業は、多様なAWSサービスをどう選択・活用し、ビジネス課題を解決しているのでしょうか。本連載では、スタートアップ企業の中でエンジニアリングをリードしている担当者がそのアーキテクチャをひも解き、AWS活用術を紹介していきます。第5回はKyashでSREを担当する上原佑介氏が担当、テーマは「セキュリティ」です。記事の最後には、SAによるポイント解説もあります。(編集部) はじめに 株式会社KyashでSREを担当する上原佑介と申します。新卒でインフラエンジニアとしてサーバー構築・運用を経験したのち、Webサービスの運営企業を数社経て、Kyashへ入社しました。現在はサービス全体の信頼性向上を目指して、システム基盤や運用面の改善に取り組んでいます。 Kyashについて Kyashはスマートフォンアプリと連動するVisaカードです。 コンビニなどから現金をチャージして使え

                        カード業界の厳しいセキュリティと開発スピードをどう両立? Kyashに学ぶAWS活用
                      • 監視からオブザーバビリティへ〜オブザーバビリティの成熟度/From Monitoring to Observability - Maturity of Observability

                        2023/5/23開催「オブザーバビリティ最前線 〜 事例LTから学ぶ、オブザーバビリティの成熟度〜」

                          監視からオブザーバビリティへ〜オブザーバビリティの成熟度/From Monitoring to Observability - Maturity of Observability
                        • 「信頼性」を保ちつつ大規模サービスをリニューアルする / cookpad-tech-kitchen-service-embedded-sres

                          Cookpad Tech Kitchen #24 5800万人が使うサービスのリニューアルとその技術 ( https://cookpad.connpass.com/event/183385/ ) で、"「信頼性」を保ちつつ大規模サービスをリニューアルする" というタイトルで発表した際の資料です。 スライド内のリンクは次のとおりです。 - How SRE teams are organized, and how to get started: https://cloud.google.com/blog/products/devops-sre/how-sre-teams-are-organized-and-how-to-get-started - Design Docs at Google: https://www.industrialempathy.com/posts/design-docs

                            「信頼性」を保ちつつ大規模サービスをリニューアルする / cookpad-tech-kitchen-service-embedded-sres
                          • ZOZOTOWNを支えるリアルタイムデータ連携基盤 - ZOZO TECH BLOG

                            こんにちは、SRE部MA基盤チームの谷口(case-k)です。私達のチームでは、データ連携基盤の開発・運用をしています。 データ基盤には大きく分けて2種類あり、日次でデータ連携してるものとリアルタイムにデータ連携しているものがあります。本記事ではリアルタイムデータ連携基盤についてご紹介します。 既存のデータ連携基盤の紹介 リアルタイムデータ連携基盤の紹介 なぜ必要なのか 活用事例の紹介 データ連携の仕組みと課題 リプレイス後のリアルタイムデータ連携基盤 SQL Serverの差分データの取り方を検討 アーキテクチャ概要と処理の流れ Fluentdのプラグインを使った差分データの取得 Dataflowでメッセージの重複を排除 Dataflowで動的にBigQueryの各テーブルに出力 Pub/Subのメッセージ管理 イベントログ収集基盤 個人情報の取り扱い ビルド・デプロイ戦略 監視 データ

                              ZOZOTOWNを支えるリアルタイムデータ連携基盤 - ZOZO TECH BLOG
                            • スクラムを導入してチーム状態を可視化し持続可能なチームを目指す - ZOZO TECH BLOG

                              こんにちは、計測プラットフォーム開発本部システム部SREブロックの市橋です。2021年4月に新たに発足したチームで未経験ながらリーダーを任され、気づけば約2年が経過していました。これまでを振り返ってみると、まっさらな状態から安定したチームができてきたと感じています。今回は新米リーダーとして試行錯誤する中で、チーム状態を可視化して健全なチーム運営を目指した話を紹介します。 チーム状態の可視化を考えたきっかけ リーダーを任された当初、チーム運営上の課題が色々あるのは認識していましたが、どこから手をつけるべきかが自分の中で判然としませんでした。メンバーの時に一個人として感じていた課題も、チーム全体を俯瞰して見た時にどれから優先的に取り組むべきか自信を持って判断できませんでした。まるで大海原のど真ん中にいきなり放り出された感覚でした。 そんな悩みを抱えていた時、全社に導入されているWevoxのアン

                                スクラムを導入してチーム状態を可視化し持続可能なチームを目指す - ZOZO TECH BLOG
                              • SRE Practices in Organizations

                                Infra Study 2nd #7「SREと組織」の登壇資料です。 https://forkwell.connpass.com/event/228038/

                                  SRE Practices in Organizations
                                • モダンなシステムにSLI/SLOを設定するときのベストプラクティス

                                  New RelicではどのようにSLI/SLOを定義し、SREを実践しているか。その経験から、SLI/SLOについて解説した記事 Best Practices for Setting SLOs and SLIs For Modern, Complex Systems の翻訳です。 -- New Relicのサイト信頼性VPであるMatthew Flamingも、この記事に貢献しています。この記事はサンフランシスコその他で行ったFutreStack18での講演「SLOs and SLIs In The Real World: A Deep Dive.」をもとに作られています。 New Relicでは、サービスレベル指標(Service Level Indicator: SLI)とサービスレベル目標(Service Level Objective: SLO)を定義したり設定したりことが、サイト

                                    モダンなシステムにSLI/SLOを設定するときのベストプラクティス
                                  • メドピアのECSデプロイ方法の変遷 - メドピア開発者ブログ

                                    CTO室SREの侘美です。好きなLinuxディストリビューションはLinux Mintです。 メドピアでは現在多数のサービスを運用しており、そのほとんどがAmazon ECSを構成の中核として利用しています。 ECSに対してデプロイを行う方法としては、CodeDeploy、CodePipeline、Copilot(ecs-cli)等があり、CloudFormationやTerraform等のIaCツールで何をどこまで管理するかも合わせて検討する必要があります。 どの方法にもメリット・デメリットがあり、Twitterや技術ブログを観測している範囲ではデファクトスタンダードと呼べる方法は未だに無いように思われます。 メドピアで最初にECSを利用し始めたのは2018年ころであり、これまで試行錯誤しながらECSのデプロイ方法とタスク定義の管理方法を模索してきました。 今回はメドピア社内で試してきた

                                      メドピアのECSデプロイ方法の変遷 - メドピア開発者ブログ
                                    • ヘルスケアデータをGrafanaで見たくない…?〜健康 Reliability Engineering〜

                                      Blueskyのフォローお願いします! はじめに まずはこちらをご覧ください。 これは私のApple Watchで計測されたヘルスケアデータです。Apple Watchをつけていると、心拍数や歩数、睡眠時間などのデータが自動的にiPhone内に記録されます。 SREなら健康を維持するためにもSLIとSLOを設定して可視化するべきですよね? SREなら健康エラーバジェットが無くなりそうだったら「今すぐ寝ましょう!」と架電が来て欲しいですよね? 普通にやるとiOSアプリを用いて直接ヘルスケアデータを確認することになりますが、Web系のSRE的なエンジニアとしてはやはり業界標準の技術で可視化したいところです。 また、iOSアプリを開発するのは専門知識が必要となり非常に骨が折れる作業です。そもそもMacがないとできないですし。 そこで、今回は Apple Watchのヘルスケアデータを 全自動で良

                                        ヘルスケアデータをGrafanaで見たくない…?〜健康 Reliability Engineering〜
                                      • SRE座談会 - 株式会社はてな

                                        はてなでは、さまざまなチームのSRE(Site Reliability Engineer)が横断的に集まり、技術的な標準化を通じて社内の各チームのSREを支える活動を行っています。チームごとの具体的な取り組みについて、CTOのid:motemenと、SREのid:masayosu、id:taxintt、id:cohalzの3人に語ってもらいました。 はてなのSREが取り組む社内技術の標準化とはまずはみなさんの自己紹介、チームでの役割を教えてください。

                                          SRE座談会 - 株式会社はてな
                                        • Data Management Guide - 事業成長を支えるデータ基盤のDev&Ops #TechMar / 20211210

                                          ---------------------------------------------------------------------------------------- 【PR】一緒に働きましょう! https://kazaneya.com/kdec ---------------------------------------------------------------------------------------- 「Tech × Marketing Conference 2021 #データマネジメント」基調講演の登壇資料です。 https://techxmarketing.connpass.com/event/229173/ データ活用やDXが注目されている一方で、実際にプロジェクトを進めようとすると「必要なデータが入力されていない」「用途を実現できるほどデータ品質が高

                                            Data Management Guide - 事業成長を支えるデータ基盤のDev&Ops #TechMar / 20211210
                                          • メルペイにおけるマイクロサービス運用の苦労と改善 / CloudNative Days Tokyo2020

                                            2020.09.08 に CloudNative Days Tokyo2020 で発表した内容です。 メルペイの1年半におけるマイクロサービス運用の経験と苦労した事例について紹介しました。

                                              メルペイにおけるマイクロサービス運用の苦労と改善 / CloudNative Days Tokyo2020
                                            • スクラムを1年回して SREと開発組織がどう変わったのか

                                              How to Create Impact in a Changing Tech Landscape [PerfNow 2023]

                                                スクラムを1年回して SREと開発組織がどう変わったのか
                                              • 東証がSREによるレジリエンス向上に挑む理由。過去のシステム障害から何を学んだのか?(後編) ソフトウェア品質シンポジウム2022

                                                東証がSREによるレジリエンス向上に挑む理由。過去のシステム障害から何を学んだのか?(後編) ソフトウェア品質シンポジウム2022 9月22日と23日の2日間、一般財団法人日本科学技術連盟主催のイベント「ソフトウェア品質シンポジウム2022」がオンラインで開催され、その特別講演として株式会社日本取引所グループ 専務執行役 横山隆介氏による「日本取引所グループシステム部門の取組み ~システムトラブルからの学びと今後の挑戦~」が行われました。 現在、日本取引所グループ傘下の東京証券取引所(以下、東証)は、過去に何度か大きなシステムトラブルを経験し、それを教訓として組織とシステムの改善を続けています。 そこで今回、シンポジウム企画委員会からの要望を受けて行われた特別講演で、東証がこれまでのシステム障害から何を学び、そこから何を変化あるいは進化させてきたのか。わずか2年前のNASのハードウェア障害

                                                  東証がSREによるレジリエンス向上に挑む理由。過去のシステム障害から何を学んだのか?(後編) ソフトウェア品質シンポジウム2022
                                                • SREチームがNew Relicを使って AWSコスト最適化に貢献した話 | ドクセル

                                                  SREチームがNew Relicを使って AWSコスト最適化に貢献した話 株式会社ニューズピックス 安藤 裕紀 NRUG (New Relic User Group) SRE支部 Vol.3 - 2023.6.27(Tue)

                                                    SREチームがNew Relicを使って AWSコスト最適化に貢献した話 | ドクセル
                                                  • 効率的なGo

                                                    本書は、Goアプリケーションの効率やスケーリングに関する疑問に対して、実用的な答えを与えてくれる書籍です。 レイテンシー、CPU、メモリ資源についての知識、またOSやGoがそれらを抽象化している方法について、またソフトウェアの効率に関わるデータ駆動な意思決定を行う事の意味や、計算量解析の手法、最適化状況の例など、実用的なソフトウェアを開発する中での「効率」に関する知識を紹介します。 Goやその他のモダンな言語で書かれたプログラムを設計、作成、変更するソフトウェア開発者、また誰かが書いたソフトウェアを主に運用するDevOpsエンジニア、SRE、シスアド、プラットフォームチームなどの読者が、いつ、どのように効率最適化を適用するかという問いに答えるための知識を身に付けることができるでしょう。 関連ファイル 原著者による本書のサンプルリポジトリ 正誤表 ここで紹介する正誤表には、書籍発行後に気づい

                                                      効率的なGo
                                                    • クエリログを使ったPostgreSQLの負荷テスト - カンムテックブログ

                                                      SREの菅原です。 この記事はカンム Advent Calendar 2022の4日目の記事になります。 少し前にサービスで使っているPostgreSQLをRDSからAuroraに移行しました。 Auroraに移行するため色々と作業を行ったのですが、その中でAuroraの性能を測るために行った負荷テストについて書きます。 pgbench まず最初にpgbenchを使って、単純なワークロードでのRDSをAuroraの性能差を測ってみました。*1 以下がその結果です。 MySQLで同様のテストをmysqlslapを使って行ったことがあって、そのときは概ねAuroraのほうが性能が高かったので、同様の結果になると考えていたのですが、RDSのほうが性能が高い結果になったのは予想外でした。 ただAuroraのアーキテクチャを考えると、pgbenchのような細かすぎるトランザクションの場合はRDSのほ

                                                        クエリログを使ったPostgreSQLの負荷テスト - カンムテックブログ
                                                      • k6による負荷試験 入門から実践まで

                                                        https://techfeed.io/events/techfeed-experts-night-20 TechFeed Experts Night#20 〜 Webパフォーマンス・チューニング最前線 : 前編(概要、モニタリング、負荷テスト編)

                                                          k6による負荷試験 入門から実践まで
                                                        • SRE Technology Map

                                                          サイバーエージェントは創業来、インターネット産業の拡大とともに事業成長を続けてきました。またそれと同時に、SRE領域へも注力してきました。SRE Technology Mapは、サイバーエージェントのSREチームの取り組みを知ってもらうことを期待して製作しています。 Developer Experts of SRE 柘植 翔太 Shota Tsuge サイバーエージェントが提供する幅広い事業サービスの信頼性向上に、私達SREsは日々取り組んでいます。事業領域や事業フェーズ、組織規模が異なれば、SREsのアプローチも違ってきます。それぞれのSRE組織が、様々な課題解決に取り組んだことによって得られた知見や考え方などを多くの人に知ってもらいたいと考え、「SRE Technology Map」を作成しました。 「SRE Technology Map」を通して、少しでもサイバーエージェントに興味を

                                                            SRE Technology Map
                                                          • DevOpsトポロジー

                                                            みなさんこんにちは。@ryuzeeです。 2021年12月1日に発売した『チームトポロジー 価値あるソフトウェアをすばやく届ける適応型組織設計』ですが、おかげさまで多くの方に読んでいただき感謝しています。 チームトポロジー 価値あるソフトウェアをすばやく届ける適応型組織設計著者/訳者:マシュー・スケルトン、 マニュエル・パイス、 原田 騎郎、 永瀬 美穂、 吉羽 龍太郎出版社:日本能率協会マネジメントセンター発売日:2021-12-01単行本:280ページISBN-13:9784820729631ASIN:4820729632 今日はこの「チームトポロジー」の元となったDevOpsトポロジーについて紹介します。 このアイデアは2013年に著者の1人であるマシュー・スケルトンが自身のブログに書いた記事をまとめたものです。 2013年頃といえばDevOpsが流行しはじめた時期だと思いますが、こ

                                                              DevOpsトポロジー
                                                            • リモートアジャイル開発ノウハウ集 | Agile Studio

                                                              私たちはこれまで、様々なお客さまと一緒にリモートアジャイル開発を実施してきました。 リモートワークの時代に私たちの実践知が少しでも役に立つならという思いで、 ​ノウハウ集という形で公開させていただきます。是非ダウンロードしてお読みください。

                                                                リモートアジャイル開発ノウハウ集 | Agile Studio
                                                              • ISUCON入門以前_ISUNARABE_LT#1

                                                                Babylon.jsと色々なものを組み合わせる:ブラウザのAPIやガジェットや2D描画ライブラリなど / Babylon.js 勉強会 vol.3

                                                                  ISUCON入門以前_ISUNARABE_LT#1
                                                                • 「システム運用の基本と戦略」についてただまとめる

                                                                  23卒でバックエンドエンジニアをしているたかしゅんです。(@1341Shun) 先日、株式会社サイバーエージェントAI事業本部の2024年度 エンジニア新卒研修でシステム運用に関する講義を行いました。 そこで話した内容とスライドを完全公開したので、内容について解説します。 90分の内容のため、かなり長いですが、個人的にぜひ一読して欲しい内容になっています。 実際の資料はこちらになります↓ 自己紹介 こんにちは、たかしゅんと言います。2023年度入社で今年で2年目になります。株式会社サイバーエージェントのAIオペレーション室で新規立ち上げをやっております。 入社して最初に広告プロダクトに配属し、PipeCDの導入などのDevOps業務を中心に行なっておりました。 記事もあるのでもしよろしければ、ご覧ください。 2月中旬からAIオペレーション室に移動し、新規立ち上げのインフラ環境の構築からCI

                                                                    「システム運用の基本と戦略」についてただまとめる
                                                                  • ソフトウェア開発における人的リソースの理想的な配分

                                                                    背景SRE という概念が生まれてから数多くの開発チームで「ソフトウェアエンジニアリングの手法で運用を改善する営み」が行われてきた。 同時に、技術的負債が経営レベルで認知されるようになり、日常の会話の中でも長期・短期のトレードオフを念頭に置いたプロジェクト推進がやりやすくなったのは言うまでもない。 しかし、スタートアップでは Dev と Ops が別れていることは稀で、「全員が全てに対応する」ような状況になってしまうことがしばしばある。これは小さい組織だけの問題ではなく、例えば大企業の中の新しいプロダクト開発チームでも同じことが言える。 SRE を念頭に置き、技術的負債の主導権を握るために必要なチーム体制とはどういうものなのだろうか? タスクの分解小さな組織のソフトウェアエンジニアは日々数多くのタスクを与えられている。場合によっては数名のメンバーで新規機能開発から日々の不具合修正、そして S

                                                                      ソフトウェア開発における人的リソースの理想的な配分
                                                                    • SRE/DevOps/Kubernetesを追いかけてきた2020年をふりかえる - 運び屋 (A carrier(forwarder) changed his career to an engineer)

                                                                      ここで話すこと ここで話さないこと SRE/DevOps/Kubernetesをテーマにブログを書き始めた理由 気をつけていること オススメWebページ7選 The Blameless Blog Netflix Technology Blog Facebook Engineering Datadog blog The GitHub Blog Julia Evans The Kubernetes Podcast from Google ブログによる変化 反響 やってみて思ったこと 異動による変化(2020年4月) コミュニティー活動による変化 今後の目標&告知 これは エーピーコミュニケーションズ Advent Calendar 2020 の20日目の記事です。 自身の中で多くの変化があった2020年をふりかえりつつ、タイトルにあるテーマ(SRE/DevOps/Kubernetes)を追いか

                                                                        SRE/DevOps/Kubernetesを追いかけてきた2020年をふりかえる - 運び屋 (A carrier(forwarder) changed his career to an engineer)
                                                                      • これでよいのか: SRE チームの成熟度評価について考える | Google Cloud 公式ブログ

                                                                        ※この投稿は米国時間 2021 年 6 月 19 日に、Google Cloud blog に投稿されたものの抄訳です。 Google の顧客信頼性エンジニアは、Google Cloud のお客様の組織で実践を支援するよう選任された、Google サイト信頼性エンジニア(SRE)です。その仕事の一つに、運用の成熟度を高めるために行う経営陣や SRE チームへのアドバイスがあります。Google はそのディスカッションの多くで、「今やっていることは『SRE の仕事』でしょうか?」あるいは、もう少し実存的不安の響きがする「自分たちを SRE と呼んでもいいでしょうか?」という質問を何度も受けています。 この質問には、すでに、SRE ワークブックの実践リストで答えています。しかし、このリストは「SRE とは何か」については詳しいですが、その理由について詳しく述べていないため、SRE とは何かとい

                                                                          これでよいのか: SRE チームの成熟度評価について考える | Google Cloud 公式ブログ
                                                                        • 生産性改善のためのトイル計測 - maru source

                                                                          Ubie Discoveryというヘルステックスタートアップでプロダクト開発エンジニアをしている丸山@h13i32maruです。 最近、チームの生産性改善をするためにトイル計測をはじめました。今日はこのトイル計測について簡単に紹介します。 「生産性」ではなく「伸びしろ」の計測 手作業、繰り返される作業、自動化が可能、etc 改善可能な作業を計測する トイル40%超え トイルの撲滅は...これからだ! 「生産性」ではなく「伸びしろ」の計測 生産性を改善するにはまずは生産性の計測から始めることが重要です。 計測指標として有名なものにFour Keysがあります。Four Keysは「変更のリードタイム」「デプロイ頻度」「変更失敗率」「平均修復時間」を計測してチームのパフォーマンスを評価するものです。このFour Keysは組織全体としての生産性の結果指標だと理解しています。例えば僕のチームでは

                                                                            生産性改善のためのトイル計測 - maru source
                                                                          • なぜ Four Keys を改善するのか?/productivity-con-link-and-motivation

                                                                            【開発生産性Conference】 リンクアンドモチベーション登壇資料(2023/07/13) 『なぜ Four Keys を改善するのか? 〜How ではなく Why を重視したメトリクス改善活動〜』 #開発生産性con_findy #リンクアンドモチベーション #リンモチ ============================================= 【イベント情報】 ■イベントページ https://findy.connpass.com/event/283417/ ■特設サイト https://dev-productivity-con.findy-code.io/ 【株式会社リンクアンドモチベーション】 ■お問い合わせ engineer_pr@lmi.ne.jp ■Entrancebook https://note.com/lmi/n/n179505e048f4 ■テック

                                                                              なぜ Four Keys を改善するのか?/productivity-con-link-and-motivation
                                                                            • タスクランナーとしてのmakeを使う際の工夫と注意点 - KAYAC engineers' blog

                                                                              SREチームの長田です。 みなさま開発・運用上の定形オペレーションに伴うタスク実行をどのように管理していますか? 今回は make をタスクランナーとして使う例を紹介します。 タスクランナーがほしい タスクランナーを使う主なモチベーションは以下の2つです。 タスクをリスト化したい タスクの実行インターフェイスを統一したい タスクがリスト化されていれば、それ自体が生きたドキュメントとして機能します。 また、タスクの実行インターフェイスが統一されていれば、 例えばタスクに前処理や後処理を追加したとしても、 開発・運用メンバーが実行するべき操作が変わることはありません。 操作変更の周知コストも下がりますし、変更に伴う操作ミスも減らすことができます。 タスクランナーに求めるもの タスクランナーの機能としては必要最低限のものがよいと考えています。 高機能なタスクランナーも魅力的ではあるのですが、タス

                                                                                タスクランナーとしてのmakeを使う際の工夫と注意点 - KAYAC engineers' blog
                                                                              • Zero Touch Productionへの移行 | メルカリエンジニアリング

                                                                                ※本記事は2022年1月26日に公開された記事の翻訳版です。 筆者:Dylan Lau (@aidiruu), Platform DXチーム Zero Touch Production (ZTP)は、本番環境に加えられるすべての変更が、自動化、安全なプロキシ、または監査可能なBreak-glass(緊急アクセス)システムによっておこなわれるという概念です。人為的ミスに起因する本番環境での障害には、次のようなさまざまな種類があります。 構成エラー スクリプトエラー 間違った環境でのコマンド実行 ZTPはこれらのエラーによる障害発生のリスクを軽減できます。メルカリでは、ZTP環境への移行に取り組んでいます。最初のステップは、一時的な役割付与システムであるCarrierを実装することです。 この記事では、以下について説明します。 ZTPの重要性 ZTPを実装するプロセスとCarrierを始めた理

                                                                                  Zero Touch Productionへの移行 | メルカリエンジニアリング
                                                                                • クリティカルユーザージャーニーを利用した SLI/SLO の改善 / #mackerelio

                                                                                  Exadata Database Service on Dedicated Infrastructure(ExaDB-D) UI スクリーン・キャプチャ集

                                                                                    クリティカルユーザージャーニーを利用した SLI/SLO の改善 / #mackerelio