[5ページ] SREの人気記事 424件 - はてなブックマーク

161 - 200 件 / 424件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

SREの検索結果161 - 200 件 / 424件

インシデント指揮官トレーニングの手引き | Yakst
- 150 users
- yakst.com
- テクノロジー
- 2019/09/06
[SRE]原文 An Incident Command Training Handbook – Dan Slimmon (English) 原文著者 Dan Slimmon 原文公開日 2019-06-24 翻訳依頼者翻訳者 meiq 翻訳レビュアー doublemarket 原著者への翻訳報告 1723日前 Twitterで報告済み編集私が Hashicorp で担った最初の仕事のひとつは、社内向けのインシデント指揮官のトレーニング資料を作ることでした。これは私自身がインシデントへの対処にあたりながら何年ものあいだ肌身に感じてきた、あらゆる類の考えをまとめ上げる良い機会となり、最高に面白いタスクでした。以下は私の書いたトレーニング資料、ほぼそのままです。あなたがインシデントレスポンスのポリシーを定義するにせよ、即興でインシデントレスポンスを行うにせよ、お役に立てたら幸いです。
- 監視
- SRE
- devops
- incident
- 運用
- あとで読む
- 障害
- トレーニング
- hashicorp
- management
組織に対してSREを適用するとどうなるか
- 150 users
- speakerdeck.com/kuniim
- テクノロジー
- 2023/02/01
どのようなシステムもそれを作るのも運用するのも人であり（SREが目指すのが運用をなくすことだとしても）、大抵の場合、一人ではなく組織としてシステムを作っていますが、信頼性の低い組織からは信頼性の高いシステムは生まれることは考えにくいです。 SRE NEXT 2022で提起した組織に対してSREを適用することでどうやって信頼性を保つことができるかということについて、実際に組織に起きた問題とそれにどういうプラクティスを適用し、どうなったのかを紹介します。
- SRE
- あとで読む
- 組織
- マネジメント
- 運用
- 考え方
- 組織論
- management
- 開発
SLOを活用した技術的改善
- 149 users
- speakerdeck.com/juju62q
- テクノロジー
- 2021/09/30
株式会社タイミーではスキマバイトプラットフォームを開発・運用しています。サービスもリリースして3年を超え、"負債"と呼ばれるものが増えてきました。一方でビジネス的に開発したいものは後を絶ちません。そこで開発チームでSLOを制定し、サービスの健全な状態を測定・監視することで「システムが健全にサービス提供できているか」を調べ、必要なときに必要な改修を行えるようにしました。本セッションでは弊社のSLOの解釈や利用方法を伝えるとともに、実際に感じたメリットや行われた技術的改善を紹介します。セッション動画 https://www.youtube.com/watch?v=VburNEFcg64
- 運用
- あとで読む
- devops
- SLO
- エンジニア
- 技術
- 開発
- CTO
- Webサービス
- sre
Don't Use Kubernetes, Yet
- 148 users
- matt-rickard.com
- テクノロジー
- 2022/06/19
Early-stage startups shouldn't run on Kubernetes yet. But eventually, growth-stage and large companies should be running on Kubernetes in some form. Kubernetes Maximalism doesn't mean one-size-fits-all. Infrastructure should progressively grow with your workloads and team. How can you choose the right technology now so that you can maximize growth and minimize pain later when you inevitably outgro
- kubernetes
- k8s
- あとで読む
- sre
- cloud
- fargate
- serverless
- container
- クラウド
「マンガが快適に読める」を数値化し、SLOをマンガビューワに導入するまで - Hatena Developer Blog
- 147 users
- developer.hatenastaff.com
- テクノロジー
- 2020/08/31
マンガビューワにおけるサービスレベルとはなぜSLOを策定したかったのかサービスレベルを単純に決める何をサービスレベル指標としてどう計測するか一般的なSLIの表現期間を移動しながら集計するアクセスログからサーバーのSLIを計測する PageSpeed Insights APIでフロントエンドを計測プロダクトオーナーとともにSLOを決定する決定したSLO どのように監視するかまとめ株式会社はてなのマンガチームでSREをしているhappy_siroです。私がチームで担当しているサービスは、いくつかのWebマンガサイトで採用されている「GigaViewer」というマンガビューワです。 GigaViewerチームでは、サービスのSLOを策定しました。理由は、SLOに基づいて開発速度と信頼性のバランスをとるためです。この記事では、私がチームメンバーと協力して「GigaView
- SRE
- performance
- SLO
- あとで読む
- hatena
- development
- 漫画
- サービス
- developer
- パフォーマンス
デプロイ今昔物語〜CGIからサーバーレスまで〜 / The deployment technics
- 147 users
- speakerdeck.com/mackee
- テクノロジー
- 2023/03/19
YAPC::Kyoto 2023
- デプロイ
- あとで読む
- 運用
- サーバ
- DevOps
- SRE
- 開発
- テスト
複数AWSアカウントのインフラを同じコードで Terraform管理するプラクティス - ANDPAD Tech Blog
- 147 users
- tech.andpad.co.jp
- テクノロジー
- 2021/11/25
こんにちは！アンドパッドSREの宜野座です。前回は AWSのアカウント運用改善の取り組みについて記事を書かせていただきました。今回はアンドパッドでIacへの取り組みとして行っているものの一例として、複数アカウント・複数環境を同一コードでTerraform管理するプラクティスを紹介したいと思います。少し長くなりますが、お読みいただけると幸いです。前回ブログ記事 tech.andpad.co.jp なぜIaC(Infrastructure as Code)に取り組んでいるのか Terraformを選んだ理由同一コードでTerraformを複数アカウント・複数環境へplan, applyしたい terraform init terraform plan terraform apply 環境を増やしたい場合環境ごとにリソースを作成したり、作成しないようにしたい他の方法に関して
- terraform
- aws
- あとで読む
- SRE
- インフラ
- 環境
TVer Tech Blog - TVer Tech Blog
- 147 users
- techblog.tver.co.jp
- テクノロジー
- 2022/05/11
はじめまして。TVerでモニタリング・オブザーバビリティ周りを担当している加我です。この度TVerのTech Blogをスタートすることになりました！テックブログ開設の経緯昨年の4月にTVer Technologies社がTVer社に合流し、エンジニアリソースが拡張して開発範囲が増えたことで、新たにTVerとしてのテックブログを開設しようというのが経緯です。 tver.co.jp 今後はこちらの方で記事を公開していくことになりますが、これまで私達がどのような事をしてきたのかに関してはTVer Technologiesのテックブログも御覧ください。 TVer Technologiesのテックブログはこちら techblog.tver-tech.co.jp どんな感じにしていきたいか今後テックブログでは私達がサービス開発を進める上で発生する課題をどのように解決しているのか、どのような技
- TVer
- あとで読む
- 技術
- サービス
- blog
- tech
- technology
- テレビ
- 開発
Microservices Architect in DMM Platform - DMM inside
- 146 users
- inside.dmm.com
- テクノロジー
- 2021/12/05
｜DMM inside
アプリチーム x SRE チームによるアプリケーションモニタリング運用改善 - freee Developers Hub
- 145 users
- developers.freee.co.jp
- テクノロジー
- 2022/02/15
freee人事労務の品質改善を専任で活動している keik です。 freeeではアプリケーションパフォーマンスモニタリング（APM）に Datadog を利用しています。 SRE チームが導入し、アプリケーション開発チームに利用提供する形で運用されています。導入のきっかけについては以下の記事でも触れられています。 developers.freee.co.jp Datadog APM の画面は多機能かつ柔軟で、例えばウェブサーバーが受けたリクエスト処理の内訳を視覚的にドリルダウンできたり、リクエストや SQL クエリごとのレイテンシやエラー率を計測してダッシュボード化してくれたり、また全画面で共通的に「タグ」や日時を用いたフィルタリングができたりします。直感的なだけなく、見た目もオシャレで、適当に眺めているだけでもワクワクします。しかし、私達は「ここに映っているもの」が何なのか、正直分
- SRE
- あとで読む
- Datadog
- APM
- freee
- monitoring
- 運用
- Rails
- チーム
- サーバ
SREこのへんで苦戦しがちじゃないですか？
- 141 users
- speakerdeck.com/netmarkjp
- テクノロジー
- 2024/01/16
登壇資料 SRE立ち上げてどうなった？最新のコア技術とSRE事情 Lunch LT https://findy.connpass.com/event/305677/ ハッシュタグ：#SRE_findy
- SRE
- あとで読む
- speakerdeak
- 開発
- 資料
- slide
エリート DevOps チームであることを Four Keys プロジェクトで確認する | Google Cloud 公式ブログ
- 139 users
- cloud.google.com
- テクノロジー
- 2020/10/01
※この投稿は米国時間 2020 年 9 月 23 日に、Google Cloud blog に投稿されたものの抄訳です。 DevOps Research and Assessment（DORA）チームが実施した 6 年間の研究から、ソフトウェア開発チームのパフォーマンスを示す 4 つの指標が確立されました。デプロイの頻度 - 組織による正常な本番環境へのリリースの頻度変更のリードタイム - commit から本番環境稼働までの所要時間変更障害率 - デプロイが原因で本番環境で障害が発生する割合（%）サービス復元時間 - 組織が本番環境での障害から回復するのにかかる時間概要レベルでは、デプロイの頻度と変更のリード時間は速度の指標であり、変更障害率とサービス復元時間は安定性の指標です。チームはこれらの値を測定し、継続的に改善を繰り返すことで、ビジネス成果を大幅に向上させることができま
- DevOps
- あとで読む
- google
- 開発
- 組織
- SRE
- cloud
- development
RDS Blue/Green Deployments を使ってシュッと utf8mb4 にマイグレーションした話 - カミナシエンジニアブログ
- 139 users
- kaminashi-developer.hatenablog.jp
- テクノロジー
- 2023/07/03
こんにちは。ソフトウェアエンジニアの坂井 (@manabusakai) です。カミナシでは RDB に Amazon Aurora MySQL 2（MySQL 5.7 互換）を使っています（以下 Aurora MySQL と略します）。ある日、社内の Slack で「𠮷」などの文字列が登録できないのではないかという話が出ました。これを聞いて「あー」と思った方も多いでしょう。 MySQL で有名な UTF-8 の 4 バイト文字問題で、歴史的な理由から MySQL 5.7 以前では utf8 の文字セットは utf8mb4 ではなく utf8mb3 を指しています。 dev.mysql.com カミナシのアプリケーションは 4 バイトの文字列が入力された場合はシステムエラーを返す実装になっていますが、エラーの内容をユーザーにわかりやすく伝えることは難しいためユーザー体験としても良くない
- mysql
- aurora
- aws
- db
- あとで読む
- rds
- マイグレーション
- software
SRE に成る君に最低限の開発力を身に着けてほしい - じゃあ、おうちで学べる
- 139 users
- syu-m-5151.hatenablog.com
- テクノロジー
- 2022/06/23
はじめにまず、はじめに皆さんへ言っておきたいことがあります。このドキュメントの目的は皆さんをやる気にさせて一心不乱にコードを書きまくって新機能追加や改善をしてソフトウェアを開発していってほしいというわけではないということです。もちろん、そうなってくれれば嬉しいですが気合が入ったからプログラムを急に書けるようになるわけではないのでそのような目的は一切ありません。また、この文章にはインフラエンジニアがコードを読み書きできなくて良いという意図はなくポジショニングトーク的にSREという単語を利用しておりますので何も言わないでください。 SREはそもそも、コードを書かなくてもよいエンジニアではない SREとは、ITサービスの信頼性を高めるために、ITエンジニア（開発者）が信頼性向上のために行う設計やアプローチ、またはこれらを行うチームや役割を指します。 Google では、SREチームの50～
- SRE
- あとで読む
- 開発
- 運用
- インフラ
- 仕事
- エンジニア
- 考察
- development
運用技術者組織の設計と運用 / Design and operation of operational engineer organization
- 138 users
- speakerdeck.com/nari_ex
- テクノロジー
- 2019/12/12
第12回インターネットと運用技術シンポジウム（IOTS 2019）～運用管理する人”も”報われるシステムの構築を考える～にて招待講演を行った際の資料です。概要: https://www.iot.ipsj.or.jp/symposium/iots2019/ プログラム: https://www.iot.ipsj.or.jp/symposium/iots2019-program/
- 運用
- 設計
- あとで読む
- 組織
- 技術
PairsにおけるSLI/SLO再定義
- 137 users
- speakerdeck.com/takumiogawa
- テクノロジー
- 2021/11/19
https://sre-lounge.connpass.com/event/227250/
- sre
- slo
- あとで読む
- datadog
- management
一休.com サイトパフォーマンス改善 - 2023年夏の振り返り - 一休.com Developers Blog
- 137 users
- user-first.ikyu.co.jp
- テクノロジー
- 2023/09/15
ヤフー株式会社より出向しております、卯田と申します。主務で、一休.comおよびYahoo!トラベルのフロントエンド開発を担当しています。兼務で、ヤフー株式会社の全社横断組織でWebパフォーマンス改善の推進を行っております。本稿では、直近半年弱(2023年2月〜8月)で、断続的に行っていた一休.comのパフォーマンス改善について振り返ります。開始が2023年2月となった理由は、Nuxt3バージョンアップ以降にパフォーマンス改善活動に着手したためです。一休.com/Yahoo!トラベルのNuxt3バージョンアップ詳細については、以下のブログをご覧ください。 user-first.ikyu.co.jp サイトパフォーマンス改善の意義改善の方針方針1: Core Web Vitalsを改善する方針2: 重要課題から優先的に対応する改善の進め方可視化ブラウザサイドサーバーサイ
Four Keys 〜自分たちの開発レベルを定量化してイケてる DevOps チームになろう〜
- 136 users
- blog.recruit.co.jp
- テクノロジー
- 2021/03/31
はじめにこの記事タイトルに興味をもって読み始めていただいている方の多くは、ソフトウェアエンジニアとしてチームで開発をしていたり、エンジニアリングマネージャーとしてチームビルディングやマネジメントをされている方なのではないかと思います。実際、この記事を書いている加藤も、リクルートライフスタイルのデータプラットフォームグループ (以前は CETチームと呼ばれていました) に所属するデータエンジニアとして、データ活用のための基盤開発・運用を行っている一人です。また、担当している社内データプロダクトのプロダクトマネージャーも兼任しています。本記事では、自分の所属している DevOps チームを「イケてる DevOps チーム」にするために取り組んだ内容や気づいた点をお伝えしたいと思っています。目次はじめに「イケてる」DevOps チームってなに？ Four Keys とはなぜ Fo
- devops
- あとで読む
- 開発
- チーム
- BigQuery
- development
- google
- github
インフラエンジニアからアプリケーションエンジニアになって1年経った - あしたから本気だす
- 135 users
- enokawa.hatenablog.jp
- テクノロジー
- 2023/05/13
気づいたら入社して 8 年も経っていた。 2022 年の 4 月にアプリケーションエンジニアへ転向したので、その経緯や転向してやったこと、今やっていることをまとめてみる。転向の経緯自分で作りたいものを作りたかったからというのが一番大きい。アイレットに入社してから 7 年間インフラエンジニアとして生きてきて、ほぼ毎日楽しく業務に励んでいた。5 年目くらいから「あーこれつくれたら便利だな」という場面に何度も遭遇した。例えば、日々の業務を効率化するような Web アプリケーションや CLI、内部向け API などあったら便利なモノだ。「よしつくったろ！」と意気込むも手が進まず、最終的には諦めて要件を纏め、コードを書くのが得意な人にお願いしたりしていた。そして要件通りのモノができあがって喜びつつも、「あぁこうやって実装すればいいのか」「実装できてすごいなぁ」「オレにもできたらなぁ」と複雑
Terraform管理されたステージング環境・本番環境の差異を検出したくて頑張っている話 - KAYAC engineers' blog
- 134 users
- techblog.kayac.com
- テクノロジー
- 2022/10/28
SREチームの橋本です。今回はステージング環境の運用でありがちな本番との差分に対処する試みを紹介します。背景ステージング環境について、例えばIT用語辞典ではステージング環境とは、情報システムやソフトウェアの開発の最終段階で検証用に用意される、実際の運用環境と変わらない環境のこと。と説明しています。検証用ですから、インフラ面で言っても本番環境となるべく一致した構成であってほしいということになります。しかし実際にはさまざまな経緯（ステージング環境を後から立てたり！）から、たとえTerraform管理していたとしても差異が発生してしまうことがあります。こうしたとき、その差異を検出する一つの方法としてはTerraformの.tfファイルを比較することですが、これにもいろいろな書き方がありえます。例えばaws_db_proxy_endpointはterraform-provider-a
[書籍レポート] 「オブザーバビリティ・エンジニアリング」はパワーワード満載の「『入門監視』の次に読むべき本」だった | DevelopersIO
- 133 users
- dev.classmethod.jp
- テクノロジー
- 2023/02/27
自分の関わるアプリケーションやインフラのモニタリングに困っている？　オーケイ、冒頭からアクセル全開の力強いワードにあふれたこの一冊を紹介するぜ！はじめに今年(2023年)の1月末に発売されたこちらの本、もう読まれたという方も多いのではないでしょうか！（挨拶本記事は、まだ読まれていない、買ってもいないという方に向けて、「紹介しなきゃ」という謎の強い使命感をもって書かれています。というのも、実は本記事の執筆者（ぼくです）は、300ページを越えるこの本のまだ半分ほどしか読むことが出来ていません。。！ *1 それでもこの本を紹介するモチベーションは十分です。なにしろ、この本は冒頭から、もっといえば「まえがき」の段階から、パワーワードにあふれた一冊だからです。引用してみましょう。 “（「オブザーバビリティ」という）用語が注目されるようになると、ある種の隣接性を共有する別の用語と互換的に使われ
- SRE
- 監視
- あとで読む
- 本
- 運用
- インフラ
- 書籍
- monitoring
- review
Aurora MySQLをMySQL8.0へ移行した話 - inSmartBank
- 132 users
- blog.smartbank.co.jp
- テクノロジー
- 2023/07/04
こんにちは！SREを担当してます上平と申します。このエントリーではAurora MySQL5.7互換からMySQL8.0互換への移行を実施した際の流れや学びに関して紹介したいと思います！ B/43 では Aurora MySQL5.7系をサービスリリースから使っており、Aurora MySQL バージョン2のサポート終了日（2024/10/31）が近づいているのもあったので、移行することにしました。 Amazon Aurora バージョン - Amazon Aurora これからAurora MySQL8.0へ移行を検討されている方の参考になれば幸いです。想定される読者 Aurora MySQL 5.7系を使っていて、アップグレードを検討している方実際の Aurora MySQL 8.0 への移行手順を知りたい方 AWS インフラに興味がある方前提 Aurora MySQL5.7互
- mysql
- aurora
- aws
- SRE
- あとで読む
- DB
- Amazon Aurora
- 202307
- 設定
インフラのコスト最適化の重要性と RI (リザーブドインスタンス) の維持管理におけるクックパッドでの取り組み - クックパッド開発者ブログ
- 132 users
- techlife.cookpad.com
- テクノロジー
- 2019/08/14
技術部 SRE グループの mozamimy です。クックパッドでは、 SRE が中心となって、サービスを動かす基盤の大部分である AWS のコスト最適化を組織的に取り組んでいるため、今回はそれについてご紹介します。前半では、そもそもの話として「なぜコスト最適化が重要なのか」「何が難しいのか」「何をすべきなのか」といったことを述べます。これは、当たり前すぎて逆に陽に語られることが少ない (とわたしは感じています) トピックで、一度しっかり言語化しておいてもいいかなと考えたからです。内容のほとんどはわたしの脳内ダンプで、クックパッドという会社のコンテキストや組織としてのステージが前提になっているため、大多数の組織について当てはまる内容とは限りません。後半では、コスト最適化の一例として、リザーブドインスタンス (以下 RI と略記) を維持管理するためのフローと、それを支えるモニタリング
- aws
- あとで読む
- インフラ
- SRE
- cookpad
- コスト
- 開発
- 運用
「開発者向けの MySQL 入門」という勉強会をしました - しなしな記録
- 132 users
- wrsn0.hatenablog.com
- テクノロジー
- 2024/02/22
今、自分が所属している会社では、いわゆるフルサイクルなアプリケーションエンジニアがほとんどで、SRE のような、システムを運用改善することを専門にするメンバーは居ません。一方でそれなりにプロダクトの数は多く、各種ミドルウェアの運用で困っているのを見かけることがあります。色々な人が似た問題に悩むのはもったいないので、「MySQL を運用したことがある人からすると、こういう考え方をする」という風な目線で勉強会を行いました。せっかくなので社内の情報を抜いたうえで公開します（同じようなことを色々な場所で言っていて、その都度作り直しているから……というのもあります）。 speakerdeck.com ちなみに DB のどこで悩むかはだいぶ業界ドメインに左右されると思っています（それはそう）。ゲーム業界なんかは、激しくスパイクするワークロードな上にミスったときの機会損失が激しいので、シャーディングを
- mysql
- あとで読む
- db
- 勉強
- 開発
- database
- 学習
SLOをゼロからつくる
- 130 users
- speakerdeck.com/b4b4r07
- テクノロジー
- 2023/07/05
tfnotify - Show Terraform execution plan beautifully on GitHub
- SRE
- SLO
- あとで読む
- terraform
- 運用
- 監視
- 設計
- エンジニア
- github
今日から分散トレーシングに対応しないといけなくなった人のための opentelemetry-go 入門 - Cybozu Inside Out | サイボウズエンジニアのブログ
- 130 users
- blog.cybozu.io
- テクノロジー
- 2023/04/12
こんにちは。SRE/データストアチームの飯塚です。私たちのチームではデータベースを代理で操作したり情報を取得したりするサービスをいくつか作り、それをプロダクトチームが利用できるように gRPC 経由で提供しています。ところで、ある日突然「分散トレーシングを活用していくことになったので、あなたのチームのサービスも対応させてください」とお願いされたらどうすればよいでしょうか？私はこれまでにいろいろなカンファレンスで分散トレーシングや OpenTelemetry についての講演を聞いていたので、理念は理解した、便利そうだ、導入してみたい、と思ったことは何度かありました。しかし実際に導入しようとして SDK のドキュメントを開いてみると、理解しなければいけない（ように見える）概念や、使い方をマスターしないといけない（ように見える）API の数に圧倒されてしまい、後回しにしてしまっていました。
- opentelemetry
- observability
- あとで読む
- SRE
- golang
- gRPC
- cybozu
- go
- logging
東証がSREによるレジリエンス向上に挑む理由。過去のシステム障害から何を学んだのか？（前編）ソフトウェア品質シンポジウム2022
- 129 users
- www.publickey1.jp
- テクノロジー
- 2022/09/28
東証がSREによるレジリエンス向上に挑む理由。過去のシステム障害から何を学んだのか？（前編）ソフトウェア品質シンポジウム2022 9月22日と23日の2日間、一般財団法人日本科学技術連盟主催のイベント「ソフトウェア品質シンポジウム2022」がオンラインで開催され、その特別講演として株式会社日本取引所グループ専務執行役横山隆介氏による「日本取引所グループシステム部門の取組み～システムトラブルからの学びと今後の挑戦～」が行われました。現在、日本取引所グループ傘下の東京証券取引所（以下、東証）は、過去に何度か大きなシステムトラブルを経験し、それを教訓として組織とシステムの改善を続けています。そこで今回、シンポジウム企画委員会からの要望を受けて行われた特別講演で、東証がこれまでのシステム障害から何を学び、そこから何を変化あるいは進化させてきたのか。わずか2年前のNASのハードウェア障害
- SRE
- あとで読む
- ソフトウェア
- 運用
- 障害
- 東証
- システム
- 会社
- セキュリティ
- 組織
Mackerelでは計画メンテナンスをどう実施しているか？ RedisをElastiCacheに移行した裏側をご紹介 - Hatena Developer Blog
- 128 users
- developer.hatenastaff.com
- テクノロジー
- 2020/11/05
こんにちは。MackerelチームSREのid:heleeenです。 Mackerelでは、2020年10月14日に計画メンテナンスを実施しました。今回は告知ブログに記載の通り、Mackerelが利用しているRedisをAmazon ElastiCache for Redis（以下、ElastiCache）へ移行しました。本記事では、この10月の計画停止の裏側を紹介します。どのようにElastiCacheへ移行するか大半のRedisを無停止で移行最後はElastiCacheへのオンライン移行を使用メンテナンスに向けたさまざまな準備メンテナンス手順書のチーム内レビューメンテンス実施中の役割分担なぜタイムキーパーが必要になったのかリモートで停止メンテナンスを実施する方法検証環境を利用して事前にリハーサルも実施 Redisを安全に効率よく切り替えるために参照するRedisを
- mackerel
- 運用
- あとで読む
- redis
- SRE
- aws
Google - Site Reliability Engineering
- 128 users
- sre.google
- テクノロジー
- 2019/11/20
Written by: Heather Adkins, Betsy Beyer, Paul Blankinship, Ana Oprea, Piotr Lewandowski, Adam Stubblefield Can a system be considered truly reliable if it isn't fundamentally secure? Or can it be considered secure if it's unreliable? Security is crucial to the design and operation of scalable systems in production, as it plays an important part in product quality, performance, and availability. In
- SRE
- engineering
- google
- あとで読む
- security
- design
- book
- セキュリティ
【資料公開】30分で分かった気になるチームトポロジー
- 127 users
- www.ryuzee.com
- テクノロジー
- 2022/03/16
みなさんこんにちは。@ryuzeeです。 2022年3月16日に「チームトポロジーを成功させる実践方法の探求」というイベントで登壇した際の資料を公開します。セッション内容は、書籍の内容をかいつまんでまとめたものになっており、とりあえずチーム内や社内でチームトポロジーの概要をさくっと押さえるのに使える資料になっていると思います。スライドを見て興味を持った場合は、是非書籍をご覧ください。紙とKindle版の双方が発売されています。チームトポロジー価値あるソフトウェアをすばやく届ける適応型組織設計著者／訳者：マシュー・スケルトン、マニュエル・パイス、原田騎郎、永瀬美穂、吉羽龍太郎出版社：日本能率協会マネジメントセンター発売日：2021-12-01単行本：280ページISBN-13：9784820729631ASIN：4820729632
ステージング環境における検証用データベースの立ち上げを自動化する取り組み - KAYAC engineers' blog
- 126 users
- techblog.kayac.com
- テクノロジー
- 2022/05/31
SREチーム(新卒)の市川恭佑です。カヤックのサービスでは、信頼性の担保を目的として、ステージング環境を作成する方針を取っています。ステージング環境では、検証の精度を高めるために、量・質ともに本番環境に類似したデータベースが求められる局面が頻出します。そこで今回は、Tonamel という自社サービスにおける、検証用データベースの立ち上げを自動化する取り組みについて紹介します。サービスの置かれていた状況と解決方針 Tonamel の実行基盤は Amazon Web Services (AWS) 上にあり、本番環境とステージング環境は別のアカウントとして、同一の AWS Organizations 組織内に構築されています。もともと、ステージング環境では、本番環境のデータは利用せず、手作業でダミーデータを作成していました。それゆえに、データベースに格納されているデータ量は本番環境と
- aws
- あとで読む
- Aurora
- RDS
- database
- データベース
- SRE
- 開発
- DB
「北欧、暮らしの道具店」インフラ構成の変遷、5年間の課題と取り組み｜Kurashicom Tech Blog
- 126 users
- note.com/kurashicom_tech
- テクノロジー
- 2022/12/08
こんにちは。エンジニアの佐々木です。先日12/6、弊社イベントにてカヤックの藤原さんを交えてクラシコムのSREについてお話をさせていただきました。当日は96名と多くの方にお申し込みいただきありがとうございました。1時間半があっという間で、時間の関係でお話できなかったことも多々ありました。改めてではありますが、記事にて当日の内容含め話せなかったこともご紹介したいと思います。当日のテーマは「インフラ強化に向けた具体的な取り組み」と「一人に頼らないチーム体制づくりを目指して」という2つでした。この記事では前半の「インフラ強化に向けた具体的な取り組み」について紹介します。北欧、暮らしの道具店のインフラ構成の変遷を追いつつ、その時々の課題や実際の取組みについて説明していきます。 5年前(2017年5月頃)のインフラ構成エンジニア3人で作った月間1600万PVのECサイト「北欧、暮らしの道具
- インフラ
- あとで読む
- SRE
- ECS
- アーキテクチャ
- EC
- cloud
監視論～SREと次世代MSP～
- 126 users
- speakerdeck.com/qryuu
- テクノロジー
- 2020/09/13
ITシステム監視を何故行うのかなぜ監視からオブザーバビリティーが求められるのか次世代MSP、今後の監視エンジニアに求められる能力とは
- SRE
- あとで読む
- 監視
- Technology
SRE Magazine - 001号（2024/04/01）
- 125 users
- sre-magazine.net
- テクノロジー
- 2024/04/01
巻頭言：SRE Magazineを始めました書いた人：しょっさん（ @syossan27 ） SRE Magazineの発刊についての想いなどを書いてます。ばばさんがお勧めする「SRE入門」と「SRE入門の入門」に効く書籍や文章書いた人：ばば/netmarkjp さん（ @netmarkjp ） SRE入門に効く書籍や文章を紹介しています。非常時の可用性をフィーチャーフラグで保つアイディア書いた人：iwamot さん（ @iwamot ）アクセス急増などの非常時でも可用性を保つ手法に「緊急レバー」があります。この記事では、緊急レバーの実装にフィーチャーフラグを用いるアイディアを提示します。 SIEMってサイトの信頼性向上に寄与するの？書いた人：Yuta Kawasaki（ゆーた）さん（ @yuta_k0911 ） SIEM on Amazon OpenSearch Servi
- SRE
- あとで読む
- チーム
- インフラ
- media
SREエンジニアが組織改善プロジェクトを立ち上げてみた - ぐるなびをちょっと良くするエンジニアブログ
- 125 users
- developers.gnavi.co.jp
- テクノロジー
- 2023/08/18
こんにちは。データ・AI戦略部 SREチームの小野です。普段は部内のシステムに対し、SRE推進活動を行っています。直近では、データエンジニアと協力してデータ基盤周りの改善に取り組んでいます。 <SREの主な仕事> IaC化(Terraform/Terraform Cloud Business)の導入・推進 SLI/SLOの導入・推進ポストモーテムの導入・推進アプリケーションデプロイ基盤の導入・推進ツールやAPIの設計・開発インフラ設計・開発・運用トイル削除・システムの自動化データ基盤改善一般的なSREエンジニアは、インフラ関連の業務が中心になると思います。しかし、データ・AI戦略部のSREチームは、開発を含めた幅広い仕事をします。やりたいことがあり、手をあげればそれを後押ししてくれる雰囲気の職場です。今回は、SREエンジニアである私が、組織改善プロジェクトを立ち上げた話をお
Summary of June 8 outage
- 122 users
- www.fastly.com
- テクノロジー
- 2021/06/09
Summary of June 8 outageWe experienced a global outage due to an undiscovered software bug that surfaced on June 8 when it was triggered by a valid customer configuration change. We detected the disruption within one minute, then identified and isolated the cause, and disabled the configuration. Within 49 minutes, 95% of our network was operating as normal. This outage was broad and severe, and we
- fastly
- incident
- 障害
- あとで読む
- cloud
- trouble
- network
AWS リソース管理の Terraform 移行 - クックパッド開発者ブログ
- 121 users
- techlife.cookpad.com
- テクノロジー
- 2020/02/28
技術部 SRE グループの鈴木 (id:eagletmt) です。クックパッドでは Codenize.tools を用いて様々なリソースをコードで管理してきましたが、現在では大部分が Terraform へと移行しています。Terraform の使い方等については既に沢山のドキュメントや紹介記事があるので本エントリでは触れず、なぜ Terraform へと移行しているのか、どのように Terraform を利用しているのかについて書いていきます。 Terraform 移行の理由クックパッドでは自分と同じく SRE グループに所属している菅原 (id:winebarrel) によって開発された Codenize.tools のツール群を利用して IAM、Route 53、CloudWatch Alarm、CloudWatch Events 等をコードで管理し、いわゆる GitOps を実践
- terraform
- aws
- cookpad
- あとで読む
- sre
- Amazon Web Services
- DevOps
- インフラ
- MySQL
インシデントレスポンスを自動化で支援する Slack Bot で人機一体なセキュリティ対策を実現する
- 120 users
- speakerdeck.com/hiboma
- テクノロジー
- 2021/11/04
インシデントレスポンスを自動化で支援する Slack Bot で人機一体なセキュリティ対策を実現する https://event.cloudnativedays.jp/cndt2021/talks/1260
- slack
- sre
- security
- あとで読む
- management
- 運用
- セキュリティ
- incident
- bot
Aurora MySQL 5.7とRailsで実現する全文検索機能 - dely Tech Blog
- 119 users
- tech.dely.jp
- テクノロジー
- 2023/06/23
こんにちは。クラシル開発部、バックエンドエンジニアの松嶋です。 delyに入社してから約3年間、私はSREチームに所属していましたが、昨年10月にバックエンドに転向しました。バックエンドに転向してからは、主にクラシルアプリの公式レシピおよびCGMコンテンツの検索機能に関する開発・改善に取り組んでいます。クラシルは、2016年2月にサービスを開始してから、管理栄養士監修の「誰でも安全に・おいしい料理を作ることができるレシピ動画」を5万件以上提供してきました。昨年12月には、クラシルのブランドリニューアルを行い、今後はシェフや料理研究家を中心としたクリエイターとともに多様化したユーザーの食の好みや課題解決に応えられるよう、幅広い食のコンテンツを提供するプラットフォームを目指しています。ブランドリニューアルの詳細に関しては、こちらを御覧ください。 www.kurashiru.com この
- MySQL
- あとで読む
- 検索
- Rails
- Aurora
- webサービス
AWSのAZ障害でもサービスを継続させる技術 - ABEJA Tech Blog
- 119 users
- tech-blog.abeja.asia
- テクノロジー
- 2019/12/11
こんにちは。ABEJAのインフラ管理してる村主 @rwle1221 です。本ブログは ABEJA Advent Calendar 2019 の11日目です。今日は、みなさん記憶に新しい2019年8月末に発生した AWS の東京リージョンの AZ 障害について、どのようにしていればサービス影響を与えずにシステムを稼働させられたのか。という話をしたいと思います。振り返り障害の詳細報告はこちら aws.amazon.com 有志によるまとめはこちらから piyolog.hatenadiary.jp 基本は「AZレベルで冗長化していれば問題ない」中の人に聞くと「AZレベルで冗長化していれば問題ない」とのことでした。しかし、2番目の方の記事を見ると有名どころのサービスが割と止まっていました。じゃあ上で紹介されていたような会社がAZレベルの冗長化が出来ていなかったのか。 ※ ALB/WA
- aws
- あとで読む
- 運用
- 障害
- Amazon Web Services
- 機械学習
- trouble
- 技術