タグ

SREに関するtsekineのブックマーク (41)

  • “LLM for SRE“の世界探索 - ゆううきブログ

    ChatGPTが登場した当初、対話や要約、翻訳、コード生成などの典型的な言語タスクができても、SREやAIOpsの研究開発にはあまり関係ないのではないかと正直思っていた。AIOpsでは典型的にはいわゆるObservabilityデータ(メトリクス、ログ、トレースなど)が入力となるため、自然言語ではなく数値のデータを解析することが求められる。自然言語のタスクを研究対象としていなかったため、AIOpsとChatGPTに強い関係性は見いだせなかった*1。 しかし、自分で大規模言語モデル(Large Language Model: LLM)を日常的に使用したり、表題にあるようにSREのためのLLM(LLM for SRE, LLM4SRE)に関する論文を読むうちに、LLMのテキスト生成器としての性質よりもその優れた推論機械としての性質に注目するようになった。特にSREの障害診断は、人間の専門家が推

    “LLM for SRE“の世界探索 - ゆううきブログ
  • このSRE本がすごい!2024年版 - じゃあ、おうちで学べる

    はじめに 有用な知識の特性 Google SRE リソース Site Reliability Engineering: How Google Runs Production Systems The Site Reliability Workbook: Practical Ways to Implement SRE Building Secure and Reliable Systems: Best Practices for Designing, Implementing, and Maintaining Systems SLO Adoption and Usage in SRE Creating a Production Launch Plan Training Site Reliability Engineers: What Your Organization Needs to Cre

    このSRE本がすごい!2024年版 - じゃあ、おうちで学べる
    tsekine
    tsekine 2024/01/27
    よいまとめ。全然読んでる時間がないけど。
  • テックタッチにおけるSREの役割・課題感を紹介します - Techtouch Developers Blog

    テックタッチという会社・サービス テックタッチの SRE チーム 何をやっているの インフラエンジニアというよりもソフトウェアエンジニア 課題感 SREチームの活動 - 大きなサイクル・小さなサイクル コミュニケーション 技術スタック・ツール 終わりに こんにちは。SRE の roki です。暑い日はまだあるものの、朝はすっかり秋を感じるようになり子どもたちが登校しやすくなってホッとしている今日このごろです。 この記事では、テックタッチという会社・サービスに触れつつ、SRE チームの働く環境や課題感を共有しながらチームの紹介をしていきます。興味を持っていただけたらぜひお声がけください。カジュアルに話し合う場を設けさせてもらっており、採用情報ページにて受け付けています。 テックタッチという会社・サービス テックタッチでは、社名と同じ「テックタッチ」という名前のサービスを運営しています。どのよ

    テックタッチにおけるSREの役割・課題感を紹介します - Techtouch Developers Blog
    tsekine
    tsekine 2023/10/19
  • Enterprise Roadmap to SRE - Google - Site Reliability Engineering

    Google が過去に出版した 2 冊の書籍「Site Reliability Engineering」と「The Site Reliability Workbook」は、サービスライフサイクル全体への取り組みによって、組織がソフトウェアシステムの構築、展開、監視、保守を成功させる方法と理由を示しています。レポートでは、Google Cloud Reliability Advocate の Steve McGhee と Google Cloud Solutions Architect の James Brookbank が、組織で SRE を導入する際にエンジニアが直面する特定の課題について深く掘り下げています。 SRE の普及にもかかわらず、多くの企業では SRE に対する当初の熱意と、その採用の度合いの間に大きな隔たりが生じています。レポートは、プロダクトオーナーや信頼性の高いサー

    tsekine
    tsekine 2023/01/26
    元同僚(後に昇進して俺のマネージャー、さらに昇進して俺のマネージャーのマネージャーになった)が書いたやつ。
  • Googleでもやっている障害対応訓練の「Wheel of Misfortune」をやってみた。 - MonotaRO Tech Blog

    序文 こんにちは。MonotaROの伊藤です。 弊社では障害対応訓練の実施手法の一つであるWheel of Misfortune(略称:WoM)を実践しています。WoMの導入で、障害対応体制の強化を行うことができましたので、実施までの経緯や得られた学びなどを中心に紹介したいと思います 序文 運用担当者の負荷が高まり続ける問題 運用担当者=社歴が長いベテランエンジニア 運用のスケールアウト 障害対応訓練をやってみよう 訓練環境の準備の問題 訓練シナリオの問題 外部からの助け Wheel of Misfortuneとは 実施時の様子 シナリオ開始時の様子 モニタリング画面の表示 WoMとDiRT(Disaster in Recovery Training) 障害対応訓練をやってみた結果 準備時点で感じたメリット 手順書の不備を発見できたこと 障害が起こりかねない場所を考えるきっかけになったこと

    Googleでもやっている障害対応訓練の「Wheel of Misfortune」をやってみた。 - MonotaRO Tech Blog
  • SREは運用チームだけの問題? 開発者のメリットをGoogle×スリーシェイクがプラクティスとともに解説!

    もともとSREはGoogleがサイトの信頼性を高めるために、新しい部署を作り、ゼロから作りあげたものだ。今回はGoogleでオブザーバビリティ領域を担当する山口能迪氏とともに、SREの歴史や原則を確認し、アプリケーション開発者にも恩恵がある部分について語り合ってもらった。 株式会社スリーシェイク Sreake事業部 部長 手塚卓也氏 信頼性向上のためにGoogleが作りあげたSRE、その現在地とは ――まずはこれまでのご経歴や現在の役割について簡単にお聞かせください。 手塚:2016年にインフラ系ベンチャー企業に就職しインフラエンジニアとしてキャリアをスタート、スリーシェイクには2018年に入社し顧客企業へのSRE立ち上げ支援などを行ってきました。現在はSRE総合支援やセキュリティサービスを展開しているSreake事業部の部長としてチーム全体を見ています。 山口:前職は外資系パッケージベン

    SREは運用チームだけの問題? 開発者のメリットをGoogle×スリーシェイクがプラクティスとともに解説!
    tsekine
    tsekine 2022/07/07
  • SRE に成る君に最低限の開発力を身に着けてほしい - じゃあ、おうちで学べる

    はじめに まず、はじめに皆さんへ言っておきたいことがあります。 このドキュメントの目的は皆さんをやる気にさせて一心不乱にコードを書きまくって新機能追加や改善をしてソフトウェアを開発していってほしいというわけではないということです。 もちろん、そうなってくれれば嬉しいですが気合が入ったからプログラムを急に書けるようになるわけではないのでそのような目的は一切ありません。また、この文章にはインフラエンジニアがコードを読み書きできなくて良いという意図はなくポジショニングトーク的にSREという単語を利用しておりますので何も言わないでください。 SREはそもそも、コードを書かなくてもよいエンジニアではない SREとは、ITサービスの信頼性を高めるために、ITエンジニア(開発者)が信頼性向上のために行う設計やアプローチ、またはこれらを行うチームや役割を指します。 Google では、SREチームの50~

    SRE に成る君に最低限の開発力を身に着けてほしい - じゃあ、おうちで学べる
    tsekine
    tsekine 2022/06/24
  • SRE を成功させるには、まず計画を立てることが大事 | Google Cloud 公式ブログ

    ※この投稿は米国時間 2021 年 2 月 27 日に、Google Cloud blog に投稿されたものの抄訳です。 サイト信頼性エンジニアリング(または DevOps)を実装すると、魔法のようにすべてが改善されると思う人もいるでしょう。組織に SRE のおまじないをかけるだけで、サービスの信頼性と収益性が向上し、IT やプロダクト、エンジニアリングの各チームの誰もが満足すると。 このような勘違いが起こる理由は明らかです。世界屈指の信頼性と拡張性を誇るサービスのいくつかは、SRE チームの支援を得て稼働しているからです。Google がその代表的な例です。 私は、大規模な番環境システムの稼働に明け暮れる生活を 20 年近く続けてきました。トレードオフ、信頼性、コスト、制約や要件が異なる多様なアーキテクチャの実装といったことで頭を悩ませ、深夜に呼び出されることもよくありました。最近では

    SRE を成功させるには、まず計画を立てることが大事 | Google Cloud 公式ブログ
    tsekine
    tsekine 2021/03/12
  • インターネット上のあらゆるサービスを稼働させ続ける運用保守エンジニアをねぎらうハッシュタグ「#hugops」とは?

    GoogleTwitterなどにシステム障害が発生したときに運用保守エンジニアへの文句を並べ立てる人は大勢いますが、復旧したときに運用保守エンジニアをねぎらう人は限られています。こうした現状を打破するために作成された運用保守エンジニアをねぎらうためのハッシュタグ「#hugops」の経緯について、IT系ニュースサイトのProtocolが解説しています。 #hugops hope to spread empathy in tech - Protocol — The people, power and politics of tech https://www.protocol.com/enterprise/oral-history-hugops サーバーやネットワークが障害などで停止しないように管理・メンテナンスを行っているのは、運用保守エンジニアと呼ばれる人々です。GoogleやTwitte

    インターネット上のあらゆるサービスを稼働させ続ける運用保守エンジニアをねぎらうハッシュタグ「#hugops」とは?
    tsekine
    tsekine 2021/03/03
    https://sysadminday.com/ のお友達ということでいいのかな?w
  • 【いでよ障害対応太郎】我々はインシデントにどう向き合っているのか 〜社内向け障害対応リスト付き〜

    「なんかアプリでインシデント起きてエンジニアがどこかで対応してるらしいよ」 「インシデント時のお知らせって誰がどうやって出すんだっけ?」 「インシデントの復旧作業って今どれくらい終わってる?」 「あのインシデントって振り返りしたっけ?」 「似たようなインシデント、前も対応したような、していないような」 このような会話に覚えはありませんか? FiNC Technologies社 (以下FiNC) では今まで インシデント対応をしていても自チーム内で対処しようとしてしまい、他の人が気づけないインシデント対応の仕方にフォーマットがなく、迅速な対応やお客様への報告ができないインシデントの振り返りが実施されず、インシデント時の知見が共有されないという問題がありました。 それらの問題を 気が付きやすく、シェアしやすくする = 統一のチャンネルで情報を整理し、そこにシェアしやすい空気を作る何をすべきかわ

    【いでよ障害対応太郎】我々はインシデントにどう向き合っているのか 〜社内向け障害対応リスト付き〜
    tsekine
    tsekine 2020/07/22
    Slackじゃなくて、まともなIRMないかなー。根本的にSlackはこういうのには向いてないよね。
  • Introducing Dispatch

    By Kevin Glisson, Marc Vilanova, Forest Monsen Netflix is pleased to announce the open-source release of our crisis management orchestration framework: Dispatch!Okay, but what is Dispatch? Put simply, Dispatch is: All of the ad-hoc things you’re doing to manage incidents today, done for you, and a bunch of other things you should’ve been doing, but have not had the time! Dispatch helps us effectiv

    Introducing Dispatch
    tsekine
    tsekine 2020/02/25
    Netflix 製の Incident response management system. 試してみたい、が暇はない。
  • 筋肉マージは辞めよう - Qiita

    追記2 2019/12/04 21:00 こんなよくわからない記事をご覧いただきありがとうございます。 この事件を起こしたのは1年前で、Gitを使いはじめて1ヶ月のときに下記の事件を起こしてしまっていてとても混乱していたのを当時覚えています。 内容については、rmをしたかもしれないという記事に結果的になったかもしれませんが、私の記憶ではファイルを消した記憶はありません。 ただ、当時作業していたディレクトリもないのでコマンドを確認する手段がないため一番濃厚なrmをしたというのを今回の結論にしました。 曖昧さは申し訳ありません。 また、意見、感想、批評には全て目を通させております。伝わりにくい内容やわかった事実は適宜編集してできるだけ皆さんに伝わるよう善処いたしますのでどうぞよろしくお願いします。 追記2ここまで 追記 2019/12/04 13:00 1.番環境でやらかしちゃった人 Adv

    筋肉マージは辞めよう - Qiita
    tsekine
    tsekine 2019/12/04
    来年このAdvent Calendarがまたあるなら、記事はpostmortem形式強制でいいんじゃないか、と思いました(小並感
  • SRE チームで Engineering Manager になって二ヶ月経っての心境など

    SRE チームで Engineering Manager になって二ヶ月経っての心境など Dec 1, 2019 この記事は Engineering Manager vol.2 Advent Calendar 2019 の 1 日目の記事です。 2 日目は taminif さんのマネージャーになったら身に付けたいファシリテーションスキルです。 ふわっとしたタイトルのゆる目の記事ですが、Engineering Manager としては新米ですし、Advent Calendar 的にもまだ初日なのでこれぐらいで許してください。 まぁ一言でいうと「Engineering Manager は決して楽ではないけど楽しいぞ!」という感じです。 Engineering Manager として置かれている状況 前提としてこんな感じですよ、というのを軽く書いておきますがここは読み飛ばしてもらっても大丈夫です

    SRE チームで Engineering Manager になって二ヶ月経っての心境など
    tsekine
    tsekine 2019/12/02
  • Google - Site Reliability Engineering

    Written by: Heather Adkins, Betsy Beyer, Paul Blankinship, Ana Oprea, Piotr Lewandowski, Adam Stubblefield Can a system be considered truly reliable if it isn't fundamentally secure? Or can it be considered secure if it's unreliable? Security is crucial to the design and operation of scalable systems in production, as it plays an important part in product quality, performance, and availability. In

    tsekine
    tsekine 2019/11/20
    えー、読んでる時間無いよ!(追記)第3版じゃなくて、第3弾とかで呼んでよ > ブコメ勢。あと、URLからするなら"SRS本"とか。
  • ごく普通のエンジニアリング運用チームを強力な SRE チームに変える | Google Cloud 公式ブログ

    ※この投稿は米国時間 2019 年 10 月 4 日に Google Cloud blog に投稿されたものの抄訳です。 運用チームにエンジニアを絶えず増員しても、お客様の拡大には対処しきれません。Google のサイト信頼性エンジニアリング(SRE)の原則を適用すれば、運用上の問題にソフトウェア エンジニアリングによる解決手法を取り入れることで、うまく対処できます。稿では、従来のネットワーク エンジニアリングの通例にとらわれず、SRE に転換することで、Google がグローバル ネットワーク運用チームを変革した方法をご紹介します。Google番環境ネットワーキング チームがこの問題にどのように取り組んだのかをお読みいただき、ご自分の組織に SRE の原則をどのように取り入れることができるのかを検討してみてください。 スケーリングの限界2011 年、Google番環境ネット

    ごく普通のエンジニアリング運用チームを強力な SRE チームに変える | Google Cloud 公式ブログ
    tsekine
    tsekine 2019/10/23
    謝辞に名前載ってる人、半分ぐらいしか分からんなー。SREといっても腐るほどいるしwww
  • 2019年SRE考 - ゆううきブログ

    この記事では、自分が数年Site Reliability Engineering (SRE)を実践しつつ、SREについて考えてきたことをまとめる。 先月開催されたMackerel Drink Up #8 Tokyoと先日開催された次世代Webカンファレンス 2019では、SREについて集中的に議論する機会に恵まれたため、脳内メモリにキャッシュされているうちに、SREに関する私的な論考をまとめておく。 (以降では、SREの原著にならい、技術領域名を指すときはSRE、職種名を指すときにSREsと表記する。) SREとの関わり なぜSREに関心をもったのか 2015年にメルカリさんがSREチームを発足したときに、SREsの存在を知り、SREsはシステム管理者、Webオペレーションエンジニアインフラエンジニアといった既存の職種を置き換えていくものだと理解した。 当時、自分が注目したのは、SRE

    2019年SRE考 - ゆううきブログ
    tsekine
    tsekine 2019/01/17
    とてもよいお話。いい加減、全部を通して読まないとね………
  • 最初の自動化で「大失敗」して得た気付き――SREはトライ&エラーが全てである

    最初の自動化で「大失敗」して得た気付き――SREはトライ&エラーが全てである:リクルート流、SREコトハジメ(5)(1/3 ページ) 現状の把握も終え、いよいよ運用作業を自動化しようとしているアナタ。私自身もSRE活動を始めてすぐに自動化に取り組みましたが、実は最初に「大失敗」をしてしまいました。そこで「トイルの削減=自動化」と勘違いしていたことに気付いたのです。 SRE活動と言うと、どうしても自動化やツール導入から進めたくなるものですが、その前にすべきこととして、Webサイトの現状を把握する「棚卸し」をするべきだ――。前回の記事では、その理由と具体的な取り組みについてお話ししました。 棚卸しを終えたら、いよいよ自動化、つまりはトイル(Toil=自動化できるのに手作業で行う運用作業にかける労働時間)の撲滅へと動き出すことになります。トイルというのは、SRE活動の中でもクローズアップされやす

    最初の自動化で「大失敗」して得た気付き――SREはトライ&エラーが全てである
    tsekine
    tsekine 2018/07/30
  • レイテンシーを計算する技術の話 - LINE ENGINEERING

    こんにちは、LINEメッセンジャーのサーバーサイドとモニタリングプラットフォームの開発を担当しているフィ(@dxhuy)です。この記事はLINE Advent Calendar 2017の20日目の記事です。 今日は、モニタリングシステムでよく使うレイテンシーやその計算方法などについて紹介したいと思います。LINEでは、日々ユーザが楽しくメッセージを送れるように、システムの安定性を第一に考えています。安定したシステムを保つためにたくさんの指標を見守る必要がありますが、その指標の1つが「レイテンシー」です。 ウィキペディアでは、レイテンシーは以下のように定義されています。 デバイスに対してデータ転送などを要求してから、その結果が返送されるまでの不顕性の高い遅延時間のこと インターネットサービスにおいては、レイテンシーは基的に「レスポンスタイム」のことです。つまり、リクエストを受けてからレス

    レイテンシーを計算する技術の話 - LINE ENGINEERING
    tsekine
    tsekine 2017/12/21
    レイテンシー SLI / SLO / SLA の議論に必要な技術
  • 運用現場におけるSRE本の「正しい」読み方

    ssmjp 201712 はたのさん祭での「運用現場におけるSREの「正しい」読み方」発表資料です。 詳細: https://www.opslab.jp/publish/20171212-ssmjp-sre.html (運用設計ラボ合同会社 波田野裕一)

    運用現場におけるSRE本の「正しい」読み方
    tsekine
    tsekine 2017/12/14
    #SRE #あとで
  • 運用自動化、不都合な真実 // Speaker Deck

    ssmjp 201712 はたのさん祭での「運用自動化、不都合な真実」の発表資料です。 詳細: https://www.opslab.jp/publish/20171212-ssmjp-automation.html (運用設計ラボ合同会社 波田野裕一)

    運用自動化、不都合な真実 // Speaker Deck
    tsekine
    tsekine 2017/12/14
    #SRE #あとで