[3ページ] SREの人気記事 1080件 - はてなブックマーク

81 - 120 件 / 1080件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

SREの検索結果81 - 120 件 / 1080件

オブザーバビリティ研修実践編
- 261 users
- speakerdeck.com/biwashi
- テクノロジー
- 2024/05/22
株式会社サイバーエージェント AI事業本部 2024年度エンジニア新卒研修オブザーバビリティ研修実践編（一部社内向けの内容）
- 監視
- あとで読む
- 運用
- observability
- エンジニア
- 研修
- 資料
- インフラ
- SRE
- サーバ管理
Googleでもやっている障害対応訓練の「Wheel of Misfortune」をやってみた。 - MonotaRO Tech Blog
- 256 users
- tech-blog.monotaro.com
- テクノロジー
- 2022/09/06
序文こんにちは。MonotaROの伊藤です。弊社では障害対応訓練の実施手法の一つであるWheel of Misfortune(略称:WoM)を実践しています。WoMの導入で、障害対応体制の強化を行うことができましたので、実施までの経緯や得られた学びなどを中心に紹介したいと思います序文運用担当者の負荷が高まり続ける問題運用担当者=社歴が長いベテランエンジニア運用のスケールアウト障害対応訓練をやってみよう訓練環境の準備の問題訓練シナリオの問題外部からの助け Wheel of Misfortuneとは実施時の様子シナリオ開始時の様子モニタリング画面の表示 WoMとDiRT(Disaster in Recovery Training) 障害対応訓練をやってみた結果準備時点で感じたメリット手順書の不備を発見できたこと障害が起こりかねない場所を考えるきっかけになったこと
SmartNewsのサーバーサイドのすべて　大規模サービスを支えるアーキテクチャと技術スタック
- 255 users
- logmi.jp
- テクノロジー
- 2020/01/08
SmartNewsのサーバーサイドのすべて大規模サービスを支えるアーキテクチャと技術スタックサーバサイドの技術スタック・アーキテクチャ総ざらい 2019年5月28日、「SmartNews Tech Night in Fukuoka Vol.1」が開催されました。日米4,000万ダウンロード (※1)を超えるニュースアプリ「SmartNews」の今と、技術にまつわる裏側について包み隠さず語る本イベント。プレゼンテーション「サーバーサイドの技術スタック・アーキテクチャ総ざらい」に登壇したのは、SREチームのEngineering Managerを務めるNobutoshi Ogata氏。SREチームの立ち上げを行い、EMとして活躍する同氏が、SmartNewsに用いられるサーバーサイドの技術について明かします。※1:日米Google Play、App Storeのダウンロード数を合算した数値
Four Keysがなぜ重要なのか - 開発チームのパフォーマンスを改善する方法について - yigarashiのブログ
- 253 users
- yigarashi.hatenablog.com
- テクノロジー
- 2022/05/30
ソフトウェアエンジニアとして働き始めて以来、ずっとソフトウェアデリバリーのパフォーマンスに興味を持って、さまざまな改善活動をしてきた。当初はスクラムを中心としたプロセスの改善に注力したが、最近はチームの成熟に伴って技術的なプラクティスに興味が移りつつある。より広い視点からデリバリーについて考えるのは非常に楽しい仕事だ。デリバリーのパフォーマンスを改善していくには、定量指標として確立されたFour Keysを計測し改善するのが業界標準となりつつある。恥ずかしながら、私はこれまでこのFour Keysが腹落ちせず、積極的に計測してこなかった。しかし、多方面に興味が向いて知識や経験が蓄積するにつれて、猛烈にFour Keysの重要性が腹落ちしてきた。この記事では、現時点における自分のFour Keysに関する理解と解釈を整理してみようと思う。 Four Keysとは Four Keysの妥当性
GitHubの運用を「会社」にしていく話
- 252 users
- zenn.dev/ubie_dev
- テクノロジー
- 2022/02/04
Ubie DiscoveryでSREなどをしている@itkqです。 UbieではGitホスティングにgithub.comを使っています。プロダクト開発に必要なprivateなコードベースはもちろん、OSSや就業規則といったドキュメントをpublicにホストしたりもしています。また、この記事を書いている時点で、メインのOrganizationのメンバーは121名です。自分が入社したのは一年前（2021年1月）で、まだ情報システム専任の人がいませんでした。それから今に至るまで、GitHubの運用を「会社」にしていく話を書きます。一年前のGitHubの運用当時、UbieのOrganizationに所属していた人数は、業務委託含め80〜90名ぐらいで、Businessプランを利用していました。私はSREとして入社しましたが、情報システム専任の人がおらず、SREをはじめとする何名かのメンバーが
- github
- あとで読む
- セキュリティ
- SRE
- 運用
- SAML
- security
SREはインフラエンジニアだけでなく、みんなの活動 - ytake blog
- 251 users
- blog.ytake.jp.net
- テクノロジー
- 2023/08/27
みなさんSREしてますか？サービスなどの品質を維持していくために切っても切り離せないSREですが、日本でもSREという言葉が定着しつつあるかと思います。このSREについて書いていきたいと思います。 SRE NextのCFP忘れてたのでその代わりに・・ SREってインフラですよね？非常によくあるケース、というか多分ほとんどがこうなっていると思います。もちろん会社としてインフラのことを指しても問題はありませんが、 SREとはどういうものなのか、正しく認識して今一度現状を振り返ることでさらに良い活動に繋がることが多いと思います。なんのこっちゃ、という方も多いかもしれません。 SREはエラーバジェットなどの話が必ず出てきますので、モニタリングや監視などが必ずセットにはなっていきます。ですが、この部分が強調されているのかどうしてもインフラエンジニアでしょ、というのが定着している場
- SRE
- あとで読む
- devops
- インフラ
- 運用
- 開発
- エンジニア
- 知識
- サービス
待望の日本語版発売！『詳解システムパフォーマンス第2版』Linuxが深く学べる名著を全力で推したい - LIVESENSE ENGINEER BLOG
- 247 users
- made.livesense.co.jp
- テクノロジー
- 2023/01/24
こんにちは、かたいなかです。『詳解システムパフォーマンス第2版』の日本語版が2023/01/24についに発売されました！ www.oreilly.co.jp 私個人は原著で読んだのですが、他の人に強くおすすめしたくなるような内容でした。そこで、日本語版の発売に合わせてどのあたりが良かったのかなど、内容をご紹介します。 TL;DR パフォーマンス改善タスクの課題感どんな本？この本のどこがいい？ Linuxの仕組みを広く深く学べるパフォーマンスの観点での情報が豊富どんなひとにおすすめできるか？クラウドやコンテナが当たり前になってからSREになった人 Linuxの知識をアップデートしたいエンジニア最後まで読み切るには？あせらずゆっくり読んでいく Linuxの前提知識を仕入れてから読む終わりに TL;DR 『詳解システムパフォーマンス第2版』は、Linuxを深く学んで仕事に活
- linux
- あとで読む
- パフォーマンス
- 本
- techfeed
- SRE
- performance
- システム
- 書籍
SRE Classroom: The Art of SLOs - Google
- 243 users
- sre.google
- テクノロジー
- 2022/07/08
The Art of SLOsは、GoogleのCustomer Reliability Engineeringチームによって開発されたワークショップです。このワークショップの目的は、Googleがサービスの信頼性を計測する方法サービスレベル指標(SLI) とサービスレベル目標 (SLO)を参加者に紹介し、実際にこれらの計測方法を作成することを体験してもらうことです。これらは重要で土台となる概念です。サービスの信頼性を客観的に測定する方法があれば、サービスの信頼性について有意義な会話をすることがはるかに簡単になります。ワークショップの理論編では、開発チームと運用チームの間でしばしば生じる組織的な緊張を、サービスの望ましい信頼性を表す目標値を設定することで解決する方法を学びます。また、SLOとエラーバジェットを使って、データ駆動で、客観的、かつユーザー重視の方法でサービスの信頼性を測定・
- SRE
- あとで読む
- SLO
- google
- インフラ
- 開発
- development
テックリードがどんな活動したらよいのか考えて行動してみた話 - ZOZO TECH BLOG
- 238 users
- techblog.zozo.com
- テクノロジー
- 2023/06/22
2022年6月に、Androidテックリードになったいわたんです。最近、某モンスターを育てたり図鑑を埋めたりするゲームで社内大会をやったらフルボッコにされて涙目でした。悔しくて最近は不思議な力でクラフトしたり空飛んだりして王国を救うゲームやってます。今回はAndroidテックリードとして1年間やってみた施策の紹介と、それぞれの成果や反省点を紹介したいと思います。これからテックリードになろうとしている方やテックリードをしている方の参考になったり、こんな施策もいいよというアドバイスをもらえたら幸いです。 ZOZOのテックリードの役割と責任実施した施策テックリード1on1 読書会歴史的経緯があるアプリのアーキテクチャ整理へのアプローチネーミングセンスを鍛える会の取り組み案件への関わり方横断的なコードレビュー横断的に使う機能の実装まとめ最後に ZOZOのテックリードの役割と
オブザーバビリティ入門
- 235 users
- speakerdeck.com/cybozuinsideout
- テクノロジー
- 2023/07/15
Exadata Database Service on Dedicated Infrastructure(ExaDB-D) UI スクリーン・キャプチャ集
整理しながら理解するKubernetesネットワークの仕組み / Kubernetes Network Fundamentals
- 234 users
- speakerdeck.com/hhiroshell
- テクノロジー
- 2021/01/19
#cndjp 第16回勉強会での発表資料です。・アジェンダ Kubernetesのネットワークには様々な登場人物があり一見すると複雑に思われがちですが、それぞれの役割と関係性を把握すれば決して難解なものではありません。最後のセッションでは、そんなKubernetesのネットワークの仕組みを、丁寧に整理しながら紐解いていきたいと思います。膨大なコンテナ群の通信を支える洗練されたアーキテクチャを、一緒に理解していきましょう。
7年在籍したCircleCIを退職しました
- 233 users
- kimh.github.io
- テクノロジー
- 2022/02/28
このエントリーについていやゆる退職ブログです。どのようにしてCircleCIに入り、どんな仕事をし、そしてなぜやめるのかについて書いています。あとちょっぴり求人要素も入っています。アメリカのスタートアップで働くのってどう？英語はどれくらい必要？など、実体験に基づいた一般論も書きました。海外のスタートアップに挑戦しようとしている方の後押しになれば幸いです。目次コンパクトにするつもりが、書きたいことが沢山ありすぎて長文となってしまいました。前半は思い出の振り返りポエムなので、興味がない方は海外のスタートアップで働くことについてまでスキップしてもらって大丈夫です。 CircleCIについて CircleCIでやったことソフトウェア開発日本法人の立ち上げ SRE 海外のスタートアップで働くことについて時差についてフルリモートについてストックオプションについて CircleCIで働
- CircleCI
- あとで読む
- キャリア
- 退職
- 仕事
- career
- エンジニア
- 働く
- CI
- 会社
ついに最強のCI/CDが完成した〜巨大リポジトリで各チームが独立して・安全に・高速にリリースする〜 - ZOZO TECH BLOG
- 233 users
- techblog.zozo.com
- テクノロジー
- 2023/11/27
こんにちは。SRE部の巣立（@ksudate）です。我々のチームでは、AWS上で多数のマイクロサービスを構築・運用しています。マイクロサービスが増えるにつれて、CI/CDの長期化やリリース手法の分散など様々な課題に直面しました。本記事では、それらの課題をどのように解決したのかを紹介します。目次目次はじめに CI/CDのこれまで Release PRによるリリース CI/CD実行時間の長期化マイクロサービスごとのリリースが難しいリリーサーの制限ができないドメイン単位の並行リリースリリース手法が分散するブランチ間の同期が必要パイプラインの増加 CI/CD実行時間の長期化リリーサーを制限できない CI/CDの刷新高速かつシンプルなCIパイプライン変更差分を利用したCIパイプラインの実行承認機能付きのCDパイプライン GitHub Environmentsによるリリー
- CI
- あとで読む
- 継続的インテグレーシ
- CD
- SRE
- techfeed
- github
- 開発
- DevOps
Broken Ownership
- 229 users
- blog.alexewerlof.com
- テクノロジー
- 2023/08/14
Have you been in any of these situations? Managers make decisions that’s out of their leagues and everyone else in the team ends up paying for it. Knowledgeable people passively observe without bothering to contribute. Sometimes they are denied access to the room. Developers act like code monkeys, throwing the code over a metaphorical wall for the QA to test and “DevOps” to run. In “you build it,
- SRE
- あとで読む
- devops
- 仕事
- pm
- アジャイル
- agile
- management
- work
Enterprise Roadmap to SRE - Google - Site Reliability Engineering
- 228 users
- sre.google
- テクノロジー
- 2023/01/26
Google が過去に出版した 2 冊の書籍「Site Reliability Engineering」と「The Site Reliability Workbook」は、サービスライフサイクル全体への取り組みによって、組織がソフトウェアシステムの構築、展開、監視、保守を成功させる方法と理由を示しています。本レポートでは、Google Cloud Reliability Advocate の Steve McGhee と Google Cloud Solutions Architect の James Brookbank が、組織で SRE を導入する際にエンジニアが直面する特定の課題について深く掘り下げています。 SRE の普及にもかかわらず、多くの企業では SRE に対する当初の熱意と、その採用の度合いの間に大きな隔たりが生じています。本レポートは、プロダクトオーナーや信頼性の高いサー
- SRE
- あとで読む
- google
- 運用
- インフラ
- book
- cloud
- 組織
ソフトウェアエンジニアリングサバイバルガイド: 廃墟を直す、廃墟を出る、廃墟を壊す、あるいは廃墟に暮らす、廃墟に死す
- 225 users
- docs.google.com
- テクノロジー
- 2023/03/19
ソフトウェアエンジニアリングサバイバルガイド: 廃墟を直す、廃墟を出る、廃墟を壊す、あるいは廃墟に暮らす、廃墟に死す
note 社の AWS 権限設計の変遷を辿る｜かとうかずや | kakato
- 225 users
- note.com/kkato1030
- テクノロジー
- 2022/12/25
いつの世も人々は権限設計に苦しめられている。そうは思いませぬか。ご多分にもれず、ぼくも note に入ってからというもの AWS の権限設計をどうしてやろうかと、あれこれ思い悩みまくった人間でした。組織が変われば権限も変わる。誰が何をしたいのかなんてとても把握しきれないし、かといって全員に Administrator を割り振るような豪胆さも持ち合わせておらず。組織再編が繰り返される中で、なんとか運用に耐えうる設計を考え、実装しようと試みた内容をまとめたのがこの note です。 note 社における AWS 権限設計の変遷と、その結果生まれた自動で AWS の権限を払い出す仕組みについて書いていきます。 ※この記事はnote株式会社 Advent Calendar 2022 の 25 目の記事です。注意事項つらつらと書き連ねていたら 12,000 字超の大作 note となってしま
- aws
- あとで読む
- 設計
- iam
- SRE
- エンジニア
このSRE本がすごい！2024年版 - じゃあ、おうちで学べる
- 222 users
- syu-m-5151.hatenablog.com
- テクノロジー
- 2024/01/26
はじめに有用な知識の特性 Google SRE リソース Site Reliability Engineering: How Google Runs Production Systems The Site Reliability Workbook: Practical Ways to Implement SRE Building Secure and Reliable Systems: Best Practices for Designing, Implementing, and Maintaining Systems SLO Adoption and Usage in SRE Creating a Production Launch Plan Training Site Reliability Engineers: What Your Organization Needs to Cre
- SRE
- あとで読む
- 書籍
- book
- 本
- engineering
- 監視
- 運用
- 設計
データ基盤チーム0人で運用は回るのか？！前人未踏チャレンジ・クックパッドデータ基盤のすべて2020 - クックパッド開発者ブログ
- 220 users
- techlife.cookpad.com
- テクノロジー
- 2020/12/29
技術部データ基盤グループの青木です。ここ1、2年はなぜか成り行きでBFFをでっちあげたり、成り行きでiOSアプリリニューアルのPMをしたりしていたのであまりデータ基盤の仕事をしていなかったのですが、今年は久しぶりに本業に戻れたのでその話をします。突然の1人チーム、そして0人へ…… 今年のデータ基盤チームは消滅の危機から始まりました。間違いなく去年末は5人のチームだったと思うのですが、メンバーがイギリスへグローバルのデータ基盤チームを作りに行ったり、山へ検索システムを直しに行ったり、川へレシピ事業の分析業務をやりに行ったり、海へ広告のエンジニアリングをしに行ったりするのをホイホイと気前よく全部聞いていたら、なんと4月から1人だけのチームになってしまいました。事はそれで終わりません。恐ろしいことに10月にはわたし自身も育休に入ることになったので、 10月はデータ基盤が0
最強のツール「LangSmith」が登場した話【Python / LangChain】
- 219 users
- zenn.dev/umi_mori
- テクノロジー
- 2023/07/23
【📩 仕事の相談はこちら 📩】お仕事の相談のある方は、下記のフォームよりお気軽にご相談ください。 https://forms.gle/G5g1SJ7BBZw7oXYA7 もしもメールでの問い合わせの方がよろしければ、下記のメールアドレスへご連絡ください。 info*galirage.com（*を@に変えてご送付ください） 🎁 「生成AIの社内ガイドライン」PDFを『公式LINE』で配布中 🎁 「LINEで相談したい方」や「お問い合わせを検討中の方」は、公式LINEでご連絡いただけますと幸いです。（期間限定で配信中なため、ご興味ある方は、今のうちに受け取りいただけたらと思います^^） https://lin.ee/3zRuqKe おまけ①：生成AIエンジニア塾より専門的な「生成AIエンジニア人材」を目指しませんか？そんな方々に向けて、「生成AIエンジニア塾」というプログラムを
- LLM
- LangChain
- あとで読む
- ChatGPT
- python
- AI
- 機械学習
- データ
どのようにPlatformチームの組織変更をしたか | メルカリエンジニアリング
- 219 users
- engineering.mercari.com
- テクノロジー
- 2020/07/16
Platform チームの@deeeeeeeetです． Platform チームは2年前にMercariがMicroservicesの移行を始めたときに一緒に立ち上げられたチームです．Platform チームはMicroservicesを動かすための基盤や開発や運用のためのツールセットなど提供しています．立ち上げ時は自分を含めて2-3人で始まったチームですが2年が経ち10人を超えるチームにまで成長しました．チームのメンバーが増えるほど1チームとして動くには限界がきており，またMicroservices化が進めば進むほどチームの負う責任範囲も広くなりCognitive load (認知負荷) も高くなっていました．これらの課題を解決するために組織変更を行い，Platform チームを複数の専門性に特化したチームに分割しました．本記事ではチームのデザイン，チームが分離しても独立性を保ちつつ
- microservices
- mercari
- 組織
- チーム
- あとで読む
- SRE
- 運用
- 開発
- management
- team
Webサービスを1日10回デプロイするための取り組み / SRE NEXT 2020
- 217 users
- speakerdeck.com/fujiwara3
- テクノロジー
- 2020/01/25
Amazon ECSで好きなだけ検証環境を起動できるOSSの設計・実装・運用 / YAPC::Hiroshima 2024
- SRE
- あとで読む
- デプロイ
- ci
- deploy
- サービス
- slide
- web
- Deployment
- ECS
開発メンバーの保守運用スキルを上げるため実施している朝当番制度の紹介 - Classi開発者ブログ
- 216 users
- tech.classi.jp
- テクノロジー
- 2022/03/02
こんにちは、開発支援部基盤インフラチームの kenryooo です。 Classiでは過去の高負荷によるアクセス障害での反省を踏まえ、エンジニア向けに保守運用スキルを高める施策として、朝当番という制度を運用しています。今回はその紹介をします。目的朝当番制度は、下記を目的に運用しています。 Classiのピークタイム(毎朝8:00 - 9:30)に問題が起きた場合、社内向けにスムーズな情報連携を行うサービス品質の継続的な改善パフォーマンスや監視内容に異常があった場合や、依存している外部接続システムやSaaSのメンテナンス情報などを担当チームへ共有する担当エンジニアの育成 Classiシステムの全体像の理解担当外のアプリケーション(リポジトリ)の理解システム監視の入門(Datadog) インシデントハンドリングの入門背景と課題朝当番制度は、下記の背景と課題感からスタートしてい
- 運用
- あとで読む
- SRE
- 開発
- インフラ
- 仕事
- 監視
- DevOps
- チーム
【レポート】インフラエンジニアは働かない～AWSのフルマネージドサービスでメンテフリーになるまで～ #AWSSummit | DevelopersIO
- 215 users
- dev.classmethod.jp
- テクノロジー
- 2020/09/18
DA事業本部の春田です。 AWS Summit Online絶賛開催中！ということで、本記事では「CUS-60: インフラエンジニアは働かない～AWSのフルマネージドサービスでメンテフリーになるまで～」の内容についてまとめていきます。セッション情報株式会社カプコンシステム開発部中村一樹氏株式会社カプコンシステム開発部中島淳平氏 DL数500万を超える大型タイトル、モンスターハンターライダーズ。メンテフリー、省コスト、最先端、をテーマにしたカプコン史上最大のインフラアーキテクチャはどの様に設計され、どう運用されているのか。コンテナって実際どうなの、Kubernetes？ECS？RDBMSを使わずしてサービスを提供することは可能？大量アクセスにより生成されるログを安全に回収するにはどうする？実際に運用してみた経験や事例を踏まえて、カプコンの考えるクラウドネイティブ時代の
- aws
- あとで読む
- インフラ
- dynamodb
- kubernetes
- db
- Developers
- ECS
- lambda
- 管理
限られた人数で MIXI のあらゆる公式サイト群を保守・運用するノウハウとその体制 | MIXI SRE秋祭り〜 MIXIのもうひとつのSRE 〜
- 215 users
- speakerdeck.com/bbqallstars
- テクノロジー
- 2023/10/31
2023年10月31日に株式会社MIXIで行われた「MIXI SRE秋祭り〜 MIXIのもうひとつのSRE 〜」での発表資料です。イベントページ https://mixi.connpass.com/event/299121/ ─────────────── MIXIのSREは、サービスの信頼性に直接関わる負荷やコスト、システムの信頼性などをサービス開発と密接に連携しながら取り組むようなSREと、社内の共通課題やスポットで相談された事業などへの技術支援など、全社的なサービスの信頼性に関わるありとあらゆることに取り組むSREがいます。本イベントでは、後者の全社的なサービスの信頼性に関わるSREから、最近の取り組み事例を紹介させていただき、Q&Aの時間などを通して、ご参加の皆様と共に情報交換ができれば幸いです。 ◎こんな方におすすめ◎ ・SREとしてサイト信頼性だけでなく、企画や事業開発な
- SRE
- あとで読む
- 運用
- mixi
- terraform
- 開発
- サイト
“LLM for SRE“の世界探索 - ゆううきブログ
- 214 users
- blog.yuuk.io
- テクノロジー
- 2024/03/21
ChatGPTが登場した当初、対話や要約、翻訳、コード生成などの典型的な言語タスクができても、SREやAIOpsの研究開発にはあまり関係ないのではないかと正直思っていた。AIOpsでは典型的にはいわゆるObservabilityデータ（メトリクス、ログ、トレースなど）が入力となるため、自然言語ではなく数値のデータを解析することが求められる。自然言語のタスクを研究対象としていなかったため、AIOpsとChatGPTに強い関係性は見いだせなかった*1。しかし、自分で大規模言語モデル（Large Language Model: LLM）を日常的に使用したり、表題にあるようにSREのためのLLM（LLM for SRE, LLM4SRE）に関する論文を読むうちに、LLMのテキスト生成器としての性質よりもその優れた推論機械としての性質に注目するようになった。特にSREの障害診断は、人間の専門家が推
- LLM
- SRE
- あとで読む
- AI
- 機械学習
- 自然言語処理
- 論文
- IT
DevOpsの負の側面について
- 213 users
- www.infoq.com
- テクノロジー
- 2023/08/30
トランスクリプト Protsenko氏：私の名前はMykytaです。Netflixで働いています。私の仕事は基本的に、他の開発者が遅くまで職場に残らなくてもいいようにすることです。彼らが午後5時に退社しても生産的であることが私の実現したいことです。私はプラットフォーム組織、つまり生産性エンジニアリング部門で働いており、他のエンジニアのために労力を抽象化しようとしているのです。エンジニアが同じ退屈な技術的問題に何度も対処するのではなく、ビジネス上の問題の解決に集中できるようにします。いくつか質問させてください。あなたたちのうち何人が、自分で作って自分で動かすという哲学を実践している会社で働いてますか？生産現場との間にゲートキーパーがいないこと、機能や修正をより早く提供できることに満足している人はどれくらいいますか？本番環境で発生したインシデントに対処しているときに、どうすればいいのか分から
インフラエンジニアはSREではないし、SREとPlatform Engineeringも別物 - inductor's blog
- 211 users
- blog.inductor.me
- テクノロジー
- 2023/09/08
インフラエンジニアの肩書きをSREに変えるタイプの組織変更は近いところから遠いところまでいろんなところで見かけてるんだけど、改めてそれって名前変えただけじゃないよね？って問いかけは個人が組織に、組織が個人にそれぞれ相互でした方がいいと思う。インフラエンジニアって言葉もまあ定義が死ぬほど広くてどこからどこまで指すのってのは組織によって違うね大変だねって話ではあるんだけど、SRE(Site Reliability Engineering)やPE(Platform Engineering)はインフラと必ずしも対応関係にあるわけではないんだよな。 Platformってのは言ってしまえば会社のエンジニア組織の中で自分達に最適化された基盤を作る人たちの集合体とそのプロダクトそのものを指していて、Platform Engineering組織の中には当然フロントエンドエンジニアやデザイナー、プロダクトオ
家族アルバムみてねで直面してきた技術的負債 / MIXI KAG 2024
- 208 users
- speakerdeck.com/isaoshimizu
- テクノロジー
- 2024/03/22
2024.3.22（金） SRE観点での技術負債懺悔会 2024 https://mixi.connpass.com/event/312191/
- 開発
- あとで読む
- SRE
- slide
- 技術
- development
SREチームでポストモーテムを1年半運用してみた - KAYAC engineers' blog
- 206 users
- techblog.kayac.com
- テクノロジー
- 2022/03/22
SREチームの藤原です。今回は、SREチームが主導してポストモーテムを書く取り組みを、社内で1年半ほど運用してみたという話です。ポストモーテムとは? 「ポストモーテム」(postmortem=事後検証)とは、システムにインシデントが発生したことによる影響、緩和や解決のために取られた行動、インシデントの原因、再発防止策などをまとめた文書です。カヤックのSREチームは、各メンバーがそれぞれのプロダクトに参加し、他のエンジニアとともに開発と運用を行う、いわゆる「Embedded SRE」という形態を取っています。そのため、SREチームのメンバーでも自分が関わっていないプロダクトで発生したインシデントについては詳しく把握できないことがありました。SRE以外で運用に携わっている、プロダクト専任のサーバーサイドエンジニアにはなおさら困難でした。また、インシデント発生時に実際に手を動かす人がどうし
いろんなやり方の読書会をやってみたら当日音読その場でまとめ方式が最高だった話 - Gunosy Tech Blog
- 204 users
- tech.gunosy.io
- テクノロジー
- 2023/12/03
こんにちは、SRE チームマネージャーの TksYamaguchi です。こちらの記事はGunosy Advent Calendar 2023の3日目の記事です。前回の記事は森田さんの LLM 論文の探し方でした。概要 SRE チームは、シニアエンジニアとジュニアエンジニアで構成されているチームで、チーム内の技術的な知識の偏りの解消や、知識のタコツボ化の解消を目的として読書会をしてきました。その過程でいろいろな読書会のパターンを行ってきましたので、その結果を共有します。概要読書会開始前の SRE チームの課題感読書会のやり方の整理と評価の観点やり方評価の観点当日音読・Slack に投下する方式実際のまとめ方式詳細評価メリットデメリット事前に読んで Miro*1 に付箋・当日議論する方式実際のまとめ方式詳細評価メリットデメリット当日黙読・その場
- 読書会
- あとで読む
- 読書
- チーム
- 本
- 仕事
- 書籍
- コミュニケーション
- work
- 読み物
次世代データベース TiDB の検証とその評価 [DeNA インフラ SRE] | BLOG - DeNA Engineering
- 203 users
- engineering.dena.com
- テクノロジー
- 2022/01/20
※こちらは先日実施された DeNA インフラエンジニア / SRE MEETUP で話した内容を Blog 記事化したものです！こんにちは！IT基盤部の熊谷です。IT基盤部にて大規模ゲームのインフラを見ている新卒２年目のインフラエンジニアです。この記事では “DeNA でのデータベース運用とそのツラミ” と、“TiDB導入への検証・検討” をご紹介させていただきます。データベースの最適解 DeNA のデータベース構成は最適解を求めて改良を積み重ねてきました。最初期の構成、(便宜上、第１世代と呼びます) では VM Instance 上に MySQL を構築し管理する MySQL on EC2 構成。続く第２世代では、マネージドサービスを駆使した Aurora MySQL 構成。この２世代の中で生じた “ツラミ” を解消する次の世代、言わば第３世代に該当する新しいデータベース構成を現
- TiDB
- データベース
- database
- mysql
- db
- あとで読む
- DeNA
- 運用
- NewsQL
- インフラ
セキュリティガードレールを作って、非エンジニアに安心してGCPを提供できるようにした話 - MonotaRO Tech Blog
- 203 users
- tech-blog.monotaro.com
- テクノロジー
- 2021/07/06
はじめまして、モノタロウでGCPの管理をしている吉本です。今回はモノタロウの社内全体でデータ基盤として使っているGCPをテーマに、大規模組織におけるクラウド運用の取り組みをお話します。データ民主化による現場主導のデータ活用クラウドの利用拡大に伴う課題 Cloud Asset Inventoryを利用したセキュリティガードレールの構築まとめデータ民主化による現場主導のデータ活用最近、データの活用・推進が様々な企業で実施されるようになってきました。特に2018年あたりからデータ民主化と呼ばれる、職種に問わず自らデータを集計・分析して意思決定をする文化が広まるようになった結果、非エンジニアがSQLを書く事例が増えています。*1 *2 モノタロウでも職種問わずデータドリブンな意思決定を推進しています。 2017年にデータ基盤をBigQueryに構築して以降、積極的にSQLなどの研修な
踏み台にはECSコンテナを。～ログイン有無を検知して自動停止させる～ - NRIネットコムBlog
- 203 users
- tech.nri-net.com
- テクノロジー
- 2023/10/02
こんにちは、後藤です。今回はAWS構成における踏み台についての記事です。データベースなどのインターネットに繋げたくないリソースに踏み台リソース経由でアクセスさせることは、セキュリティ設計としてよくある構成だと思います。今回はその踏み台リソースに「ユーザーログイン有無を検知して自動停止する」ロジックを組み込んだ方法を共有します。また、一般的によく用いられるのはEC2だと思いますが、今回はECS on Fargate(以降はFargateと略)を使います。しかも自動停止ロジックにLambdaを使いません！！コンテナの中で完結させます。踏み台を設計する時に気になることそもそも踏み台について設計する際に何が気になるのでしょうか。それはOS管理負担と自動停止です。踏み台にEC2を用いるとOSパッチ適用などの運用コストが発生します。業務系サーバでないのに心労が重なるのはなるべく避けたいとこ
- ECS
- aws
- あとで読む
- 踏み台
- コンテナ
- fargate
- security
運用を支えるためのログを出すにはどうするか？ #jjug_ccc #ccc_m3
- 201 users
- speakerdeck.com/wreulicke
- テクノロジー
- 2019/11/27
JJUG CCC 2019 Fallで話した時のスライドです。
- ログ
- 運用
- あとで読む
- logging
- slide
- monitoring
- 監視
- JJUG
- java
- 開発
開発チームの責務を「エンジニアリング観点でのサービス継続リスクをコントロールしながら、開発速度を最大化する」としてみた話 - $shibayu36->blog;
- 200 users
- blog.shibayu36.org
- テクノロジー
- 2020/10/01
最近開発チームの改善を行う時に、どういう目的で開発チーム改善を行うのかや、開発チームの責務は何なのかについて悩んでいた。色々本を参考にしながら、自分の中でしっくり来た責務があったので、ブログにまとめておく。まず自分の中で、開発チームの責務は次のものであると言語化した。エンジニアリング観点でのサービス継続リスクをコントロールしながら、開発速度を最大化するなぜこの責務としたかまず現代のソフトウェア開発においては、非常に不確実な状況で、顧客にとって価値があるものが何かを探索しながら、高速に価値を創出・提供しなければならない。これを満たすためには、「正しいものをつくる」ということと、「正しくつくる」ということの両輪を回す必要がある。この時、プロダクトオーナー側と開発チーム側で分業するとすれば、やはり開発チームは「正しくつくる」ことに焦点を当てて責務を持つと良いと考えた。つまり開発速度(価
SRE不在のチームに入って2ヶ月でやったこと - 負荷試験ツールからはじめるSREプラクティスの導入
- 200 users
- speakerdeck.com/fujiwara3
- テクノロジー
- 2023/04/27
TechFeed Experts Night#17 〜事例で学ぶSRE 〜ツール、プラクティスから組織づくりまで https://techfeed.io/events/techfeed-experts-night-17
- SRE
- あとで読む
- チーム
- performance
- ツール
- Testing
- 運用
- 組織
SLO策定とアラート設定までの長い道のり - Cybozu Inside Out | サイボウズエンジニアのブログ
- 199 users
- blog.cybozu.io
- テクノロジー
- 2020/11/13
こんにちは、@ueokandeです。早速ですが、皆さんが運用しているサービスには、SLO (Service-level objective: サービスレベル目標) がありますか？アラートの監視項目はどのように設定して、基準値をどのように決めていますか？社外とのコミュニケーションだけでなく、社内向けのSLOを決めておくことで、サービスの健康状態を知るための手がかりや、普段の開発・運用タスクの優先度を決める上での指標にもなります。またSLOがあると、サービスを監視するアラートに、理にかなった閾値を設定できます。この記事ではAWS版kintoneの、SLOとアラートを設定するまでの記録について紹介します。 cybozu.com版kintoneのSLOとアラート国内のcybozu.comで運用しているkintoneにも、もちろんSLOやアラートはあります。しかし現状のSLOはkinton
- SRE
- monitoring
- 運用
- 監視
- あとで読む
- cybozu
- aws
- slo
- インストール
Googleの徹底的なシステム障害への対応「SRE」の中身とは？
- 196 users
- gigazine.net
- テクノロジー
- 2020/03/17
インターネット上でサービスを提供する企業では、いかに自社のシステム障害と向き合うかが重要です。検索エンジンやクラウド、メール、広告など、さまざまなサービスを提供しているGoogleが、自社が提唱しているシステム管理の方法論「SRE」に基づき、システム障害にどう対応しているかを実際の事例をもとに紹介しています。 SRE keeps digging to prevent problems | Google Cloud Blog https://cloud.google.com/blog/products/management-tools/sre-keeps-digging-to-prevent-problems SREはサイト・リライアビリティ・エンジニアリングの略で、「サイト信頼性エンジニアリング」と訳されることもあります。Googleのような大規模な企業では、他の企業ではめったに起こらない
- SRE
- あとで読む
- google
- 障害
- 運用
- CPU
- cloud
日本のSREの火付け役ともなったエンジニアが貫く信念 ─ すべてはログの向こうにいるエンドユーザのために - Findy Engineer Lab
- 192 users
- findy-code.io
- テクノロジー
- 2021/10/20
こんにちは、はじめまして。さくらインターネット株式会社の長野雅広（@kazeburo）です。Webの業界に入ったのは学生だった2000年頃で、キャリアは20年以上になります。おそらくこの業界でも長い方ではないでしょうか。20年の間にmixiやlivedoor、メルカリといった企業で働く機会を得て、どの職場でもサービスの裏側にあるインフラや、Webアプリケーションの運用を支える仕事、今ではSREと呼ばれるような業務に携わってきました。そして今年の1月から、さくらインターネットにてクラウドを中心にサービスの開発を行っています。つまり、インフラやクラウドを利用して一般のお客様向けにサービスを作るという仕事から、クラウドを作ることを仕事にする、という選択をしました。この記事では、どのような経験からSREとして働くようになったのか、また現職に至る選択をした経緯について語りたいと思います。加えて、
- SRE
- あとで読む
- isucon
- エンジニア
- kazeburo
- engineer
- 会社
- 開発