[2ページ] SREの人気記事 1077件 - はてなブックマーク

41 - 80 件 / 1077件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

SREの検索結果41 - 80 件 / 1077件

AWSコスト削減とリソース管理 | 外道父の匠
- 370 users
- blog.father.gedow.net
- テクノロジー
- 2023/08/24
クラウド使いなエンジニアの皆様、猛暑と円安の中いかがお過ごしですか。上層部からインフラコスト削減を突きつけられてはおりませんでしょうか。今回はおそらく初めてコスト削減についてAWSを軸に書いていきますが、考え方はどこの環境でも似たりよったりなので何かしらの足しになればと思う次第であります。目次長いです。ひきかえしたほうがいいぞ！コミュニティに捧げます AWSの売上コスト削減とは三大使命コスト状況整理 Load Balancer 参考リンク統合による削減 EC2 Autoscaling 参考リンク情報整理古いインスタンスタイプの変更スケジュールの調整スポットインスタンスの適用軽量インスタンスの統合・サーバーレス化アプリケーション処理の軽減 EC2 EBS EBSは高い不要EBSを削除・スナップショット化ボリュームタイプの変更 EC2 AMI NAT Gatew
- aws
- あとで読む
- コスト
- 運用
- CPU
- SRE
- 設計
- cloud
- 整理
- Amazon Web Services
監視について思うとこ - y-ohgi's blog
- 366 users
- y-ohgi.blog
- テクノロジー
- 2019/08/19
TL;DR 監視はユーザーにサービスを提供できているかを観測するための行為 SLI/SLOを定めて、SLOを守れるようにモニタリングするダッシュボードは定常的に表示しておくものと障害時に活用するものを作ると良いアラートはレベル分けして人間が対応しなければならないものだけ人間へ通知する監視とはサービスを健全に動作させ続けるために監視を行います。「健全に動作している」の定義はサービスによって異なり、ユーザーにWebページを見せることができることだったり、バッチが正常に終了することだったりします。最終的にユーザーに正常にサービスを提供できていることを観測するために行うことに変わりはありません。さてユーザーにサービスを提供するために何を監視しましょうか？クラウド前提であれば個人的にリソースベース（CPU/Memory）より、 SLI/SLOをベースに監視する事が望ましいと考えてい
- 監視
- あとで読む
- monitoring
- datadog
- モニタリング
- 運用
- SRE
- サービス
- 情報システム
- ログ
社内用GitHub Actionsのセキュリティガイドラインを公開します | メルカリエンジニアリング
- 363 users
- engineering.mercari.com
- テクノロジー
- 2023/06/09
この記事は、Merpay Tech Openness Month 2023 の4日目の記事です。こんにちは。メルコインのバックエンドエンジニアの@goroです。はじめにこのGitHub Actionsのセキュリティガイドラインは、社内でGithub Actionsの利用に先駆け、社内有志によって検討されました。「GitHub Actionsを使うにあたりどういった点に留意すれば最低限の安全性を確保できるか学習してもらいたい」「定期的に本ドキュメントを見返してもらい自分たちのリポジトリーが安全な状態になっているか点検する際に役立ててもらいたい」という思いに基づいて作成されています。今回はそんなガイドラインの一部を、社外の方々にも役立つと思い公開することにしました。ガイドラインにおける目標このガイドラインは事前に2段階の目標を設定して作成されています。まず第1に「常に達成したいこと
- github
- security
- GitHub Actions
- ci
- あとで読む
- セキュリティ
- actions
- SRE
- guideline
- github-actions
コンテナ研修（Kubernetes編）【MIXI 23新卒技術研修】
- 363 users
- speakerdeck.com/mixi_engineers
- テクノロジー
- 2023/05/13
23新卒技術研修で実施しコンテナ研修（Kubernetes編）の講義資料です。動画：https://youtu.be/Dk0isJQ6a80 こちらは後編になります。前編はこちら：https://speakerdeck.com/mixi_engineers/2023-container-training-number-01 ※ハンズオン環境は提供していないので、ハンズオンを実際に試していただくことはできません。資料の利用について公開している資料は勉強会や企業の研修などで自由にご利用頂いて大丈夫ですが、以下の形での利用だけご遠慮ください。・受講者から参加費や授業料などを集める形での利用（会場費や飲食費など勉強会運営に必要な実費を集めるのは問題ありません）・出典を削除または改変しての利用
- kubernetes
- あとで読む
- コンテナ
- 資料
- k8s
- 技術
- GKE
- mixi
- 環境
SadServers - Linux & DevOps Troubleshooting Interviews
- 354 users
- sadservers.com
- テクノロジー
- 2022/10/27
"Like LeetCode for Linux" Capture The Flag challenges. Train and prove your debugging skills. Practice for your next SRE/DevOps interview. Get a full remote Linux server with a problem and fix it.
- linux
- インフラ
- SRE
- server
- 学習
- あとで読む
- 勉強
- DevOps
- サーバ
- webサービス
ネットワークが劣悪な環境を再現する方法
- 351 users
- zenn.dev/headwaters
- テクノロジー
- 2024/03/10
目的アプリケーションが通信に失敗した際のテストを行いたい例. 「通信に失敗した場合に再取得ボタンが表示されること」など方法1. Chrome DevTools を使う https://developer.chrome.com/docs/devtools/network/reference?hl=ja#throttling 任意の設定を追加して使用することができるメリット PCとモバイルデバイスの両方で使用可能新規にアプリケーションをインストールする必要が無いデメリットパケロス率などを設定できない Android, iOS のネイティブアプリでは使用できない方法2. Network Link Conditioner を使用する Network Link Conditioner は Apple が提供しているネットワークユーティリティツール使用手順等は以下のサイトが分かりやす
- ネットワーク
- あとで読む
- network
- テスト
- test
- Android
- 環境
- ios
- 開発
- 通信
SREやクラウドエンジニアが読むと良さげな本まとめ - Qiita
- 350 users
- qiita.com/tmknom
- テクノロジー
- 2019/12/09
一年半ぐらい前にアプリケーションエンジニアからSREにコンバートした筆者が、いま役に立ってるなぁっていう本を紹介します。アプリケーションコードを書いてるときは下のレイヤの技術に興味なかったんですが、改めて勉強してみると楽しいです。コンピュータシステムクラウド全盛とはいえ、コンピュータの仕組みはおさえておくと役立ちます。コレ系の本はわりと小難しいものが多いですが、個人的に楽しく読めた本を紹介します。 Raspberry Piで学ぶコンピュータアーキテクチャ Raspberry Piと銘打たれてますが、コンピュータアーキテクチャの歴史的な背景も踏まえて解説されています。プロセッサ・メモリ・ストレージ・ネットワーク・OS・プログラミングなど、コンピュータ単体の基本的な知識を学べます。　歴史をあわせて知ることができるため、知的好奇心がおおいに刺激され、楽しく読むことができます。この本が難しく感
【衝撃】AWSのRDSがデータを失わないBlue/Greenデプロイに対応しました #reinvent | DevelopersIO
- 350 users
- dev.classmethod.jp
- テクノロジー
- 2022/11/28
「最近は、データベースもB/Gデプロイできるらしいよ？」「そりゃそうやろ。B/Gデプロイなんて、最近当たり前………　へ？DBが？無理でしょ？ほぇ？どういうこと？」最初アップデートのタイトルを見たときの、ハマコーの率直な感想です。 Blue/Greenデプロイは、現行バージョンのトラフィックを活かしたまま新バージョンを動作確認し、問題なければ新バージョンをリリースするという、最近の安全なデプロイの概念において無くてはならないものです。同時に新旧バージョンを稼働させるため、基本的にはステートレスなアプリケーション・サーバーにおいて利用するものという固定概念があったのですが、それをデータベースに対して既存のAWSの技術を組み合わせつつAWSらしいマネージドな仕組みで解決しようという、意欲的なリリースです。制約事項もそれなりにあるので、皆さんの運用ワークロードに当てはまるかは、事前の検証が必
- aws
- RDS
- あとで読む
- データベース
- db
- amazon
- 環境
- database
- データ
- Amazon Web Services
https://twitter.com/matsuu/status/1586362867506327552
- 349 users
- twitter.com/matsuu
- テクノロジー
- 2022/10/30
- インフラ
- あとで読む
- エンジニア
- LeetCode
- SRE
- network
- サーバ
- linux
Treasure Data を退職しました - k0kubun's blog
- 346 users
- k0kubun.hatenablog.com
- テクノロジー
- 2022/07/25
約5年5か月働いたTreasure Dataを7/22に退職した。7/25からShopifyに入社し、RustでJITコンパイラを開発してRubyを高速化する仕事をする。仕事としてやりたい分野が変わってきて自分は今回転職したけど、とても良い会社なので、この記事がTreasure Data (以下TD) で働くことに興味がある人の参考になれば良いと思っている。*1 5年勤続記念にいただいたトロフィーやっていたこと APIチーム元々TDにはJavaで分散システムを書きたくて入社したのだが、TD入社前に特にそういう経験があるわけでもなく主にRailsをやっていたこともあり、Railsでプラットフォームを開発するチームに入った。基盤開発をやりたいと思いながらサービス開発者として最初働き、後に基盤開発チームにジョインするみたいな過去の経験があったので、今回もそういう感じでいけると考えていた。実
- キャリア
- あとで読む
- 退職
- career
- 仕事
- 開発
- 会社
- ruby
- エンジニア
- rails
Webサービスの障害対応のときの思考過程 - ぱいぱいにっき
- 346 users
- mackee.hatenablog.com
- テクノロジー
- 2020/08/30
起こってほしくはないのですが、あらゆるWebサービスは完璧に動作する状態を維持することは難しく、やはり障害対応・トラブルシューティングといった作業が発生します。筆者は普段仕事で障害対応を不幸なことによくやるのですが、障害対応のスキルというのはスピードや判断の正確さが求められるせいか、今までやったことがある人・ノウハウがある人に集中し、それ以外の人は眺めるだけ・あとからログを見返すだけの状態によく陥ることがあります。これはWebサービスを開発・運用するチームとしてみたときにそういった苦労が特定の人に集中するのは良くないので、それを緩和する目的として、筆者が障害対応時に考えていることを記述してみます。なお、これが唯一の正解ではないとは思っているので、ツッコミや、自分はこう考えているよというのを教えていただければ幸いです。具体的な手法を避けて思考の方法を述べているのは、障害というのはパター
- 障害
- あとで読む
- webサービス
- web
- トラブル
- 運用
- SRE
- webservice
- 考え方
- サービス
退職処理を可能な限り自動化する - クックパッド開発者ブログ
- 343 users
- techlife.cookpad.com
- テクノロジー
- 2019/10/10
技術部 SRE グループの id:itkq です。2019 夏アニメで一番好きな作品は Re:ステージ！ドリームデイズ♪ です。この記事では SRE が運用している退職処理の自動化について説明します。退職処理とは入社後に業務のための様々なアカウントを作成するのと反対に、退職時にはそれらのアカウントを無効化する必要があります。これを退職処理と呼んでいます。SRE が管轄している典型的な例では、SSO に対応していない SaaS のログインアカウント・AWS の IAM User・データベースの個人ログインユーザなどが該当します。これらのアカウントは社員によって要否が異なったり必要な権限が異なるため、入社時に一括で用意せず必要に応じて申請してもらう形をとっています。一方で退職時にはそれらのアカウントをすべて無効化する必要があります。退職処理は繰り返され、自動化の余地のあるタスクです。また
- 退職
- あとで読む
- automation
- cookpad
- 自動化
- 運用
- 開発
- 管理
- SRE
- イベント
CIOpsとGitOpsの話 - inductor's blog
- 341 users
- blog.inductor.me
- テクノロジー
- 2021/09/24
はじめに GitOpsという言葉が生まれたのが自分の知る限り2017年頃なのですが、世の中にあるCI/CDの仕組みはまだほとんどがCIOpsもしくは手動のオペレーションによって成り立っていると思っていて、かつては自分もそうだったのですが「Gitで管理されていればGitOpsなんでしょ？」という勘違いを払拭したくてこのエントリーを書いています。 GitOpsとCIOpsは全然違うまず前提としてGitOpsの明確な定義を知らないという場合、あなたの思う「Gitを契機とした自動デプロイの仕組み」は基本的にはCIOpsです。GitOpsとCIOpsは思ったよりも大きな違いがあって、そもそもGitOpsの必要性が分かっていない場合、自動化によって成立しているデプロイはCIOpsが基本です。 CIOpsとGitOpsの一番の違いは、Push型かPull型かである CIOpsの場合、例えばGitHub
- ci
- git
- あとで読む
- DevOps
- GitOps
- SRE
- 開発
- デプロイ
- development
- インフラ
入門監視やSRE本に学ぶ障害対応フォーメーション - An Epicurean
- 336 users
- blog.song.mu
- テクノロジー
- 2021/12/02
システム障害が起こったときにどういう体制で望むか、エンジニア個人が障害に直面した時にどのような役割を受け持つのが良いのか。組織によって色々なパターンはあるでしょう。しかし、幸いにも「入門監視」やSRE本に書かれている4つの役割分担が浸透しているので、それをベースに考えるのがファーストステップとしては良いのではないでしょうか。入門監視 ―モダンなモニタリングのためのデザインパターン作者:Mike Julianオライリー・ジャパンAmazon SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチームオライリージャパンAmazon ただ、小さな組織では障害時に4人もすぐに揃わない場合もあるでしょうし、そもそも4人もスタッフがいない、と言う場合もあるでしょう。そういった場合にもどうすればいいのか考えていきます。役割分担の基本「入門監視」に
- 監視
- SRE
- あとで読む
- 障害
- 運用
- エンジニア
- 本
- インフラ
- 障害対応
- チーム
AWSの開発環境の利用時間をGoogleカレンダー連動させたら開発チームが自由に使えてコスト70%削減！！ - Uzabase for Engineers
- 327 users
- tech.uzabase.com
- テクノロジー
- 2023/02/21
こんにちはNewsPicks SREチームの美濃部です。 NewsPicksのSREのミッションの1つに「コストを適正化する」というものがあります。サービスの規模拡大に比例してインフラコストが増えないようにし、売上に対するコストの割合を低く維持していくのがミッションになります。今回はこのミッションに対するアクションとして開発環境のインフラコストを適正化した話をします。 NewsPicksの開発環境について開発環境のコストをどうやって適正化したか稼働時間対応を実現する仕組みについて実際どれくらい削減できたのかまとめ NewsPicksの開発環境についてまず、NewsPicksの開発環境について概要を説明します。インフラ基盤は本番環境と同様にAWSを利用しており開発チームは現在10以上のチームが存在し、それぞれのチーム専用に用意された開発環境を利用しています。 2年程前までは開発
- aws
- あとで読む
- SRE
- 開発
- google calendar
- google
- Amazon Web Services
- チーム
- 環境
- インフラ
「もうさばき切れない」アクセスが激増したECプラットフォームにおける負荷対策 - BASEプロダクトチームブログ
- 319 users
- devblog.thebase.in
- テクノロジー
- 2020/08/27
はじめに CTOの川口 (id:dmnlk) です。 5月にオンラインmeetupをさせて頂きその中で「具体的な負荷対策に関しては開発ブログで！」と言っていた件ですが気づいたらもう9月になりかけていました。コロナ禍においてネットショップ作成サービス「BASE」の利用者様が急増しました。 www.nikkei.com 5 月には 100 万ショップを超えるショップオーナー様にご利用していただいております。今まで EC 事業を行っていなかった飲食店様や様々な業種の方が利用をはじめていただき、ショップオーナー様も購入者様共に短期の見通しでは想定をしていないアクセスが発生しました。その途中でシステムとして対応しきれない面もあり、アクセス負荷によるサービスの不安定を招き皆様にはご不便や販売時間を変更していただくお願いなどをしてしまい大変申し訳ありませんでした。現在では安定しておりますが、その
- aws
- あとで読む
- aurora
- performance
- データベース
- 開発
- チューニング
- DB
- ec
- アクセス
次世代の監視技術 - Telemetry技術のご紹介 - NTT Communications Engineers' Blog
- 311 users
- engineers.ntt.com
- テクノロジー
- 2021/09/03
こんにちは、イノベーションセンターの三島です。本記事では、次世代の監視技術として期待されるTelemetry技術についてご紹介します。この記事について本記事では下記の3点を共有します。従来の監視技術が抱える課題とTelemetryの可能性 Telemetryの技術概要と、各社の実装状況 NTT Comのネットワーク上で検証し得られた知見と、期待されるユースケース従来の監視技術が抱える課題ネットワーク運用においては、障害検知やパフォーマンス分析のため監視技術が重要となります。従来のネットワークでは、SNMP（Simple Network Management Protocol）と呼ばれる技術が広く利用されています。 SNMPの仕組みを図1に示します。SNMPはUDPベースなネットワーク監視技術です。データモデルはMIB（Management Information Base）と
- 監視
- あとで読む
- monitoring
- network
- 技術
- ネットワーク
- infrastructure
- NTT
- technology
- Telemetry
テスト駆動開発：実はそれは設計技術です
- 306 users
- www.infoq.com
- テクノロジー
- 2019/07/03
テスト駆動開発（TDD）は、より優れたソフトウェアを持続的に早く提供するための確立された手法です。TDDは単純な考えに基づいている。製品コードを書く前に失敗するテストを書くことです。新しい行動が必要ですか？失敗するテストを書いてください。しかし、この一見単純な考えをうまく実行するには、スキルと判断が必要です。 TDDは本当に設計のためのテクニックです。TDDの基礎は、小規模なテストを使用してボトムアップを早急に設計することであり、システムへの信頼を構築しながら迅速に何らかの価値を得ることです。よりよい名前はテスト駆動設計かもしれません。設計方法としては、集中と単純さです。目標は、開発者が価値を提供する上で不要な余分なコードを書くことを防ぐことです。問題を解決するのに必要最小限のコードを書くことです。多くの記事がTDDを行うことのすべての利点を誇りにしています。そして多くの技術会議の講演
- テスト
- あとで読む
- TDD
- 開発
- 設計
- テスト駆動開発
- 技術
- programming
- test
障害対応プロセスを改善してきた話 - 10X Product Blog
- 304 users
- product.10x.co.jp
- テクノロジー
- 2023/06/12
障害プロセスを改善してきた話こんにちは。Reliability & Securityチームに所属するSoftware Engineerの@sota1235です。今回は10X内における障害対応プロセスの改善をご紹介します。今が完成系ではなく道半ばではありますがこの半年 ~ 1年で大きく進化したので同じくらいのフェーズの会社で困ってる方がいたら参考にしてみてください！ちなみに私ごとですが去年の5/26にこんな投稿をしてたのでやっと伏線を回収する形となります(※ ドヤ顔ではありません)。目次こんな感じで紹介していきます。目次障害対応プロセスの改善に踏み切った背景課題1. 障害の報告フォーマットが統一されていない課題2. 障害報のクオリティの差異が大きく後から振り返りが難しい課題3. 障害対応者が特定の人に偏る第一の改善改善1. 障害報告書のフォーマット更新改善2. S
- 運用
- あとで読む
- 障害対応
- SRE
- 障害
- slack
- システム
- サーバ
Googleのソフトウェアエンジニアリング - 技術メモ
- 302 users
- scrapbox.io/razokulover-tech-memo
- テクノロジー
- 2023/07/30
600ページ以上あり結構長いので方針としては第１部だけは一通り読んでみて、その先は各章結論から読んでいき、気になった部分だけ遡って拾い読みしていく戦略でいく方が良さそう。
メルカリShops の CI/CD と Pull Request 環境 | メルカリエンジニアリング
- 301 users
- engineering.mercari.com
- テクノロジー
- 2021/08/17
こんにちは！ソウゾウの Software Engineer の @dragon3 です。連載：「メルカリShops」プレオープンまでの開発の裏側の８日目を担当させていただきます。この記事では、メルカリShops 開発において、日々バリバリに利用されている CI/CD 環境と Pull Request 毎のデプロイ環境について紹介します。 CI/CD 環境メルカリShops では、CI/CD （テスト・ビルド・デプロイ）やその他自動化のために GitHub Actions を使っており、ほとんどのワークフロー・ジョブを Self-hosted runners で実行しています。 Self-hosted runners は、専用の VPC ネットワーク内の GCE インスタンス上で動かしており、Managed Instance Group 等を使い、そのプロビジョニングや起動・停止等は
- ci
- あとで読む
- 開発
- メルカリ
- github
- デプロイ
- テスト
- 環境
- DevOps
- mercari
『読書とは、能力、知識ではなく問いを獲得するための行為』みたいな内容で登壇しました。 - じゃあ、おうちで学べる
- 298 users
- syu-m-5151.hatenablog.com
- 学び
- 2024/03/13
問題を解決する能力は確かに重要ですが、それ以上に、何が本当に重要な問題なのかを見極め、それを明確に設定する能力が不可欠です。問いを適切に定義できなければ、どんなに高度な解決技術を持っていても、その力は十分に発揮されません。また、誰にとって適切な問いなのかも考える必要があります。問題解決の過程において、問題そのものの本質を正確に把握し、適切な問いを立てることは重要です。イシューからはじめよ――知的生産の「シンプルな本質」作者:安宅和人英治出版Amazon 概要 SREたちの廊下〜あなたの現場での悩み、あの本にヒントがあるかも〜にて「書を捨てよ、現場へ出よう - このSRE本がすごい！2024年 LT版」というテーマで登壇しました。のイベントは2024年1月末に注目を集めた『このSRE本がすごい！2024年版』をテーマにしたもので、多くの参加者とパネルディスカッションのスピーカーであるT
- 読書
- あとで読む
- 習慣
- 考え方
- 本
- SRE
- 学習
- 書籍
- book
システム障害対応演習を実施した話｜NAVITIME_Tech
- 298 users
- note.com/navitime_tech
- テクノロジー
- 2020/07/02
こんにちは、ネコ派メタラーです。ナビタイムジャパンで地点検索基盤の開発マネジメントを担当しています。好きなバンドは Arch Enemy です。システム運用に関わる人であれば、「システム障害」というと耳が痛い方が多いかと思います。システム障害は起こさないに越したことはないですが、万が一システム障害が発生したとき、その行動選択はサービスの信頼性を大きく左右することになります。迅速に復旧させることはもちろんですが、適切な情報公開によってユーザーの不安を払拭するといったコミュニケーションも重要なポイントです。しかし、緊急事態というプレッシャーを受けながら最適な行動を選択することは容易ではありません。私が所属しているチームでは、Web API サーバソフトウェアから全文検索ミドルウェアまで含めた開発・運用を行っており、幅広いトラブル対応スキルが必要になります。トラブル対応のスキルを持ったベテ
WebRTC配信システムをAWSからオンプレミスに切り替えている話
- 298 users
- speakerdeck.com/bateleurx
- テクノロジー
- 2021/07/27
2021年7月27日 DMM meetup #31 での発表内容です
- aws
- WebRTC
- あとで読む
- DMM
- システム
- network
- インフラ
- api
- 運用
- 設計
SRE導入: システムを安定させる4000万円の魔法の壺 - MonotaRO Tech Blog
- 293 users
- tech-blog.monotaro.com
- テクノロジー
- 2022/09/13
こんにちは。鈴木です。ここにシステムを安定させる4000万円の魔法の壺があるとします。あなたなら買いますか。はじめに SREやればいいのに 4000万円の魔法の壺なぜモノタロウはSREに取り組むのか 10分落ちると数百万円、数千万円の影響が出る不安定なシステムを札束でしばいたことがある大規模化・複雑化が旧来の運用方法を無効化する SREの導入による効果会話の中に「SLO」が登場するようになったシステムの状態を深く理解できるようになったオンコールの初動対応が早く精緻になった SREの難しさ組織横断的な活動の難しさ安定的に時間を使うことの難しさ利用するツールやサービスの難しさどのようにSREを導入したのか Googleの最新SREを学んだ CUJを定義した SLIとSLOを定義した Cloud Monitoringでダッシュボードを作成した役に立つかもしれない話可
- SRE
- あとで読む
- システム
- 運用
- 開発
- 組織
- エンジニア
- 障害
Kubernetesに腰を据えて入門する方向けのロードマップ - Qiita
- 289 users
- qiita.com/riita10069
- テクノロジー
- 2023/02/05
背景最近、「コンテナはもうわかってきたので、これからKubernetesについて腰を据えて勉強したいが、どのように勉強すればいいかわからない」という相談をいただくことがすごく多くなった。必要に応じて必要なリソースの挙動などを調べてきたし、僕自身も知らないことばかりなので、全てを伝えることはできない。とはいえ、「入門しにくいサービスが伸びにくい」というのは、間違いないので、Kubernetesに入門する上でこの順番で学習したら、基本的な内容を身につけられるのではないかというロードマップを一つ公開しておくことで、これから業務でKubernetesを理解していく必要がある方の最初の一歩を助けられるかもしれないと思い、公開する事とした。(このQiitaのリンクを渡すだけで質問に回答できるという状態を作りたいという観点もある。) 自分の今の、Kubernetesに対する理解をうまく表現できてい
- kubernetes
- あとで読む
- k8s
- 入門
- qiita
- まとめ
Goで実装された高速な 仮想待合室サーバの実装と詳解
- 286 users
- speakerdeck.com/pyama86
- テクノロジー
- 2023/09/14
ペパボのテックカンファレンスで話しました。
- go
- あとで読む
- golang
- 設計
- performance
- API
- パフォーマンス
- 開発
- 運用
【いでよ障害対応太郎】我々はインシデントにどう向き合っているのか〜社内向け障害対応リスト付き〜
- 276 users
- medium.com
- テクノロジー
- 2020/07/21
「なんかアプリでインシデント起きてエンジニアがどこかで対応してるらしいよ」「インシデント時のお知らせって誰がどうやって出すんだっけ？」「インシデントの復旧作業って今どれくらい終わってる？」「あのインシデントって振り返りしたっけ？」「似たようなインシデント、前も対応したような、していないような」このような会話に覚えはありませんか？ FiNC Technologies社 (以下FiNC) では今までインシデント対応をしていても自チーム内で対処しようとしてしまい、他の人が気づけないインシデント対応の仕方にフォーマットがなく、迅速な対応やお客様への報告ができないインシデントの振り返りが実施されず、インシデント時の知見が共有されないという問題がありました。それらの問題を気が付きやすく、シェアしやすくする = 統一のチャンネルで情報を整理し、そこにシェアしやすい空気を作る何をすべきかわ
SRE 研修
- 275 users
- docs.google.com
- テクノロジー
- 2023/04/15
SRE 研修共有ログインお使いのブラウザのバージョンはサポートが終了しました。サポートされているブラウザにアップグレードしてください。閉じるファイル編集表示ツールヘルプユーザー補助機能デバッグ
- SRE
- あとで読む
- DevOps
- 運用
- 資料
- 研修
- education
- インフラ
SRE実践の手引 ─ 信頼性をどう制御するか？から始める、現実的な指標と目標の設計と計測 - エンジニアHub｜Webエンジニアのキャリアを考える！
- 274 users
- eh-career.com
- テクノロジー
- 2019/12/05
SRE実践の手引 ─ 信頼性をどう制御するか？から始める、現実的な指標と目標の設計と計測 SREの役割には、信頼性、SLIとSLO、エラーバジェット、トイル、ソフトウェアエンジニアリングといった複数のキーワードが存在するがゆえ、なかなかうまく実践できない、という声もあります。本稿では、難しく見られがちなSREの内実を、「信頼性の制御」というコンセプトを軸に整理し、小さく始める一歩を坪内佑樹（ゆううき）さんが解説します。こんにちは。SREの研究者をやっているゆううき（@yuuk1t）です。 SRE（Site Reliability Engineering）は、従来のオペレーションエンジニア、システム管理者（sysadmin）と呼ばれる人々が担っていた技術領域の新しい形です。Googleによって提唱され、日本国内でも2015年ごろからWebコンテンツ事業者のコミュニティを中心に広く知られる
障害発生！全員集合？－オンコールアンチパターンからの一歩前進 - Cybozu Inside Out | サイボウズエンジニアのブログ
- 273 users
- blog.cybozu.io
- テクノロジー
- 2021/08/19
8月だというのに涼しい日が続きますね。 kintone.comのDevOpsをしている@ueokandeです。もうすぐAWS版kintoneのローンチからから2年が経過しようとしています。この2年間、DevOpsチームではkintone.comのサービス安定化やスケーラビリティに注力してきました。時には本番環境の障害で休日や深夜に障害対応することもあります。 kintone.comの障害の一次対応は、我々DevOpsメンバーが実施しています。サービスローンチ直後は、メンバーの多くがオンコールに不慣れで、慌てて障害対応したりうまく進められないことが何度もありました。そこでメンバー全員が効率的・効果的な障害対応を目指すべく、チームでPagerDuty社のIncident Response（非公式日本語訳版）を読むことにしました。この記事ではAWS版kintoneで実際に体験した障害
- 運用
- あとで読む
- DevOps
- 障害
- cybozu
- チーム
- オンコール
- development
- sre
- monitoring
カオスエンジニアリングを組織にも適用。アンチフラジャイルなシステムを目指してユーザベースが発見した問題とは？ - はてなニュース
- 272 users
- hatenanews.com
- テクノロジー
- 2021/12/15
Netflixがシステム運用に取り入れている、カオスエンジニアリング（chaos engineering）という手法があります。例えば機能を冗長化したシステムでも、いざ障害が起きたときに別系統が想定どおり機能するか分からない。そこで実際に動いているシステムで意図的に障害を起こし、挙動を確認してシステムの改善につなげる考え方です。株式会社ユーザベースでは、アンチフラジャイル（antifragile、反脆弱）なシステムを目指してカオスエンジニアリングを導入しています。システムだけでなく、エンジニア組織においてもカオスエンジニアリングを応用した改善プロセスに着手しています。キーパーソンがいなくなってもプロジェクトはうまく動き続けるか、実際に外れてもらって確認するのです。このチャレンジングな取り組みについて、CTOの林尚之さんと、システムでも組織でもカオスエンジニアリングを体験したエンジニアの
なぜ使われないダッシュボードが作られるかという話 - satoshihirose.log
- 271 users
- satoshihirose.hateblo.jp
- 学び
- 2023/06/26
はじめに最近、ビジネスダッシュボードの設計・実装ガイドブックという書籍が出版された。今まであまりなかった視点から書かれたデータに関する本で面白く読んだ。ビジネスダッシュボード設計・実装ガイドブック成果を生み出すデータと分析のデザイン作者:トレジャーデータ,池田俊介,藤井温子,櫻井将允,花岡明翔泳社Amazon 作ったダッシュボードの利用が進まず、虚しさを覚えた経験がある人は多いと思う。どうしてそうなってしまうのか、自分の経験を元にまとめたいなと思ったのでまとめる。なぜ使われないダッシュボードが作られるかなぜ作られたダッシュボードが使われないかと言うと、基本的にはそのダッシュボードがそんなに必要なものではないからだ（社内周知がうまくない、ツールの使い方がわからない人が多いなどの理由もあったりするがここでは無視する）。必要のないダッシュボードが作られてしまう状況に関して
- データ
- あとで読む
- 仕事
- 開発
- ui
- ux
- ソフトウェア
- web
筋肉マージは辞めよう - Qiita
- 270 users
- qiita.com/potyamaaaa
- テクノロジー
- 2019/12/04
追記2 2019/12/04 21:00 こんなよくわからない記事をご覧いただきありがとうございます。この事件を起こしたのは1年前で、Gitを使いはじめて1ヶ月のときに下記の事件を起こしてしまっていてとても混乱していたのを当時覚えています。内容については、rmをしたかもしれないという記事に結果的になったかもしれませんが、私の記憶ではファイルを消した記憶はありません。ただ、当時作業していたディレクトリもないのでコマンドを確認する手段がないため一番濃厚なrmをしたというのを今回の結論にしました。曖昧さは申し訳ありません。また、意見、感想、批評には全て目を通させております。伝わりにくい内容やわかった事実は適宜編集してできるだけ皆さんに伝わるよう善処いたしますのでどうぞよろしくお願いします。追記2ここまで追記 2019/12/04　13:00 1.本番環境でやらかしちゃった人 Adv
- qiita
- git
- Advent Calendar
- あとで読む
- 技術
- これはひどい
- ネタ
- 教育
Google、SRE本の第三弾「Building Secure and Reliable Systems」を無料公開
- 270 users
- www.publickey1.jp
- テクノロジー
- 2020/04/13
Google、SRE本の第三弾「Building Secure and Reliable Systems」を無料公開 GoogleはSite Reliability Engineering（SRE）に関連する書籍として、これまで「Site Reliability Engineering」「The Site Reliability Workbook」の2冊を無料で公開してきました。このSRE本の第三弾として、Googleは「Building Secure and Reliable Systems」の無料公開を開始しました。「Site Reliability Engineering」（SRE）とは、GoogleのシニアVPであるBen Treynor氏が提唱した、高い信頼性や性能を発揮するシステムインフラを実現し、改善していくアプローチのひとつです。そしてこのアプローチは、前述の通り20
- SRE
- あとで読む
- google
- publickey
- 本
- 無料
- 設計
- インフラ
- ebook
- book
監視の考え方〜あるいは可観測性とはなんなのか〜 - estie inside blog
- 269 users
- www.estie.jp
- テクノロジー
- 2023/02/15
みなさん、監視作ってますか？システムを作ったら、そのシステムを監視していく必要がありますよね。どうやったら「いい監視」が作れるのでしょうか。「いい監視」とそうでない監視との違いとは、いったいなんでしょうか。今の時代、「監視」ではなくて「可観測性」、 Observability (o11y) の時代になっていて、良いプラクティスや考え方が色々とあります。この記事は、監視や o11y についての考え方を社内に共有するため書いたものを、社外共有用に調整し直したものです。新しい Observability の時代を、一緒に生きていきましょう。監視を作ろうあなたはシステムを作りました。そのシステムに「監視」をつけようと思ったとき、最初にすることはなんでしょうか？まずは、システムを何らかのツールで監視するところから始めましょう。やらなきゃはじまらない。 Nagios, Cacti, Mun
- 監視
- monitoring
- あとで読む
- SRE
- observability
- 運用
- 考え方
- CPU
- サービス
- 設計
Retty の Terraform CI/CD 解体新書 - Retty Tech Blog
- 268 users
- engineer.retty.me
- テクノロジー
- 2022/11/18
Retty インフラチームの幸田です。 6月に実施したマイクロサービス強化月間で公開した記事では、マイクロサービス環境を Terraform を利用して刷新した話を書きました。 engineer.retty.me この記事では前回と重複する箇所もありますが、Terraform の CI/CD にフォーカスした内容を書こうと思います。 CI を整備するにあたって意識したこと「誰でも」かつ「安全に」利用できるように CI 上ですべての作業を完結させる Pull Request によるレビュー環境の整備バージョンアップ作業の完全自動化 Terraform のディレクトリ構成についてリポジトリの運用フロー Terraform によるリソースの追加、変更、削除 tfmigrate によるステートファイルの操作 CI で実行される job について Pull Request をオープンした時 P
- terraform
- CI
- あとで読む
- aws
- DevOps
- CICD
- cd
- 技術
- プログラミング
- github
独りよがりのプラットフォーム / For Whom that Platform Runs
- 268 users
- speakerdeck.com/toricls
- テクノロジー
- 2020/09/09
Talked at CloudNative Days Tokyo 2020 #CNDT2020. Video available at https://event.cloudnativedays.jp/cndt2020/talks/30
- aws
- あとで読む
- platform
- 組織
- チーム
- アーキテクチャ
- 技術
- architecture
- development
- 開発
Istio導入のメリットとハマりどころを、実例に学ぶ～マイクロサービス化の先にある課題を解決する｜ハイクラス転職・求人情報サイト AMBI（アンビ）
- 267 users
- en-ambi.com
- テクノロジー
- 2019/05/21
Istio導入のメリットとハマりどころを、実例に学ぶ～マイクロサービス化の先にある課題を解決するマイクロサービス化にともなサービス間の接続の複雑化、という課題への対処としてサービスメッシュとこれをもたらす「Istio」が注目されています。Istioをいち早く導入したユーザベースの阿南さんが、導入メリットと、使って分かった「ハマりどころ」を解説してくれました。マイクロサービスを増やしていくならサービスメッシュ化を検討すべき KubernetesやIstioは今までの技術の集大成運用したからこそわかるIstioのハマりポイントハマりどころ1：設定の反映が遅延するハマりどころ2：エンドポイント登録がnamespase単位で分かれていないハマりどころ3：istio-proxyの制限にひっかかる使っている人に聞いてみた「Istio-proxyを経由すると10ms遅くなる？」 Istio
- istio
- kubernetes
- あとで読む
- サービスメッシュ
- k8s
- proxy
- service mesh
- ServiceMesh
- サービス
- Envoy
【SRE Next 2020】発表資料まとめ - Qiita
- 266 users
- qiita.com/Hassan
- テクノロジー
- 2020/01/25
Register as a new user and use Qiita more conveniently You get articles that match your needsYou can efficiently read back useful informationWhat you can do with signing up
- SRE
- あとで読む
- microservices
- 資料
- conference
- デプロイ
- DevOps
- チーム
- まとめ
- event