tfnotify - Show Terraform execution plan beautifully on GitHub
SRE NEXT 2022 https://sre-next.dev/2022/ [Speaker] ヤフー株式会社 KaaS SRE 水落 啓太 [Description] 増大を続けているヤフーKubernetesクラスタ群(1,000+クラスタ, 400,000+コンテナ)のキャパシティ管理をシステム化し、キャパシティプラニングなどキャパシティに関する運用業務健全化に取り組んだ事例を紹介します。 私たちは、ヤフーの各種サービスを支えるプラットフォームとしてKubernetesクラスタを簡単に利用可能とするKaaS (Kubernetes as a Service) を運用するチームです。 旧来システムのシステム刷新や、ビジネスの伸びやキャンペーンに伴うシステム拡張といったイベントに応じて、ヤフーKaaSには、Kubernetesクラスタ利用の需要が絶えず生じています。私たちは、Kaa
Platform チームの@deeeeeeeetです. Platform チームは2年前にMercariがMicroservicesの移行を始めたときに一緒に立ち上げられたチームです.Platform チームはMicroservicesを動かすための基盤や開発や運用のためのツールセットなど提供しています.立ち上げ時は自分を含めて2-3人で始まったチームですが2年が経ち10人を超えるチームにまで成長しました. チームのメンバーが増えるほど1チームとして動くには限界がきており,またMicroservices化が進めば進むほどチームの負う責任範囲も広くなりCognitive load (認知負荷) も高くなっていました.これらの課題を解決するために組織変更を行い,Platform チームを複数の専門性に特化したチームに分割しました. 本記事ではチームのデザイン,チームが分離しても独立性を保ちつつ
In this final Weave Online User Group of 2019, David Aronchick asks: have you ever struggled with having different environments to build, train and serve ML models, and how to orchestrate between them? While DevOps and GitOps have made huge traction in recent years, many customers struggle to apply these practices to ML workloads. This talk will focus on the ways MLOps has helped to effectively in
SRE実践の手引 ─ 信頼性をどう制御するか? から始める、現実的な指標と目標の設計と計測 SREの役割には、信頼性、SLIとSLO、エラーバジェット、トイル、ソフトウェアエンジニアリングといった複数のキーワードが存在するがゆえ、なかなかうまく実践できない、という声もあります。本稿では、難しく見られがちなSREの内実を、「信頼性の制御」というコンセプトを軸に整理し、小さく始める一歩を坪内佑樹(ゆううき)さんが解説します。 こんにちは。SREの研究者をやっているゆううき(@yuuk1t)です。 SRE(Site Reliability Engineering)は、従来のオペレーションエンジニア、システム管理者(sysadmin)と呼ばれる人々が担っていた技術領域の新しい形です。Googleによって提唱され、日本国内でも2015年ごろからWebコンテンツ事業者のコミュニティを中心に広く知られる
Written by: Heather Adkins, Betsy Beyer, Paul Blankinship, Ana Oprea, Piotr Lewandowski, Adam Stubblefield Can a system be considered truly reliable if it isn't fundamentally secure? Or can it be considered secure if it's unreliable? Security is crucial to the design and operation of scalable systems in production, as it plays an important part in product quality, performance, and availability. In
SREチームの金澤です。 2018年度より、SREチームを発足しました。 その経緯をお話ししたいと思います。 インフラエンジニアとして 私は、2013年11月にランサーズに入社しました。 ランサーズ5年目にして、サービスが本格的に伸び始めた時期で、アプリエンジニアが運用を兼務するには荷が重くなり始めており、専任のインフラエンジニアが必要でした。 入社後、4年半にわたり、サービスの安定化や負荷対策、最新の技術やサービスへの追従など、様々な施策を実行してきました。 スタートアップのインフラエンジニアに求められる仕事は多岐にわたります。 時には、サービスのソースコードに手を入れることも度々ありました。 また、この時期のランサーズは、開発環境の支援や、社内インフラの整備もできる人材が不足しており、そのような業務もインフラエンジニアである私が担っていました。 インフラエンジニア採用の難しさ 2017
インフラにおける日々の運用業務は、クラウド事業者に任せられるようになりました。またインフラを使うために必要な設定は、クラウドであればツールやAPI(Application Program Interface)を介して使えるようになり、アプリケーション開発者にもできる時代です。このような仕組みが、先に紹介したインフラを設定する全ての手順をコード化する「インフラストラクチャアズコード」です。 こんな時代に運用技術者に求められる役割も大きく変わろうとしています。例えば、これまで求められてきた業務は、次のような内容でした。 ITの実務上の利用方法について問い合わせを受けて対応する窓口業務 定められたオペレーションを繰り返し実施する定常業務 ITに関するトラブルに対応する障害対応業務 インフラに関する管理業務(構成管理やキャパシティー管理など) このような業務は積極的にクラウドサービスや自動化ツール
前回の『CRE が現場で学んだこと』シリーズでは、システムの可用性を担保するにあたってターゲットとする正確な数値をいかにして割り出すか、ということについてお話ししました。このターゲットをシステムのサービス レベル目標(SLO)と呼びます。 今後、システムが十分な信頼性を保って稼働しているか、またシステムにどんな設計やアーキテクチャの変更が必要かについて議論する際は、システムが継続的に SLO を満たしているという枠の中で語る必要があります。 SLO の適合性は直接測定することが可能です。システムにおいて精査が成功した頻度で計るのです。これをサービス レベル指標(SLI)といいます。システムが過去 1 週間 SLO を満たしつつ稼働していたかどうかを評価する場合に、SLI からサービスの可用率を把握するのです。定められた SLO を下回っているとなれば問題があるということですから、他の場所に
インフラチーム改め Site Reliability Engineering (SRE) チームになりました Organization Author: kazeburo インフラチーム改めSite Reliability Engineering チームの @kazeburo です。この記事ではまだ馴染みの薄い Site Reliability Engineer とは何かについて紹介したいと思います。 SREとGoogleのSRE Site Reliability Engineerは日本語にすると「サイト信頼性エンジニア」となりますが、あまりキャッチーではないので普段は略語の「SRE」を使用しています。SREという職種は日本ではあまり聞く事はありませんが、FacebookやAirbnb、Dropboxなどの企業でSREが募集され、それぞれのサービスを支える重要な役割を担っていると思われます。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く