株式会社サイバーエージェントAI事業本部の2024年度 エンジニア新卒研修でシステム運用の基本と戦略に関する講義を行いました。
株式会社サイバーエージェントAI事業本部の2024年度 エンジニア新卒研修でシステム運用の基本と戦略に関する講義を行いました。
Google社が提唱したITシステムの構築や運用のアプローチ方法であるSRE。導入する企業も増えてきた一方で、期待する効果が得られていない企業も少なくない。そこで今回は、SHIFT、X-Tech5、NTTデータのエンジニアに、導入事例を交えながら、SREの推進・定着・効果などについて語ってもらった。 SREsのためのSRE定着ガイド──X-Tech5 株式会社X-Tech5 取締役CTO 馬場 俊彰氏 最初に登壇したのは、X-Tech5の馬場俊彰氏だ。システムの運用フェーズに携わること、特にモニタリング、オブザーバビリティ、パフォーマンスチューニングが大好きだというCTO馬場氏。iCARE社の技術顧問も務め、専門領域に関する著書を多数上梓している。 馬場氏はまず「SRE(Site Reliability Engineering)とは何か」を関連本を紹介しながら、こう述べた。 「SREはDe
こんにちは! エムスリーエンジニアリンググループ、 SRE チームの平岡(@uhtter)です。 こちらは エムスリー Advent Calendar 2022 の15日目の記事になります。 SRE が担当するの重要なタスクの1つに、インシデント対応があります。 インシデント対応では、システム・サービスの可用性・継続性を損なう問題(インシデント)が発生した際、それをアラートとして受け取り、問題を解消してすみやかにサービスが継続できる状態に復旧します。 SRE 本 でも、 SRE として配属された新人がまず目指すべきは「オンコール業務(≒インシデント対応)をこなせるようになること」と示唆されていますし、それをサポートする組織的なプロセスやトレーニングの方法が数多く紹介されています。 それらを踏まえても、インシデント対応の重要性については改めて問うべくもないでしょう。 エムスリーでは、2000
SRE で Microservices を推進している @b4b4r07 です。 メルカリでは全社 (US/UK/JP) 的に Microservices に舵を切る経営指針が打ち出されており、Microservices Platform Team では Microservices として切り出すにふさわしいサービスの再編のサポートや、新規サービスの Microservices 化のサポート、およびそのスタンダードなインフラ基盤の開発などをしています。 本記事ではその中で開発した Developer Productivity の向上につながる小さなツールを、メルカリでの Terraform の活用事例に交えてご紹介します。 メルカリでの Terraform 活用 冒頭に挙げたとおり、少しずついろいろなサービスが立ち上がり始めていますが、そのインフラとして主に GCP (GKE) が使われて
Site Reliability Engineering (SRE)ー 社内勉強会を開催しました。(前編) はじめに 筆者が入社した直後 2017/4 吉日に、弊社 IT 推進室長の植木(当時、オペレーションチームの部長)が「SRE 勉強会するよ」という発言に端を欲し各自英語版を翻訳した資料を持ち寄り全9回の SRE 勉強会が 2017/5/11 より開始されました。本勉強会のアウトプットとして、本ブログを執筆します。 なお、本ブログ記事はSRE 勉強会の対象となった第1章〜第9章まで(第2章を除く)を要約した形でお届けし、SRE を知るきっかけとなれば幸いであると考えております。そのため、興味をお持ち頂いた読者の方々は下記のオンライン本もしくは翻訳本のいずれかをお手に取って頂き、その詳細について学んで頂ければと思います。 SRE とは 誤解を恐れずにざっくり説明すると、以下になります。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く