株式会社サイバーエージェントAI事業本部の2024年度 エンジニア新卒研修でシステム運用の基本と戦略に関する講義を行いました。
こんにちは、エンジニアリングマネージャーの id:onk です。 Hatena Developer Blogの連載企画「卒業生訪問インタビュー」では、創業からはてなの開発に関わってきた取締役の id:onishi、CTOの id:motemen、エンジニアリングマネージャーの id:onkが、いま会いたい元はてなスタッフを訪問してお話を伺っていきます。 id:onkが担当する第9回のゲストは、さくらインターネット株式会社の組織内研究所であるさくらインターネット研究所の上級研究員で、SRE (Site Reliability Engineering)の研究者としても活躍する id:y_uuki さんこと、坪内佑樹さんです。 2013年にはてなに新卒でWebオペレーションエンジニアとして入社後、サーバー監視サービス「Mackerel」をはじめとするサービス開発やはてなのインフラ開発・運用にSR
SREチームの池田(@mashiike)です。SRE連載の5月号になります。 AWSのコストについては、多くの方がすごく気にしていると思います。 カヤックでもAWSのコストの変動に関しては敏感に気にしています。 そんな方々の心のお供になる機能が、 AWSコスト異常検知(AWS Cost Anomaly Detection) です。 今回は、このコスト異常検知にまつわるトイル削減の取り組みを紹介します。 背景 AWSコスト異常検知は、AWS マネジメントコンソールの中では『Billing and Cost Management』配下にある機能になります。 この機能を使うことでAWSで発生したコストに関して、通常とは異なるコストの発生を検知することができます。 コスト異常検知自体については、CureApp テックブログ様のZennの記事がわかりやすくまとまっているので、そちらを参照いただければ
はじめに 本書『Observability Engineering』は、複雑化の一途をたどる現代のソフトウェアシステムに立ち向かうための、強力な武器となる一冊であり本稿はその読書感想文です。Observability Engineering を今から知りたい方はもちろん、Observability Engineering の基礎を改めて学びたい方もぜひお読みください。この記事もかなりの長さになるので普通に書籍を読んだほうがいいかもです learning.oreilly.com 「Observability:可観測性」という言葉は、近年ソフトウェアエンジニアリングの世界で大きな注目を集めています。しかし、その概念の本質を理解し、実践に移すことは容易ではありません。 本書は、そのオブザーバビリティについて、その基本的な考え方から、具体的な実装方法、そして組織への適用まで、幅広くかつ深く解説して
新緑の候、どこまでも澄んだ空気が視界を広げるように、システムの透明性が深い洞察を可能にしていることと存じます。技術部プラットフォームグループのそめやポチです。 2024年5月9日に、「Pepabo Tech Conference #22 春のSREまつり」と題した技術イベントを開催しました。「SREまつり」とは、ペパボのエンジニアたちがSREについての知見を発信することで、社外のSREコミュニティとの交流を図るイベントです。 昨年の春のSREまつり、夏のSREまつりに続いて、3回目の開催となりました。恒例イベントとして社内外に定着しつつあると感じています。 イベントは、物理会場とライブ配信会場の2つの会場で開催しました。物理会場は、シナジーカフェGMO Yours・フクラスという、GMOインターネットグループのカフェスペースを使用しました。ライブ配信会場は、YouTube Liveを使用し
お疲れ様です。技術ブログを久しぶりに投稿します。SREチームのキム・ドンヒョンです。 SREチームは、信頼性の高いシステムを提供するため、様々な活動を通じてシステムをサポートしています。その中でもシステムの監視と通知活動は、SREチームの重要な業務の一つです。今回は、サービスの安定性を確保するための重要な活動の一つである閾値設定について詳しく説明します。 基本的な監視と閾値設定 基本的なシステムの監視は、システムのパフォーマンスが特定の閾値を超えたり下回ったりしたときに警告を発することです。こうした監視により、システムは自己フィードバックを受けて安定した正常状態を保つことができます。例えば、エアコンのように室内温度を一定に保つ必要があるシステムでは、温度が一定の範囲を外れるとイベントを発生させたり、必要な動作を行ったりしてシステムの安定性を維持します。このような閾値設定は、システムの特性に
Google社が提唱したITシステムの構築や運用のアプローチ方法であるSRE。導入する企業も増えてきた一方で、期待する効果が得られていない企業も少なくない。そこで今回は、SHIFT、X-Tech5、NTTデータのエンジニアに、導入事例を交えながら、SREの推進・定着・効果などについて語ってもらった。 SREsのためのSRE定着ガイド──X-Tech5 株式会社X-Tech5 取締役CTO 馬場 俊彰氏 最初に登壇したのは、X-Tech5の馬場俊彰氏だ。システムの運用フェーズに携わること、特にモニタリング、オブザーバビリティ、パフォーマンスチューニングが大好きだというCTO馬場氏。iCARE社の技術顧問も務め、専門領域に関する著書を多数上梓している。 馬場氏はまず「SRE(Site Reliability Engineering)とは何か」を関連本を紹介しながら、こう述べた。 「SREはDe
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く