タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

operationに関するYaSuYuKiのブックマーク (5)

  • 「フルスタック地獄で完全な自動化は難しい」 国立情報学研究所はクラウド運用効率化をどう進めている?

    複雑化するIT環境において、運用管理の効率化を実現する手段の一つとして「インフラ運用のコード化」(Infrastructure as Code:IaC)が重要視される中、自動化に対する期待が高まっている。一方で、実際の運用現場は複雑だ。事業部門からの要望対応、突如発生した障害の解消作業など非定型業務が多々ある中で、自動化はもとよりIaCを実現させることも容易ではない。 2020年7月に開かれた「Cloud Operator Days 2020」では、国の研究機関として効率的な研究環境の構築と運用が求められる国立情報学研究所(以後、NII)でクラウド運用チームに所属するボイスリサーチ 取締役の谷沢智史氏が登壇。クラウド運用にまつわる課題にどう取り組んでいるのか紹介した。 「真のフルスタック地獄」で完全な自動化は難しい NIIでは、オープンソースソフトウェア(OSS)のクラウド運用基盤「Euc

    「フルスタック地獄で完全な自動化は難しい」 国立情報学研究所はクラウド運用効率化をどう進めている?
  • 恵贈御礼「入門 監視」読了 - YAMAGUCHI::weblog

    はじめに こんにちは、Stackdriver担当者です。年明けに「入門 監視」を恵贈頂いたのですが、書評を公開するのが遅くなってしまいました。すでに多くの方が書評を公開していらっしゃいますが、そちらは気にせず自分の書評をメモ代わりに書いておこうと思います。 入門 監視 ―モダンなモニタリングのためのデザインパターン 作者: Mike Julian,松浦隼人出版社/メーカー: オライリージャパン発売日: 2019/01/17メディア: 単行(ソフトカバー)この商品を含むブログを見る TL;DR 書を読んでも即座に監視に関する問題が解決するわけではないが、システム監視について何から始めれば良いかわからない人はまず手にとるべきであると思う。 書とSRE bookを読むことで同じ内容を異なる角度から捉える事ができ、非常に有益。 SRE サイトリライアビリティエンジニアリング ―Google

    恵贈御礼「入門 監視」読了 - YAMAGUCHI::weblog
  • Chaos Engineering やっていく宣言 - クックパッド開発者ブログ

    技術部のヨシオリです。 Netflix が Chaos Engineering の論文を公開して 2 年ほど経ちました。 クックパッドは最近、 Chaos Engineering を導入する事を決めました。 この記事ではその背景を紹介したいと思います。 そもそも Chaos Engineering とは Netflix では Failure Injection Testing として、営業時間中に意図的に障害を起す事をやっていました。Chaos Monkey というインスタンスとサービスを落すものから Chaos Gorilla、Kong という availability zone や region 単位で障害を発生させるものなどです。 その経験から Chaos Engineering というものが提唱されました。 Principles of Chaos Engineeringによれば C

    Chaos Engineering やっていく宣言 - クックパッド開発者ブログ
  • Chaos Engineering

    Read it now on the O’Reilly learning platform with a 10-day free trial. O’Reilly members get unlimited access to books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers. With so many interacting components, the number of things that can go wrong in a distributed system is enormous. You’ll never be able to prevent all possible failure modes, but you can

    Chaos Engineering
  • 「サル軍団」にシステム障害を起こさせる、Netflixの驚異的なトラブル撲滅法

    Netflixは、わざと番障害を起こしてすぐ復旧させることを繰り返し、当の障害発生に備える、という驚くべき手法「カオスエンジニアリング」を実践している。 その効果は実証されている。Netflixが全面的に採用しているAmazon Web Services(AWS)で、2017年2月に中核施設の一つ、米バージニア北部リージョン(広域データセンター群)にて大規模障害が起きたとき、別のリージョンに速やかに切り替えたという。 Netflixの先進的な取り組みを紹介するこの特集の最後に、カオスエンジニアリングを取り上げる。

    「サル軍団」にシステム障害を起こさせる、Netflixの驚異的なトラブル撲滅法
    YaSuYuKi
    YaSuYuKi 2018/01/17
    日々の運用にDR用システムを使用するのもよい。緊急時用の縮退システムをそのままデプロイに使用するなど。とはいえ、これでカバーできないタイプの異常事態まできちんとカバーしているのはすごいことだ
  • 1