並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 16 件 / 16件

新着順 人気順

"Operation Management"の検索結果1 - 16 件 / 16件

  • 「Infrastructure as Codeに疲れたので、僕たちが本来やりたかったことを整理する」を1年掛けて整理した

    こんにちわ。rwle1212です。 本記事は JAWS Days 2020 で話す予定でしたが、昨今の事情によりオンライン開催となったため、登壇予定の内容を記事にしたものになります。 登壇していれば諸般の事情により左手首を骨折したネタが使えたのですが、ブログでは伝わらないので非常に残念な思いをしております。という話はどうでも良いので本題に入ります。 50分の登壇内容なので少々長くなりますが、お付き合いください。 JAWS Days 2019で登壇した内容の振り返り昨年の JAWS Days 2019 で「Infrastructure as Codeに疲れたので、僕たちが本来やりたかったことを整理する」という内容で登壇しました。 まずは上のリンクに添付されているスライドを5分位で読めると思うので一読頂いて、下の文に進んで頂ければと思います。 そもそもInfrastructure as Cod

    • ヤフー全社横断「Webパフォーマンス改善」の取り組み (Core Web Vitalsスコアの向上)

      ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、第11代黒帯(ヤフー内のスキル任命制度/Webフロントエンド領域)の浜田(@narirow)です。今回はヤフー全社で実施してきた、「Webパフォーマンス改善プロジェクト」についてお話ししたいと思います。 長期に渡る活動の結果、多くのサービスのWebパフォーマンスが徐々に向上しています。この記事では、取り組みの経緯や、多くのサービス分析を通してわかったコスパの良い施策(比較的簡単に実施できてスコアも上がりやすい施策)などをご紹介します。 全社横断でWebパフォーマンス改善を実施する経緯 さかのぼること2021年、Googleから以下のような案内がありました。 「Core Web VitalsがGoogle検索の検索順位に

        ヤフー全社横断「Webパフォーマンス改善」の取り組み (Core Web Vitalsスコアの向上)
      • 複雑なシステムでは、すべての要素が正しくても障害が起きる。カオスエンジニアリングから継続的検証へ(前編)。JaSST'23 Tokyo基調講演

        複雑なシステムでは、すべての要素が正しくても障害が起きる。カオスエンジニアリングから継続的検証へ(前編)。JaSST'23 Tokyo基調講演 Netflixが始めた「カオスエンジニアリング」は、現在では大規模なシステムにおける可用性向上の手法のひとつとして確立し、広く知られるようになりました。 そのカオスエンジニアリングという手法を定義したのが、元Netflixカオスエンジニアリングチームのエンジニアリングマネージャーを務めていたCasey Rosenthal(ケイシー ローゼンタール)氏です。 そのローゼンタール氏が、ソフトウェアのテストに関わる国内最大のイベント「ソフトウェアテストシンポジウム 2023 東京」(JaSST'23 Tokyo)の基調講演に登壇し、「Chaos Engineering to Continuous Verification」(カオスエンジニアリングから継続

          複雑なシステムでは、すべての要素が正しくても障害が起きる。カオスエンジニアリングから継続的検証へ(前編)。JaSST'23 Tokyo基調講演
        • 『サーバーを止めてくれ』本当にいいの?と念押ししまくった末に止めたらやっぱりダメだった「面倒な手続きも先人の知恵」

          心がポッキー(6億円) @lawliteqed 「サーバー止めてください」 「本当にいいの?アクセスあるけど」 「止めてください」 「関係部署と打ち合わせしました?」 「私が責任者です、止めてください」 「止めました」 「サービス停止してクレーム来たじゃ無いですか!!!」 「はあああああああああああああああ?」←イマココ 2021-09-28 13:38:18

            『サーバーを止めてくれ』本当にいいの?と念押ししまくった末に止めたらやっぱりダメだった「面倒な手続きも先人の知恵」
          • 毎日生まれ変わるセキュアな踏み台サーバ - Hatena Developer Blog

            こんにちは。 はてなインターン2019 システム基盤開発コースでやったことをお話していきます。 今年のシステム基盤開発コースでは、コードネームphoenixと題して、「毎日生まれ変わるセキュアな踏み台サーバ」の作成に取り組みました。 なぜつくったのか 踏み台サーバ なぜ毎日生まれ変わるのか なぜコンテナを使ったのか 踏み台サーバを更新する仕組み SSMセッションを用いたログイン CloudFormationによる自動デプロイ(未完) Terraformによる自動デプロイ 感想など なぜつくったのか まずはじめに、なぜこのような踏み台サーバの構築を行うことになったのかについて説明します。 多くの現場でもそうであると想像されるように、現状のはてなでは様々な社内サービスや、稼働中のサーバー・データベースにアクセスするために踏み台サーバを経由する必要があります。はてなには種々のサービスが存在してい

              毎日生まれ変わるセキュアな踏み台サーバ - Hatena Developer Blog
            • GitLab.comはどうやって6TBのPostgreSQLを9.6から11にたった2時間で移行したのか? | DevelopersIO

              GitレポジトリのホスティングサービスGitLab.comは2020年の5月に 6TB あるPostgreSQL 9.6クラスターをたった2時間のメンテウィンドウ中に11.7へアップグレードしました。 GitLab.comのエンジニアブログに、このPostgreSQLのメジャーアップグレードプロジェクトが解説されていたので、かんたんにご紹介します。 How we upgraded PostgreSQL at GitLab.com | GitLab ポイント PostgreSQL 9.6から 11.7 へのメジャーアップグレード 2時間のメンテナンスウィンドウ内でアップグレード完了 データサイズは6TB DBクラスターは GCP 上の 12台の VM インスタンスで構成 クラスターはアップグレード用の8台とリカバリー用の4台に分割 pg_upgrade & ハードリンクでインプレースアップグ

                GitLab.comはどうやって6TBのPostgreSQLを9.6から11にたった2時間で移行したのか? | DevelopersIO
              • 運用設計における設計項目の体系化 / 20240207-ssmjp-operation-design-items

                ssmjp ssmonline #38 "第四回はたのさん祭 オンライン"( https://ssmjp.connpass.com/event/307397/ )での発表資料です。 (運用設計ラボ合同会社 波田野裕一)

                  運用設計における設計項目の体系化 / 20240207-ssmjp-operation-design-items
                • Googleでもやっている障害対応訓練の「Wheel of Misfortune」をやってみた。 - MonotaRO Tech Blog

                  序文 こんにちは。MonotaROの伊藤です。 弊社では障害対応訓練の実施手法の一つであるWheel of Misfortune(略称:WoM)を実践しています。WoMの導入で、障害対応体制の強化を行うことができましたので、実施までの経緯や得られた学びなどを中心に紹介したいと思います 序文 運用担当者の負荷が高まり続ける問題 運用担当者=社歴が長いベテランエンジニア 運用のスケールアウト 障害対応訓練をやってみよう 訓練環境の準備の問題 訓練シナリオの問題 外部からの助け Wheel of Misfortuneとは 実施時の様子 シナリオ開始時の様子 モニタリング画面の表示 WoMとDiRT(Disaster in Recovery Training) 障害対応訓練をやってみた結果 準備時点で感じたメリット 手順書の不備を発見できたこと 障害が起こりかねない場所を考えるきっかけになったこと

                    Googleでもやっている障害対応訓練の「Wheel of Misfortune」をやってみた。 - MonotaRO Tech Blog
                  • SREこのへんで苦戦しがちじゃないですか?

                    登壇資料 SRE立ち上げてどうなった?最新のコア技術とSRE事情 Lunch LT https://findy.connpass.com/event/305677/ ハッシュタグ :#SRE_findy

                      SREこのへんで苦戦しがちじゃないですか?
                    • 運用技術者組織の設計と運用 / Design and operation of operational engineer organization

                      第12回 インターネットと運用技術シンポジウム(IOTS 2019)~運用管理する人”も”報われるシステムの構築を考える~ にて招待講演を行った際の資料です。 概要: https://www.iot.ipsj.or.jp/symposium/iots2019/ プログラム: https://www.iot.ipsj.or.jp/symposium/iots2019-program/

                        運用技術者組織の設計と運用 / Design and operation of operational engineer organization
                      • AWS Lambdaを拡張して好きな運用ツールと統合できる「AWS Lambda Extensions」が正式リリース

                        Amazon Web Services(AWS)は、サーバレスコンピューティング基盤を提供する「AWS Lambda」を拡張し、好きな運用ツールとの統合を可能にする新機能「AWS Lambda Extensions」の正式リリースを発表しました。 AWS Lambda Extensionsは拡張用APIを提供 AWS Lambdaは、あらかじめユーザーが記述した関数を登録しておくと、ファイルの保存やHTTPの通信などのイベントに対応した関数を実行してくれるというもの。 ただし関数が実行されるときだけプロセスが起動されるので、監視用のプロセスを常駐させておいて関数が正常に実行されたかどうかを監視する、といったことが容易に実装できませんでした。 AWS Lambda Extentionsを利用することで、関数の起動前や起動中、起動後の診断情報の取得や、実行された関数のコードの計測、関数が実行さ

                          AWS Lambdaを拡張して好きな運用ツールと統合できる「AWS Lambda Extensions」が正式リリース
                        • みずほ銀行システム障害の原因に疑問、気になる「前日の運用」

                          みずほ銀行で2021年2月28日に起きたシステム障害は、同行が保有する7割超のATMに不具合が出るなど、顧客に大きな影響を与えた。直接の原因は、同日に行った定期預金に関するデータ更新作業でシステムのキャパシティーを超えた負荷がかかり、処理に失敗したことだ。 「見積もりをした上でテストしたが、これが不十分。運用面で見積もりの甘さがあった」。3月1日に開いた記者会見で、みずほ銀行の藤原弘治頭取は、システム負荷が想定を超えた理由に言及した。 会見で質疑応答が進み、障害が発生した経緯、処理内容、データ量などが明らかになるにつれ、ある疑問が湧いてきた。もしかしたら障害を回避できる可能性があったのではないか。気になるのが「前日の運用」だ。 想定以上のデータ量でメモリー不足に まず2月28日の日曜日に何が起きたのかを会見内容を基に追っていこう。定期預金に関するデータ更新作業は2種類あった。1つは定期預金

                            みずほ銀行システム障害の原因に疑問、気になる「前日の運用」
                          • Ansible playbookを書くのが面倒くさいあなたへ

                            playbookをゼロから書きはじめるのが面倒くさいひとむけに、既存のplaybookを探したりするためのヒント集。 ( ベストプラクティスを伝えるのではなく背中を押すのが目的なので「本来やるべきあれこれ(テスト, CI, 標準化, レビュー, etc.)」については何も書いていません )

                              Ansible playbookを書くのが面倒くさいあなたへ
                            • AWS Backupに新機能。EC2インスタンスをEBSごとバックアップ/リストア可能に。クロスリージョンにも対応

                              AWS Backupに新機能。EC2インスタンスをEBSごとバックアップ/リストア可能に。クロスリージョンにも対応 AWSは、バックアップの運用を一元化し、集中管理できるマネージドサービス「AWS Backup」の新機能を発表しました。 新機能の1つ目は、EC2インスタンスそのものを丸ごとバックアップ/リストア機能。2つ目はバックアップした内容を別のリージョンへコピーする機能。3つ目はAmazon EFS(Elastic File System)のバックアップファイルの中から、任意の1ファイルを取り出してリストアする機能です。 マシンイメージと属性、EBSを丸ごとバックアップ 新機能の中で注目すべきはEC2インスタンスを丸ごとバックアップ/リストアできる機能でしょう。 この機能はEC2インスタンスに使われているマシンイメージだけでなく、設定されているマシンタイプ、VPC、IAMロールなどほ

                                AWS Backupに新機能。EC2インスタンスをEBSごとバックアップ/リストア可能に。クロスリージョンにも対応
                              • プロジェクトリスク検知のヒント | DevelopersIO

                                「プロジェクトのリスクを洗い出しきれていますか?」 この問いに自信を持って「Yes」と即答できる方は以降を確認いただく必要はありません。 「No」もしくは「Yes」と答えるのにちょっと躊躇した方はざっと目を通していただけると、何らかの気づきがあるかもしれません。 ここからは、独立行政法人情報処理推進機構(IPA)が公開している資料を紹介していきたいと思います。 紹介資料 資料名:ITプロジェクトのリスク予防への実践的アプローチ 利用対象者:情報システムの企画、情報システムのプロジェクトマネージャー、PMO、設計者等 特徴:ITプロジェクト目標達成を阻害する事柄をリスクととらえ、リスクとそのリスク発現の要因を中心にすえ、リスクの発現を防ぐために”リスク発現の要因”に対してどのような予防策を打つかその予防策の効果をどのようにとらえるかと”リスク発現の要因”に対してその兆しをどう把握するかの関係

                                  プロジェクトリスク検知のヒント | DevelopersIO
                                • Alibaba Cloud 運用監視入門トレーニング 2.0 実施手順|Engineers' Blog|SBクラウド株式会社 - SBクラウド株式会社

                                  このページは移転しました。3秒後にジャンプします。 ジャンプしない場合は、以下のURLをクリックしてください。 Alibaba Cloudトレーニング はじめに 本コースについて 目標 受講にあたり準備するもの 受講方法 受講テキスト一式 アンケート 動画テキスト DingTalkグループへの参加方法 本講座の開講履歴 はじめに オフラインでトレーニングが開催できない状況が続いていますので、新たにトレーニング開催方法を模索しています。実験的にテキスト一式と動画テキストを公開することにしました。 オンデマンドで各自で自習される方は、好きな時間に実施出来るメリットが生まれますが、不明点などは自力で解決する必要があります。(ベストエフォートでの回答窓口は用意します) 定期的に開催されるトレーニングコースでは、講師が適時に回答しますので、スムーズにトレーニングを受講していただく事が可能です。 受講

                                    Alibaba Cloud 運用監視入門トレーニング 2.0 実施手順|Engineers' Blog|SBクラウド株式会社 - SBクラウド株式会社
                                  1