タグ

運用に関するdogusareのブックマーク (9)

  • 複雑なシステムでは、すべての要素が正しくても障害が起きる。カオスエンジニアリングから継続的検証へ(前編)。JaSST'23 Tokyo基調講演

    複雑なシステムでは、すべての要素が正しくても障害が起きる。カオスエンジニアリングから継続的検証へ(前編)。JaSST'23 Tokyo基調講演 Netflixが始めた「カオスエンジニアリング」は、現在では大規模なシステムにおける可用性向上の手法のひとつとして確立し、広く知られるようになりました。 そのカオスエンジニアリングという手法を定義したのが、元Netflixカオスエンジニアリングチームのエンジニアリングマネージャーを務めていたCasey Rosenthal(ケイシー ローゼンタール)氏です。 そのローゼンタール氏が、ソフトウェアのテストに関わる国内最大のイベント「ソフトウェアテストシンポジウム 2023 東京」(JaSST'23 Tokyo)の基調講演に登壇し、「Chaos Engineering to Continuous Verification」(カオスエンジニアリングから継続

    複雑なシステムでは、すべての要素が正しくても障害が起きる。カオスエンジニアリングから継続的検証へ(前編)。JaSST'23 Tokyo基調講演
  • サーバダウンしたニコニコ漫画に何が起きていたのか - BOOK☆WALKER inside

    こんにちは。メディアサービス開発部Webアプリケーション開発課の奥川です。ニコニコ漫画のバックエンド開発を担当しています。 2021年初頭、ニコニコ漫画である作品の連載が開始されました。それに端を発する数カ月間のサーバ障害により、ユーザーの皆様には大変ご迷惑をおかけしました。 少し前の話にはなりますが、当時ニコニコ漫画のサーバでは何が起こっていたのか、どのような対応を行ったのかを振り返ってみたいと思います。 1号棟(事の起こり) 2021/01/08 問題の作品(以後、「作品I」*1と記述します)の第1話が投稿されます。その過激な内容からSNSなどでは一部で話題になりましたが、まだニコニコ漫画へのアクセスも穏やかなものでした。 2021/01/22 その2週間後、「第2話(前編)」の公開から事件が起こります。 ピークタイム最中の12:22頃から、まずmemcachedがCPU Utiliz

    サーバダウンしたニコニコ漫画に何が起きていたのか - BOOK☆WALKER inside
    dogusare
    dogusare 2022/10/29
    あ、の…本編の格闘記はもちろん感心した。のだが、その、エロ漫画を昼休み?に閲覧する文化ってのが有ることに驚いている。みんなそれで午後どんな心持ちで過ごしているのだろうか…。(w
  • 66分かかる同期処理を10分以内に短縮せよ!~商品情報同期システムでの、処理速度と運用の改善~ - MonotaRO Tech Blog

    はじめに この記事では、モノタロウの基幹系を構成するシステムの一つである、商品情報管理システム(PIM:Product Information Management システム)の導入プロジェクトで、商品情報を基幹系と同期するシステム(商品情報同期機能)の性能や運用環境の改善を行った話をご紹介します。 背景 モノタロウの基幹系は、長年内製のシステムで支えられてきました。基幹系のシステムは、少数のWebアプリケーションと多数のバッチから構成されています。中でも商品情報の管理に関するシステムは、在庫や仕入先に関するシステムと一体化していて、商品情報に関する数多くのマスタメンテナンス画面を備えたやや複雑なシステムです(図1)。 図1 基幹系の概略図 当社のシステムは、もともと自分たちのビジネスに必要な機能を提供する手頃なパッケージ製品がなかったため、すべてを内製でまかなってきたという経緯があります

    66分かかる同期処理を10分以内に短縮せよ!~商品情報同期システムでの、処理速度と運用の改善~ - MonotaRO Tech Blog
    dogusare
    dogusare 2022/08/24
    こういう恒久的ではない移行についても工夫・知恵を絞って効果を出すってなかなか評価の仕方が難しいだろうけど、当人的に、体感できたらめっちゃ気持ちぃいだとなぁと羨ましく思う。
  • AWSからオンプレミスに移行したWebRTC配信サーバのその後 - DMM inside

    |DMM inside

    AWSからオンプレミスに移行したWebRTC配信サーバのその後 - DMM inside
    dogusare
    dogusare 2021/12/21
    つよいなぁ。そして、書き味がドライなのにユーモアが隠れてたりもする。どっちかじゃなくて最適化を止めないスタンス、頼もしい
  • 医療機関データのオンプレ → クラウド移行にかけた1年と、6倍の効率化について - JMDC TECH BLOG

    株式会社JMDC開発部データ基盤開発部の中村と申します。 私が所属する医療機関基盤グループでは、昨年から今年にかけて基幹システムをオンプレからクラウド(AWS)へ刷新しました。 この移行プロジェクトは、JMDC史上トップを争うくらい難易度の高いプロジェクトだったと個人的に感じています。マネージャーの立場から今回のシステム刷新のきっかけや、プロジェクトのハードな道のり、そしてクラウド化で得られた成果などを振り返っていきます。 プロフィール 中村竜甫(https://twitter.com/rh1011_) 株式会社JMDC 開発部 データ基盤開発部 医療機関データ基盤グループ マネージャー SIerにて広告配信システムの企画・開発・運用を経験。その後2015年9月から現職。 基幹システムの刷新リーダーを担当後、Webプロダクト開発のマネージメントを経験。現在は医療機関基盤Gマネージャとし

    医療機関データのオンプレ → クラウド移行にかけた1年と、6倍の効率化について - JMDC TECH BLOG
  • 【保存版】東京リージョンの AWS 障害発生時にクラスメソッドのテクニカルサポートチームがやっていること | DevelopersIO

    どのような事前準備をしているか 有事の際は想定外のことが発生しやすく、事前準備をしていないと冷静な対応が難しくなります。 いきなりしっかりした事前準備をすることは難しいので、徐々に成熟度を上げていきます。 章では以下の観点で、事前準備についてご紹介します。 手順書 自動化 訓練 手順書 フローやチェックリストを含む手順書を準備しています。 手順書の内容は後述します。 分かりやすい手順書を準備することも重要ですが、その手順書への導線づくりも大切にしています。 運用周りのドキュメントは数が多く、目的のドキュメントが埋もれてしまい他のメンバーが見つけられない場合があるからです。 周知に加えて、ドキュメントの階層を見直したり、特定チャンネルに手順書の URL をピン留めしておくなど、手順書に辿り着きやすくする工夫をしています。 分かりやすい手順書の書き方については、以下のブログが参考になります。

    【保存版】東京リージョンの AWS 障害発生時にクラスメソッドのテクニカルサポートチームがやっていること | DevelopersIO
  • 【資料公開】カイゼンの基本

    みなさんこんにちは。@ryuzeeです。 2016年9月16日に行われたDevelopers Summit 関西で表題のテーマで登壇してきましたので資料を公開します。 カイゼンについては1日のトレーニングコース(バリューストリームマップ作成含む)を[@haradakiro](https://twitter.com/haradakiro)と提供していますのでご興味のある方は[ご連絡](https://www.ryuzee.com/contact.php)ください。 アジャイルコーチングやトレーニングを提供しています株式会社アトラクタでは、アジャイル開発に取り組むチーム向けのコーチングや、認定スクラムマスター研修などの各種トレーニングを提供しています。ぜひお気軽にご相談ください。 詳細はこちら

    【資料公開】カイゼンの基本
  • 310億円の事故と「会議室の大きさ」の関係

    2016年3月26日に、異常回転から分解事故を起こした宇宙航空研究開発機構(JAXA)・宇宙科学研究所(ISAS)のX線天文衛星「ひとみ」の事故調査は、6月14日に、文部科学省・宇宙開発利用部会に「X線天文衛星ASTRO-H『ひとみ』 異常事象調査報告書 」(リンク先はpdfファイル) を提出し終了した。現在は同報告書に基づき、JAXA内の体制改革を議論している段階にある。詳細は、来年度の予算要求が出そろう8月半ばまでには公開されることになるだろう。 開発・打ち上げ費310億円が失われた今回の事故。調査報告では、ひとみの事故原因を「プロジェクトの計画管理体制の不備」とみており、現在JAXA内の議論は計画管理体制の強化の方向で進んでいる。具体的には、きれいに整理された計画管理体制を持つ筑波宇宙センターの管理方式を、相模原のISASに導入するというやりかただ。 が、ひとみの事故の底に潜む問題は

    310億円の事故と「会議室の大きさ」の関係
    dogusare
    dogusare 2016/08/09
    お金と組織と思惑の規模と納期のバランス,「これじゃイカン」と思った時に駆け込める器がどっかにないものかと。責任で突っ張ってもねぇ。そして議事録を専任で書く人が疲弊すると(何ループ
  • システム障害と僕達はいかにして戦えば良いのか、障害対応について考えた - Qiita

    IT界隈でエンジニアしていると、よく出くわすのが障害対応です。できれば会いたくないという人が多いと思うんですが、僕はけっこう好きです。障害対応。どこに原因があるのか調査をして、バランス良くベターな対応をしたときの楽しさは、プログラミングとはまた違ったものがあります。探偵っぽい感じが面白いですよね。もちろん、障害が発生しない状況を作るのが一番です 弊社では数多くのWebサービス/アプリを運営しているので、過去様々な障害対応をしてきました。その際に、解決までどんな道筋を僕がたどるのかを振り返ってまとめてみました。これが大正解なんてことはなく、人や事象によって違うとは思いますが。 なお、障害検知手法とか、サーバのコマンドとか、コードのデバッグ手法とか、具体的なことは一切出てきません。手続きと思考プロセス的な話です。 障害対応フローチャート 一般的な感じだと思いますが、障害報告から対応完了までのフ

    システム障害と僕達はいかにして戦えば良いのか、障害対応について考えた - Qiita
    dogusare
    dogusare 2015/12/17
    技術や環境に明るくないお客様が現場から「動かない」とだけ打ち上げを喰らい激高して連絡してくるところから始まり、情報共有できるメンバもおらず、「なんとかしろ」としか言わない営業。解析も分析よりも前に応急
  • 1