[B! システム障害] y2_naranjaのブックマーク

GitLab.comが操作ミスで本番データベース喪失。5つあったはずのバックアップ手段は役立たず、頼みの綱は6時間前に偶然取ったスナップショット－ Publickey

果たしてGitLab.comで何が起きたのでしょうか？これまでの経緯をまとめました。スパムによるトラフィックのスパイクからレプリケーションの不調へ GitLab.comは今回のインシデントについての詳細な経過を「GitLab.com Database Incident - 2017/01/31」で公開しています。また、もう少し整理された情報がブログ「GitLab.com Database Incident | GitLab」にも掲載されています。これらのドキュメントを軸に、主なできごとを時系列に見ていきましょう。 1月31日16時（世界協定時。日本時間2月1日午前8時）、YP氏（Yorick Peterse氏と思われる）はPostgreSQLのレプリケーションを設定するためにストレージの論理スナップショットを作成。これがあとで失われたデータを救う幸運につながります。 1月31日21時

y2_naranja 2017/02/02

リンク

マニュアル無視、不十分なバックアップ――ファーストサーバが最終報告書－＠IT

2012/08/02 ファーストサーバは7月31日、6月20日から21日にかけて発生した障害に関する調査報告書（最終報告書）を公開した。20日夕方に発生した大規模なデータ消失事故と、その復旧作業の過程で生じた情報漏えい事故それぞれについて、外部専門家からなる第三者調査委員会がまとめた。報告書によると、顧客に大きな影響を与えたデータ消失事故の背景には、不具合を起こした担当者が社内マニュアルを無視し、独自方式でメンテナンスを行っていた事実があった。ほかの担当者は社内マニュアルに沿ってシステム変更を行っていたが、この担当者は約10年前から独自方式でメンテナンスを行っており、そのためのツールも自作。上長もこのことを認識しながら黙認していたという。この担当者は6月20日午後5時頃、メールシステムの障害対策のため、既存の自作プログラムに改変を加えて更新プログラムを作成した。しかしこの際、既存のプロ

y2_naranja 2012/08/04

私、こういう人知ってる（汗）本人じゃないかと思う位似てる。マニュアルの無視、独自ツール作成→客先のマシン１台死亡、データを吹っ飛ばす。OracleのArchiveNo.が出ても「あーそれ無視していいよ」

リンク

47NEWS（よんななニュース）

若者よ、船乗りにならないか　陸上勤務より高賃金、1カ月の長期休暇も魅力　国内貨物輸送の4割担う海運業界がPRに躍起となる深刻な事情

y2_naranja 2012/06/30

なんと申し上げたものか…。新人にやらせたのかなという考えしか浮かばない

リンク

mixi大規模障害について解明編 - mixi engineer blog

こんにちは、システム本部技術部たんぽぽGの森本です。先日のmixi大規模障害の原因となったmemcachedの不具合の詳細な解明ができました。再来週まで発表を見合わせようと思ったのですが、早くお伝えしたほうがいいと思いましたので公開発表致します。 memcachedとlibevent memcachedはlibeventというライブラリを使用してクライアントからの要求(接続、コマンド送信)を処理しています。 libeventを使用するにはevent_baseという構造体を用います。 main threadはmain_baseを使用します。 static struct event_base *main_base; ... int main (int argc, char **argv) { ... main_base = event_init(); ... /* enter the ev

y2_naranja 2010/08/23

たとえば自分が大規模システムの社員で、障害が発生したとき、ここまでwebに載せるだろうかと思った。mixiすごい。

リンク

楽天の研究者の方の発表聞いてきたときのメモ(大規模データ処理基盤 ROMA) - それなりにマジメなメモ

自分なりのメモなのでかなり適当です。楽天技術研究所でやっていること開発してるもの ROMAとは？大規模グリットRubyによるKey-Value Store RDBではトラフィックに耐えられない。 memocashなどを使うこともできるがデータの保障して使うことができるのか不安使うのは主にエンドユーザー ROMAが落ちると1分間で何億もの損失突発てきなトラフィックの増大にも強くする必要になる。クリスマスなどのある程度いつおきるのか予想できるトラフィック増大に備えてやる今はできていないがすべてのサービスが同時にトラフィックが増大するわけではないのでサービスを動かすマシンの台数を変えられたらいいなぁ Fairy 文字抽出の研究楽天で出てる店舗の方々はよく画像に文字を入れる人が多い。薬事法などで使ってはいけない文字を入れてる人もいるので注意できるように画像の中の文字も検索がヒッ

y2_naranja 2010/08/21

mixiみたいに,kvsによる大規模障害はありうるとしたらどんなパターンだろう

リンク

mixi大規模障害について - mixi engineer blog

こんにちは。システム本部技術部たんぽぽGの森本です先日のmixi大規模障害についてのブログです。はじめにお断りしておきますが、弊社CTOがtwitterで公開した以上の情報はまだ得られておりません。 twitterでは書ききれなかった細部を補足してみたいと思います現状判明しているのは以下の点です memcachedに大量の接続・切断を行うとmemcachedプロセスが突然終了することがある memcachedには異常時に終了するフローもあるが、同時に出力されるはずのエラーログは出ていなかった coreも出力されていなかったテスト環境にて追試を行ったところ、なんどか再現させることができましたが、確実に発生する条件は未だ不明です。障害時の memcachedのバージョンは1.4.4, libeventのバージョンは1.3bです memcached の起動オプションは以下のとおり ./

y2_naranja 2010/08/20

リンク

mixi大規模障害についてその2 - mixi engineer blog

こんにちは。システム本部技術部たんぽぽGの森本です補足を追記しました (2010/08/20 15時) 先日のmixi大規模障害についての続報です今回は小ネタはありませんはじめにまず初めにtwitter/blogなどを通じて今回の問題の解析を行っていただいたみなさんに感謝の言葉を捧げたいと思います kzk_moverさん stanakaさん mala(bulkneets)さん llameradaさん (順不同) ありがとうございました書き漏らした人ごめんなさい memcachedはすごい今回の件でmemcachedに対して不安感を持たれた方もおられるとお聞きしました説明不足だったせいで誤解を与えてしまい申し訳ありませんきちんと設定および監視を行っていれば通常の使用にはまったく問題はありません弊社にて -c 30万で起動したmemcachedに対して、先のテストスクリプトに

y2_naranja 2010/08/20

リンク

はてなブックマーク

タグ

関連タグで絞り込む (13)

システム障害に関するy2_naranjaのブックマーク (7)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス