並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 2274件

新着順 人気順

システム障害の検索結果1 - 40 件 / 2274件

  • 重大事故の時にどうするか?|miyasaka

    ヤフー時代の部下から突然メッセンジャーが。 「以前宮坂さんが緊急対応時に残して頂いた言葉を今度セミナーで使っていいですか?」 と。 リーダーの仕事はいっぱいあるけどなかでも大きな仕事の一つは重大事故の発生の時の陣頭指揮。平時は部下で回せるようにするのがマネジメントだけど、危機の時まで部下にまかせるわけにはいかない。 お恥ずかしながらヤフー在職中の22年で何度か重大事故を起こし関係者の人に多大な迷惑をかけてしまった。その度にその陣頭指揮をとった。 結果的にヤフーのなかでもっとも深刻な事故対策をやった人の一人じゃなかろうか。そのなかからノウハウ的なものがたまってきたものを部下にメモしておくってあげたものを彼は覚えていてくれたらしい。 彼いわく危機対応の時にすっごく役にたって指針になったといってくれて送ってくれた。 ひょっとしたら他の人にも参考になるかとおもって(若干訂正してますが)ここに残して

      重大事故の時にどうするか?|miyasaka
    • 原因調査用Linuxコマンド | 外道父の匠

      サーバの動作に異常が発生した際に原因を探るためのLinuxコマンドで、自分用のメモです。 全てmanとかググったら出てくるので説明は適当です。思いついたら後で追記していくかもです。 対象はDebian Squeezeになります。 全てパッケージインストールできるもので、パッケージ名は [in packagename] としてあります。 各所よりコメントありがとうございます。 良さ気なコマンドは追記していきます。 <追加したコマンド> * telnet (+コメント wget, netcat) * arp (+コメント arpwatch) * pstree * fdisk コメントに gdisk * host, dig * watch * reboot

        原因調査用Linuxコマンド | 外道父の匠
      • サマータイム実施は不可能である

        UEHARA, TetsutaroProfessor at Colledge of Information Science and Engineering, Ritsumeikan University

          サマータイム実施は不可能である
        • 中田の質問箱です

          みずほ関係者の方でしょうか。連日のように繰り返されるシステム障害とその批判を目の当たりにして疲弊しているのだろうとお察しします。ただ、仰っている内容はどれも妥当性に乏しいので、公言されるとますます批判の声が強まってしまうことが危惧されます。ご自身の反論が有効かどうかを検証する有力な方法は「他の2メガバンクではこのロジックは通用するか?」という考え方です。以下、すべてこのアプローチでご説明します。 まず「銀行リテールの利益は250億円しかなく赤字のこともあるのだから莫大な設備投資をすることは株主にとって妥当ではない」というのは論理が全く逆で、莫大な設備投資をしたのですからもっと稼がなければならないのに稼げていないことが問題なのです。MUFGやSMFGをご覧頂ければ銀行リテールだけでも1,000億円単位で儲けていることがわかるでしょう。しかもシステム統合に要した費用はMUFGで3,300億円、

            中田の質問箱です
          • CDN切り替え作業における、Web版メルカリの個人情報流出の原因につきまして - Mercari Engineering Blog

            本日コーポレートサイトでお知らせした通り、Web版のメルカリにおいて一部のお客さまの個人情報が他者から閲覧できる状態になっていたことが判明しました。原因はすでに判明して修正が完了しております。また、個人情報を閲覧された可能性のあるお客さまには、メルカリ事務局より、メルカリ内の個別メッセージにてご連絡させていただきました。 お客さまの大切な個人情報をお預かりしているにも関わらず、このような事態に至り、深くお詫びを申し上げます。 本エントリでは技術的観点から詳細をお伝えさせていただきます。 2017年6月27日 CDNのキャッシュの動作について、CDNプロバイダと仕様について確認し検証を行いました。その結果一部記述に実際と異なる箇所があり、加筆修正いたしました。 概要 メルカリWeb版のコンテンツキャッシュをしているCDNのプロバイダ切り替えを行いました。 その際本来キャッシュされるべきでない

              CDN切り替え作業における、Web版メルカリの個人情報流出の原因につきまして - Mercari Engineering Blog
            • 本当は恐ろしい分散システムの話

              分散システムのFault Injectionの話 NTTデータテクノロジーカンファレンス2017で発表する際に用いたプレゼン資料 https://oss.nttdata.com/hadoop/event/201710/index.html Read less

                本当は恐ろしい分散システムの話
              • 失敗を学びに変える「障害報告書」の書き方 ─ RettyのCTOがGoogleで学んだ「問題を隠さない文化」 - エンジニアHub|Webエンジニアのキャリアを考える!

                失敗を学びに変える「障害報告書」の書き方 ─ RettyのCTOがGoogleで学んだ「問題を隠さない文化」 人間は失敗するものです。エンジニアもまたしかり。Retty株式会社の樽石CTOが考える、失敗を学びに変える考え方とノウハウを紹介します。 はじめまして。Retty株式会社でCTOを務める樽石将人( @taru0216)です。Rettyにおける技術の責任者として不確実性の高いシステム開発を成功に導くよう牽引したり、メンバーが働きやすくなるような仕組みづくりを行ったりしています。 子供の頃からパソコンに親しみ、新卒一期生でレッドハットに就職して、Rettyに入社するまでGoogleや楽天を経てきました。エンジニアとして活動して約30年。日々失敗し続けていますし、過去には大規模サービスを止めてしまったこともあります。 人間である以上、バグやエラーは必ず起こるもの。エンジニアは失敗を繰り返

                  失敗を学びに変える「障害報告書」の書き方 ─ RettyのCTOがGoogleで学んだ「問題を隠さない文化」 - エンジニアHub|Webエンジニアのキャリアを考える!
                • GitLab.comが操作ミスで本番データベース喪失。5つあったはずのバックアップ手段は役立たず、頼みの綱は6時間前に偶然取ったスナップショット - Publickey

                  果たしてGitLab.comで何が起きたのでしょうか? これまでの経緯をまとめました。 スパムによるトラフィックのスパイクからレプリケーションの不調へ GitLab.comは今回のインシデントについての詳細な経過を「GitLab.com Database Incident - 2017/01/31」で公開しています。また、もう少し整理された情報がブログ「GitLab.com Database Incident | GitLab」にも掲載されています。 これらのドキュメントを軸に、主なできごとを時系列に見ていきましょう。 1月31日16時(世界協定時。日本時間2月1日午前8時)、YP氏(Yorick Peterse氏と思われる)はPostgreSQLのレプリケーションを設定するためにストレージの論理スナップショットを作成。これがあとで失われたデータを救う幸運につながります。 1月31日21時

                    GitLab.comが操作ミスで本番データベース喪失。5つあったはずのバックアップ手段は役立たず、頼みの綱は6時間前に偶然取ったスナップショット - Publickey
                  • 子供のいる家庭に3Dプリンタを導入したら毎日が充実してきた - ソレドコ

                    こんにちは、石川と申します。普段はデイリーポータルZというサイトで編集をやっております。 拙宅には、「おもちゃが無限に出てくる機械」があります。 機械から出てきたおもちゃの数々です(おもちゃ以外の物もあるけど)。もちろんこれはごく一部です。なんたって無限なので。 ちょっと想像してみてほしいんですけど、例えばあなたの趣味がカメラだったとするじゃないですか。一眼レフのカメラとかレンズとかが無限に出てくる機械があったらどうします? 端的に言って最高じゃないですか。もちろん、そんな機械はないです。でも、あなたに子供がいた場合、子供にそれを体験させてあげることは可能です。なぜなら「おもちゃが無限に出てくる機械」があるから。 で、その「おもちゃが無限に出てくる機械」の本体が、こちらです。 机の上にある青いやつ。3Dプリンタといいます。普通のプリンタは紙に写真や文字を印刷しますが、3Dプリンタは簡単に言

                      子供のいる家庭に3Dプリンタを導入したら毎日が充実してきた - ソレドコ
                    • みずほ銀行次期システム関連のまとめ(2016/11/24 追記あり) - Akio's Log

                      (追記1:2016/7/11 7/7以降のブログ記事などを追加) (追記2:2016/11/24 延期発表の記事を追加) こんばんは。SE兼PM見習いです。 例のみずほ銀行の次期システム開発が話題になってますね。 blog.livedoor.jp blog.livedoor.jp 毎年この時期に、みずほ案件がグダグダだよね、という情報が出てくるのはもう恒例行事となってますが、開発工程終盤を迎えていよいよヤバイ状況が隠しきれなくなっているようです。 趣味が悪いと言われますが、デスマウォッチャーでして、特にこのみずほ銀行案件をウキウキとウォッチングしているのですが、ここでブックマークしている過去の情報を時系列に振り返ってまとめてみたいなと思います。 2002年〜合併時のシステム障害〜 次期システム案件の話に入る前に、みずほ銀行合併時の大規模システム障害に触れておく必要があります。 https:

                        みずほ銀行次期システム関連のまとめ(2016/11/24 追記あり) - Akio's Log
                      • バニラのアイスを買ったときだけ車のエンジンがかからなくなる不思議な現象、その原因は?

                        「目に見えて明らかなことが常に解決策であるとは限らず、どれだけ不思議に見えても事実は事実に過ぎない」ということに気づかされたとして、ウォータールー大学でコンピューターサイエンスを研究するスティーブン・マン教授が不思議なエピソードを紹介しています。 Car allergic to vanilla ice cream http://www.cgl.uwaterloo.ca/smann/IceCream/humor.html ある日、自動車メーカー・ゼネラルモーターズ(GM)のポンティアック開発部に以下のような内容の苦情が寄せられました。 「私がGMに苦情を書いたのはこれで2回目です。私にもおかしな話に思えるので、返事がなくても責めるつもりはありません。私たちの家族はいつも夕食後のデザートにアイスクリームを食べています。毎晩、食事後に家族全員がどの種類のアイスクリームを食べるべきかを投票し、私が

                          バニラのアイスを買ったときだけ車のエンジンがかからなくなる不思議な現象、その原因は?
                        • 「中国人のAさんがお茶を淹れると会社のネットが繋がらなくなる」そんな訳ないと思いながら調べたら…まさかの日常ミステリー

                          れい(猫耳の専門家)🍥 @rei_software 最近あったトラブル 証言1「朝ネットが使えないことがある」 俺(WiFi機器のスリープ復帰障害とかかな? 証言2「有線だけダメ。無線はOK」 俺(有線で朝だけっておかしいな?夜も通信してるし 証言3「Aさん(中国人)が来るとネットが使えない」 俺(人依存かよ…どうせ間違いだろ で、調査したら 2020-11-04 08:43:19 れい(猫耳の専門家)🍥 @rei_software 確かにAさんが出勤してしばらくすると20分ほどネットが使えない端末があるっぽい。 で、出勤してからの行動を見ると ・入室 ・席でカバンを置く ・給湯室でお茶をつくる ・お茶をもって席に ・大抵はメールチェック←このあたりでネットが使えない人が出始める という現象が。 2020-11-04 08:46:26 れい(猫耳の専門家)🍥 @rei_softwar

                            「中国人のAさんがお茶を淹れると会社のネットが繋がらなくなる」そんな訳ないと思いながら調べたら…まさかの日常ミステリー
                          • 【東京五輪】酷暑対策でサマータイム導入へ 秋の臨時国会で議員立法 31、32年限定(1/2ページ)

                            炎天下の中、皇居周辺を走るランナーら。東京五輪では出場選手や観客らの熱中症発症が懸念されるため、夏の時間を2時間繰り上げるサマータイム導入の検討が始まった=5日午後、東京都千代田区(桐原正道撮影) 政府・与党は、平成32(2020)年の東京五輪・パラリンピックの酷暑対策として、夏の時間を2時間繰り上げるサマータイム(夏時間)導入に向け、本格検討に入った。与党はお盆明けにも制度設計に入り、秋の臨時国会への議員立法提出を目指す。平成31、32両年の限定導入となる公算が大きい。複数の政府・与党関係者が明らかにした。 東京五輪では、暑さ対策としてミストシャワーや大型冷風機導入などを進めているが、今夏の記録的な暑さを受け、選手や観客らの熱中症対策には抜本的な運営の見直しが必要だとの声が高まっていた。 五輪組織委員会の森喜朗会長は先月27日、首相官邸を訪れ、安倍晋三首相にサマータイムの導入を要請した。

                              【東京五輪】酷暑対策でサマータイム導入へ 秋の臨時国会で議員立法 31、32年限定(1/2ページ)
                            • 【1月23日追記】12月23日、24日に発生しました障害に関するご報告

                              いつもSkebをご利用いただき、誠にありがとうございます。 12月23日12時よりskeb.jpにアクセスできない大規模な障害が発生しておりましたが、12月24日07時に復旧いたしました。 12月23日、および12月24日が納品期限のリクエストは納品期限を12月25日23時59分までに延長させていただきます。 みなさまには多大なご迷惑をお掛けしましたことをお詫び申し上げます。 本障害につきまして詳細をご報告させていただきます。 概要日時: 12月23日12時22分〜12月24日7時00分 (JST) ダウンタイム: 18時間38分 内容: skeb.jpにアクセスできない不具合 原因: SkebはすべてのサーバとシステムをHerokuに設置していたが、障害発生時刻より同サービスのアカウントが理由の通知なく利用できなくなった。 解決: Herokuの一切の利用を中止し、すべてのサーバとシステ

                              • 東証の記者会見は「技術がわかる経営者」「受け答えが理路整然」と絶賛する感想が集まる。なお横山CIOは落研出身

                                リンク 日本経済新聞 電子版 東証「2日の売買実施は1日19時半めど連絡」 社長会見終了 ■宮原社長「市場預かるものとして責任痛感」■システム再起動なら相当の混乱想定された■終日売買停止で1日の株価は「値つかず」 56 users 236

                                  東証の記者会見は「技術がわかる経営者」「受け答えが理路整然」と絶賛する感想が集まる。なお横山CIOは落研出身
                                • ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン

                                  同期処理が失敗した原因は、4台をつなぐスイッチの不具合。具体的には、スイッチが故障状態であるにもかからず、故障を知らせる「故障シグナル」を発信しなかった。国内線システムは故障シグナルを検知するとスイッチを予備機に切り替えるが、今回はその機能そのものを作動できなかった。 スイッチは完全に停止したわけではなく、「不安定ながらも動作していたようだ」(同)。そのため、DBサーバー間の同期は順次失敗し、停止していったと見られる。 ANA広報によると、スイッチは米シスコシステムズ製「Catalyst 4948E」という。「2010年6月の発売開始以降、世界で4万3000台、うち日本で8700台を販売しているが、今回の不具合は初めての事象と聞いている」(ANA広報)。なぜ「故障シグナル」が発信できなかったかは分かっていない。 1台での縮退運転を決断 4台の完全停止から37分後、ANAは1台のDBサーバー

                                    ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン
                                  • みずほ銀行のシステム障害(2/28~3/12)の調査報告書、経営陣も現場もエンジニアも全てが残念 : 市況かぶ全力2階建

                                    日刊SPA!に登場の医学生投資家、儲け自慢に熱を入れるあまり「11歳から親の口座で投資を始めた」と借名取引をうっかり告白

                                      みずほ銀行のシステム障害(2/28~3/12)の調査報告書、経営陣も現場もエンジニアも全てが残念 : 市況かぶ全力2階建
                                    • …Outlookの送信メールが……消えた…?(12/24改修されたよ) - Qiita

                                      はじめに Leverages Advent Calendar 10日目担当の ham です。 今が 12月12日だということは気にしてはいけません。代打です。 Leverages で、セキュリティの責任者としてセキュリティ意識の啓蒙や全社に関わるシステムの改善をしています。 また、前職では、SOC、NOC、BGPの運用などを行っていました。 最近メールについて不可解な問い合わせが増えてきたので、調べたことをまとめます。 追記(2019年12月24日 17:10) 本日 16時頃に Outlookサポートから不具合を改修した旨の連絡が来ました。 私もテストを実施し、Outlook から送信した Re: 【hoge】【fuga】 のメールが Gmail に届くことを確認しました。 メリークリスマス! 追記(2019年12月15日 21:40) 反響の大きさにびっくりしています。茶渡の霊圧を消し

                                        …Outlookの送信メールが……消えた…?(12/24改修されたよ) - Qiita
                                      • 株式会社IDCフロンティア

                                        IDCフロンティアのクラウドサービスが政府情報システムのためのセキュリティ評価制度(ISMAP... データセンター 2024年01月10日 【接続先追加】「バーチャルブリッジ」に主要IX事業者などの他事業者接続が追加 データセンター 2024年01月10日 令和6年能登半島地震の影響により、被災された地域のお客さまがご利用中のサービスについて支援措置を実施します。 サービス 2024年01月05日 新年のご挨拶 代表取締役社長 鈴木 勝久 その他 2024年01月04日 1月17日~19日に福岡で開催される「JANOG53 in Hakata」にブース出展します その他 2023年12月20日 ZDNET Japan Business&IT ClassWork supported by ... その他 2023年12月15日 IDCフロンティア、「AIサービスのためのデジタルインフラ」を

                                          株式会社IDCフロンティア
                                        • 高木浩光@自宅の日記 - spモードはなぜIPアドレスに頼らざるを得なかったか

                                          ■ spモードはなぜIPアドレスに頼らざるを得なかったか spモードの事故 NTT docomoのスマホ向け独自サービス「spモード」が、今月20日に大規模な事故を起こして、重大事態となっている。 スマホ向けネット接続が不具合 ドコモ 別人のアドレス表示, MSN産経ニュース, 2011年12月20日 ドコモのspモードで不具合、他人のメールアドレスが設定される恐れ, 日経IT Pro, 2011年12月21日 ドコモの「spモード」でトラブル、関連サービスが一時停止, ケータイ Watch, 2011年12月21日 ドコモ、spモード障害で「ネットワーク基盤高度化対策本部」設置, ケータイ Watch, 2011年12月26日 ドコモ 約1万9000人に影響, NHKニュース, 2011年12月27日 ドコモの“メアド置き換え”不具合、影響数や新事象が明らかに, ケータイ Watch,

                                          • みずほ銀行システム障害に学ぶ

                                            みずほ銀行システム障害の調査報告書が公開されたのがニュースになって、Twitterなどで色々な人がコメントをしているのを見た。140文字しか書けない空間で他人の失敗談の揚げ足取りをするのは簡単だが、そこからは一時の爽快感以外に何も得るものがないので、僕はそういうのはカッコ悪いと思っている。 そこで、ちゃんと読んでみたら全く他人事でない部分も沢山あるし、非常に面白く勉強になったので、ブログにまとめてみる。 技術的な話 銀行のシステムがどのようになっているのか、全然イメージが湧いていなかったので、それがまず勉強になった(p.29)。 トラフィックのソースに応じて用意された色々なシステムから基幹システム「MINORI」の取引メインバスにトラフィックが流れ、そこから各種システムへとリクエストが送られていく。この辺はService Oriented Architectureらしい。開発当時としては(

                                              みずほ銀行システム障害に学ぶ
                                            • 東京証券取引所様の株式売買システム「arrowhead」で発生した障害の原因と対策について : 富士通

                                              2020年10月19日 富士通株式会社 東京証券取引所様の株式売買システム「arrowhead」で発生した障害の原因と対策について 本日、株式会社東京証券取引所(以下、東京証券取引所)様より、さる10月1日に発生した東京証券取引所様の株式売買システム「arrowhead」の障害に関しての発表がありました。 東京証券取引所様、ならびに投資家の皆様、市場関係者をはじめ多くの皆様方に多大なるご迷惑をおかけいたしましたこと、あらためてお詫び申し上げます。 下記のとおり、本障害の根本原因および当社の品質保証体制の強化について、ご説明させていただきます。今後こうした事態を二度と起こさぬよう、再発防止に向け、全力を挙げてまいります。 記 東京証券取引所様の株式売買システム「arrowhead」障害の根本原因について (1)発生事象について 東京証券取引所様に共有ディスク装置として納入した当社ストレージ製

                                                東京証券取引所様の株式売買システム「arrowhead」で発生した障害の原因と対策について : 富士通
                                              • 自社のDB破壊しCEOに身代金要求、freeeが本当にやったクラウド障害訓練の舞台裏 「従業員はトラウマに」

                                                自社のクラウド環境に侵入され、データベースから経営に欠かせないデータを持ち出される。バックアップも消され、データを取り戻したければ、身代金を支払うよう要求される──企業にとって絶対に直面したくない事態の一つだ。しかしこのシチュエーションをあえて再現し、訓練という形で自社のCEOに身代金まで要求した企業がある。クラウド会計サービスを提供するfreeeだ。 freeeは2021年10月、標的型攻撃とランサムウェアを組み合わせたシナリオを基に全社的な訓練を実施。AWS上のDBからデータを盗み出し、バックアップを消した上で、自社のCEOに社内SNSを通して身代金を要求したという。訓練を主導したのは、製品やサービスのセキュリティ向上を目指す社内組織「PSIRT」だ。 訓練を実施した背景には、情報システム部などのIT部門だけでなく、経営層まで巻き込みたい考えがあったという。同社のPSIRTが取り組んだ

                                                  自社のDB破壊しCEOに身代金要求、freeeが本当にやったクラウド障害訓練の舞台裏 「従業員はトラウマに」
                                                • KDDIの通信障害についてまとめてみた - piyolog

                                                  2022年7月2日、設備障害によりKDDIの携帯電話サービスで障害が発生しました。ここでは通信障害に関連する情報をまとめます。 通信障害発生から復旧発表まで3日以上 au携帯電話サービスがご利用しづらい状況について 障害発生同日8時以降から1時間おきに障害報告が公表されていた。 障害発生・復旧の状況は以下の通り。 対象地域 障害発生日時 復旧作業終了時間 復旧完了日時 西日本 2022年7月2日 1時35分頃 2022年7月3日 11時頃 2022年7月5日15時36分 東日本 2022年7月2日 1時35分頃 2022年7月3日 17時30分頃 2022年7月5日15時36分 影響を受けたのは全国の個人・法人向けのau携帯電話、UQ mobile携帯電話、povo、au回線利用事業者の音声通信、ホームプラス電話、ホーム電話、auフェムトセル、SMS送受信。7月3日11時時点の概算では約3

                                                    KDDIの通信障害についてまとめてみた - piyolog
                                                  • ヒューマンエラー 理論と対策

                                                    • [続報]OCNの通信障害、米グーグルによる誤った経路情報の大量送信が原因か

                                                      2017年8月25日、NTTコミュニケーションズ(NTTコム)のインターネット接続サービス「OCN」で発生した通信障害に関して、インターネット通信関連の識者は誤った経路情報が大量に流れたことが原因ではないかとの見方を示した。ここでいう経路情報はルーターがBGP(Border Gateway Protocol)というプロトコルを使って交換するものだ。 日本ネットワークインフォメーションセンター(JPNIC)の岡田雅之氏は、NTTコムは複数の組織と対等な関係でネットワークの経路情報をやり取りしているが(これを「ピアリング」という)、そのうちのある組織が誤った経路情報を大量に流したのではないかと話す。その結果、「NTTコムを介してインターネットに接続していた企業のルーターが、大量の経路情報を受け取り高い負荷がかかり、一部はフリーズしたような状態に陥るなどして通信障害につながったのではないか」(岡

                                                        [続報]OCNの通信障害、米グーグルによる誤った経路情報の大量送信が原因か
                                                      • Anonymousが日本政府とレコード協会に“宣戦布告” 違法ダウンロード刑事罰化に抗議

                                                        米国サイト「4chan」に掲載されていた、書き換えたサイトのスクリーンショットらしき画像。日本政府に対し大規模な攻撃を行うと予告している。なぜか上部には先日問題になったコラ画像(実はスペインのデモ風景)が使われている ハッカー集団「Anonymous」が6月25日、日本政府と日本レコード協会に対し“宣戦布告”ともとれる宣言をサイト上に公開した。違法ダウンロードに対し刑事罰を盛り込む改正著作権法の成立に抗議する内容で、“公式”Twitterアカウントが「始まりだ」とツイートした財務省管轄サイトは現在、ダウンしてアクセスできない。 Anonymousの宣言「#opJapan - Expect US」では、「コンテンツ産業や政治家、政府が海賊版や著作権侵害と戦うために厳格な法律を導入するという誤ったアプローチを導入しており、基本的人権の侵害やイノベーションの阻害につながっている」と主張。「歴史的

                                                          Anonymousが日本政府とレコード協会に“宣戦布告” 違法ダウンロード刑事罰化に抗議
                                                        • さよなら本番サーバー - Qiita

                                                          とあるSESの現場では本番リリースの時期が近づいてきており、僕を含めた数人のエンジニアは間に合いそうもない残作業の開発を進めたり、本番で使うためのデータの整備を本番サーバー内で行ったりしていた。ほとんどがその案件のために集められたメンバーだったため特に和気あいあいとするでもなく、エアコンの風の音が響く小さなオフィスの片隅で静かに作業をしていた。 業務上のやりとりもRedmineで行われており、声を発するのもたまにメンバー同士で話をしたり、クライアントから電話がかかってきた時だけ。その日もメールで通知が届いてきており、確認してみるとRedmineで僕が関係しているチケットにコメントが届いているという通知だった。 通知のURLをクリックしてRedmineのチケットを確認してみる。 それによると一旦本番サーバー上に存在するデータの中の一部の主要データをCSV形式で送ってほしいという依頼だった。無

                                                            さよなら本番サーバー - Qiita
                                                          • Librahack : 容疑者から見た岡崎図書館事件

                                                            出来事の詳細 3/13 新着図書データベースを作るためクローリング&スクレイピングプログラムを作成した ちょうどその頃、市場調査を行うためにECサイトのスクレイピングプログラムを作っていた。そのついでに、前々から構想していたLibra新着図書Webサービスを作ろうと思った。市場調査プログラムの一部をカスタマイズして、新着図書データベース作成プログラムを作った。この時、市場調査プログラムと新着図書データベース作成プログラムは同じプログラム内にあり、パラメータでアクションを指定して振り分けていた。 Webサービスを作ろうと思った動機は「なぜプログラムを作ったか」の通り。 Webサービスの概要は「どんなプログラムを作ろうとしていたか」の通り。 普段読む本を入手する流れ:1. Amazonの各カテゴリの売れ筋をチェックしてレビューを確認し読むかどうか決める(または、書評ブログや新聞などのメディアで

                                                            • 約60時間を非常用電源設備で乗り切った石狩データセンターの奇跡

                                                              2018年9月6日に北海道を襲った震災により、停電状態に陥ったさくらインターネットの石狩データセンターに対し、9月8日ようやく電力供給が再開された。想定を超えた約60時間を非常用電源設備で乗り切り、インフラ事業者としての矜持を見せた石狩データセンターの「奇跡」について、改めてきちんと説明していきたいと思う。 卓越したオペレーション能力で「想定外」を「想定内」に 2011年11月に開設された石狩データセンターは、数多くのサーバーを収容するさくらインターネットの基幹データセンターになる。開設当時はソーシャルゲームの普及でサーバーの需要がうなぎ登りだったほか、環境に配慮したエコなデータセンターが求められていた。こうしたニーズに対応する石狩データセンターは、寒冷地のメリットを活かした外気冷却と東京ドーム1個分に相当する広大な敷地を用いたスケーラビリティが大きな売りだった。私も開設時と増設時で2回ほ

                                                                約60時間を非常用電源設備で乗り切った石狩データセンターの奇跡
                                                              • みずほ銀行のシステム、金融庁が管理へ 異例の行政処分 - 日本経済新聞

                                                                金融庁は週内にも、ATMなどの障害が多発するみずほフィナンシャルグループとみずほ銀行に対し、異例の行政処分となるシステムの「管理命令」を発動する方針だ。年内いっぱいをメドに、同行が進めるシステムの更新作業や保守業務を共同で管理し、必要に応じて運営体制の見直しも命じる。金融当局がシステム運営を直接監督することで障害再発を最小限にとどめ、金融システム不安への波及を防ぐ。【関連記事】・・みずほは今年2月以降、7回のシステム障害を起こし、利用者の不安が広がっている。機器の改修などを進めているが、基幹システムそのものに欠陥がある可能性もあり、障害再発のリスクがぬぐえない。そのため金融庁は

                                                                  みずほ銀行のシステム、金融庁が管理へ 異例の行政処分 - 日本経済新聞
                                                                • みずほ銀行ATM障害で通帳と現金25万が吸われたまま仕事も飛んだ話|まるやあかね

                                                                  2/28(日) 午前の仕事を終え次の仕事に向かうまでの間、翌日3/1(月)以降の引き落としに備えて入金するため、駅併設の商業施設内に設置されたみずほ銀行ATMで預け入れを行うつもりだった。 12:20頃だったと思う。 【トラブル内容】 ATMから入金するため、 トップメニュー→預け入れ→通帳挿入→現金挿入 →紙幣投入口が閉まったところで取り扱いエラー画面になる …………え? いや、さっきまで普通の感じで動いてたじゃん! 故障?故障なの? ATM画面横の受話器からは繋がらず、画面外左上に設置された受話器からATMセンターへ連絡する。 プルルルル、プルルルル、プルルルル、 ・・・・ッツー、、ッツー、、ッツー、、 何度かけても同じ。 時折、「担当者を呼び出しますのでそのままでお待ちください。〜♪〜」 とアナウンスが流れるも、 「ただいまお電話が混み合っております。しばらく経ってからおかけ直しくだ

                                                                    みずほ銀行ATM障害で通帳と現金25万が吸われたまま仕事も飛んだ話|まるやあかね
                                                                  • 「サル軍団」にシステム障害を起こさせる、Netflixの驚異的なトラブル撲滅法

                                                                    Netflixは、わざと本番障害を起こしてすぐ復旧させることを繰り返し、本当の障害発生に備える、という驚くべき手法「カオスエンジニアリング」を実践している。 その効果は実証されている。Netflixが全面的に採用しているAmazon Web Services(AWS)で、2017年2月に中核施設の一つ、米バージニア北部リージョン(広域データセンター群)にて大規模障害が起きたとき、別のリージョンに速やかに切り替えたという。 Netflixの先進的な取り組みを紹介するこの特集の最後に、カオスエンジニアリングを取り上げる。

                                                                      「サル軍団」にシステム障害を起こさせる、Netflixの驚異的なトラブル撲滅法
                                                                    • 障害報告書を書こう! - Qiita

                                                                      担当しているITサービスなどに何かしらのインシデントや障害が発生した時に、対処後のアクションとして報告書を提出して事象の内容を報告(レポート)する場合がある。 提出先は会社の偉い人だったりクライアントだったり。場合によってはユーザー向けに発表したり。事の顛末を報告して「今後同様のことを起こさないように努力します、ごめんなさい」をするのだ。どのように再発防止の努力するのかを書くものでもある。 主にクライアント向けのビジネス内容ではあるが、自分が使っているテンプレパターンを共有するので参考にしてもらえればと思う。1 全般的なポイント 心得のようなもの。次の点は留意してて欲しい。 淡々と冷静な説明をこころがける 当然のことながら事実は脚色しない。無駄な修飾も要らない。客観的な事実を簡潔に述べる。 例: ❌「一生懸命頑張って対応したが…」 ❌「寝ないで対応したが…」 ❌「本当の原因は…」 できるだ

                                                                        障害報告書を書こう! - Qiita
                                                                      • みずほ銀行窓口業務ストップの真相、DC切り替えをためらい障害が長期化

                                                                        みずほ銀行で2021年8月20日、営業店の窓口業務が全面停止するトラブルが発生した。前日の19日午後8時53分ごろに営業店端末と勘定系システムをつなぐサブシステムで、データベース(DB)サーバーがディスク装置の故障をきっかけに停止したためだ。待機系DBサーバーへの切り替えも失敗、副データセンター(DC)に処理を切り替えた。副DCへの切り替えに着手するまで11時間超を要し、業務開始に間に合わなかった。 みずほ銀行で2021年8月20日、全463店舗で営業店端末や店頭のタブレット端末が使用不能になった。午前9時の開店から午前9時45分までは全ての店頭取引ができなくなり、その後も午前11時58分まで融資や外国為替(外為)の一部取引ができなくなった。営業店端末などと勘定系システム「MINORI」をつなぐサブシステム「業務チャネル統合基盤」が前日の8月19日午後8時53分ごろに停止したためだ。 業務

                                                                          みずほ銀行窓口業務ストップの真相、DC切り替えをためらい障害が長期化
                                                                        • 当社サーバーサービスに関する技術情報共有サイトへの投稿について | さくらインターネット

                                                                          お客さま各位 当社サーバーサービスに関する技術情報共有サイトへの投稿につきまして、当社サービスをご利用いただいているお客さまやお取引をいただいているお客さまをはじめ関係者の方々にご心配、ご迷惑をお掛けしていることを心よりお詫び申し上げます。 2012年に新規提供を終了させていただいております「専用サーバ」サービスにおきまして、2017年にサーバーの物理移設を含むメンテナンスを実施させていただいておりました。 その対応の中で、投稿記事に書かれている内容に合致するハードウェア故障とオペレーションミスに起因するサーバー停止が発生し、謝罪とともに障害報告書と再発防止策をご提示していたケースがございました。 投稿記事は2017年当時の当社の対応に関する内容で、現在までのお客さまに対するご案内やサポート対応がご期待に十分に沿うものではなかったと真摯に反省し、ご指摘を重く受け止めております。 今後につき

                                                                            当社サーバーサービスに関する技術情報共有サイトへの投稿について | さくらインターネット
                                                                          • スーパーコンピュータシステムのファイル消失のお詫び | お知らせ | 京都大学情報環境機構

                                                                            京都大学学術情報メディアセンター センター長 岡部 寿男 2021年12月14日 17時32分 から 2021年12月16日 12時43分にかけて,スーパーコンピュータシステムのストレージをバックアップするプログラム(日本ヒューレット・パッカード合同会社製)の不具合により,スーパーコンピュータシステムの大容量ストレージ(/LARGE0) の一部データを意図せず削除する事故が発生しました. 皆さまに大変なご迷惑をおかけすることになり,深くお詫び申し上げます. 今後,再びこのような事態の生じることのないよう再発防止に取り組む所存ですので,ご理解をいただきますよう,どうぞよろしくお願いいたします. ファイル消失の影響範囲 ・対象ファイルシステム: /LARGE0 ・ファイル削除期間:2021年12月14日 17時32分 ~ 2021年12月16日 12時43分 ・消失対象ファイル:2021年12

                                                                            • 2020年10月に発生した東京証券取引所のシステム障害についてまとめてみた - piyolog

                                                                              2020年10月1日、東京証券取引所はアローヘッドの機器故障によりシステム障害が発生し、終日売買を停止すると発表しました。故障した機器は交換が行われ、取引は翌日再開されています。ここでは関連する情報をまとめます。 機器故障起きるも縮退運用に失敗 障害概要図 アローヘッド内の共有ディスク装置1号機で機器故障が発生した。実際故障したのはサーバー上のメモリ周辺機器とされる。 1号機故障により両現用で稼働していた2号機のみのフェールオーバー(縮退運用)が行われるはずだったが何らかの問題により行われなかった。 共有ディスク装置を使用する相場配信、売買監視のシステムで障害が発生。 障害復旧時に発生する注文データ消失による市場混乱を避けるため当日終日の取引停止の措置を実施。(遮断) フェールオーバー失敗原因は設定ミス フェールオーバーに失敗した理由が特定できたとして10月5日に発表。 障害発生時のフェー

                                                                                2020年10月に発生した東京証券取引所のシステム障害についてまとめてみた - piyolog
                                                                              • 「大きなミスを犯してしまった」――楽天koboに何が起きたのか

                                                                                「kobo Touchのアクティベーションができない」――楽天が鳴り物入りで投入した電子書籍サービスに、発売当日から不具合が続出した。担当の執行役員は「申し訳ない」と陳謝。顧客の声を聞きながら、スピーディに改善していきたいという。 楽天子会社のカナダKoboが7月19日に発売した電子書籍端末「kobo Touch」。7980円という挑戦的な価格が話題を呼び、三木谷浩史社長が店頭でトップセールスするなど鳴り物入りで登場したが、発売当日に手に入れたユーザーの一部は、「アクティベーションできない」「電子書籍が正常に表示されない」など不具合に悩んだ。楽天の直販サイトの端末レビュー欄には批判が殺到し、炎上状態になった。 一連の問題はなぜ起きたのか。楽天は、問題にどう対処していくのか。そして、直販サイトのレビューが閲覧できない状態になったのはなぜか――楽天デジタルコンテンツ推進室の本間毅執行役員に真相

                                                                                  「大きなミスを犯してしまった」――楽天koboに何が起きたのか
                                                                                • 嵐のコンサートがあるとダブルブッキングしてしまうホテル予約システムを作ってみた

                                                                                  今年の5月1日に、仙台市内のホテルで多重予約のトラブルが発生したと報道されています。 部屋数203室の仙台市のビジネスホテルで、9月18~23日の宿泊予約を数千件受け付けるトラブルがあった。アイドルグループ「嵐」のライブが宮城県内で開催される期間だった。インターネットでの申し込みが殺到し、システム障害が起きたとみられるという。 トラブルがあったのは、仙台市泉区の「ホテルルートイン仙台泉インター」。ホテルなどによると、9月19、20、22、23日に宮城スタジアム(宮城県利府町)で嵐がライブを開くことが明らかになった後の5月1日午前5時ごろ、ネットを使った予約申し込みが殺到していることに気づいたという。 203室のホテルなのに「予約」数千件 嵐公演で殺到か:朝日新聞デジタル より引用 5月1日の朝に何があったのか調べてみると、この日の早朝にテレビや新聞でコンサートの情報が流れたようですね。 お

                                                                                    嵐のコンサートがあるとダブルブッキングしてしまうホテル予約システムを作ってみた