タグ

運用に関するstealthinuのブックマーク (49)

  • クラスタのノード欠損を復旧しようとしてクラスタを丸ごと落とした話 - Qiita

    これは、私が若…くはないけどピカピカのAWS1年生だった、数年前のお話です。 何をやらかしたのか やらかし前の状態 番運用しているWebアプリケーションの裏側に、EC2インスタンス3台でクラスタを組んだ某データストア製品を使用していました。データはクラスタ内でレプリケーションされており、1台がダウンしただけならクラスタは稼働を継続できます。2台がダウンするとクラスタ全体が機能しなくなります。 ある日、3台のうち1台で障害が発生してインスタンスへ疎通できない状態になりました。この時点ではクラスタは正常に応答しており、あと1台ダウンしない限りはサービスに影響が出ない状態でした。 まず、ダウンしてしまったインスタンスを再起動して復旧させようとしました。ところがEC2マネジメントコンソールから再起動、停止を選択しても障害中のインスタンスは反応しません。そして私は間違いを犯します。 やらかしたこと

    クラスタのノード欠損を復旧しようとしてクラスタを丸ごと落とした話 - Qiita
    stealthinu
    stealthinu 2020/12/11
    あー、でもこれはわかるな… あと障害出たときに急いで対処しようとして傷口広げるのもあるあるだよね…
  • ネットストアのシステム更新について | 無印良品

    いつも無印良品をご愛顧いただきありがとうございます。 システム更新に伴うメンテナンスのため停止しておりました、ネットストア・MUJI passportを再開いたしました(2020年1月18日7時00分時点)。 尚、オーダー商品など、現時点で一時承りを停止している商品やサービスがございます。 一時承りを停止している商品やサービス ネットストアからのオーダーラグのご注文 楽天ペイによるお支払い システム更新に伴う、その他の情報については、下記をご確認ください。 サービスを変更・終了しているものについて MUJI passport会員証・マイル・ショッピングポイントについて 登録情報の引き継ぎについて サービスを変更・終了しているものについて システム更新に伴い、一部サービスを変更・終了をさせていただきます。 サービス変更 メンバー情報(メールアドレス)の取り扱い 詳細はこちら IDEA PAR

    stealthinu
    stealthinu 2020/01/14
    1月中旬が下旬に… これはつらい。ブコメより一時期よりはましになったぽいが。
  • TOMCAT殺害事件 - Qiita

    OOMKillerの殺意 顧客EC2のTomcatがアクセスの無い早朝にもかかわらずOOMKillerに突然殺されてしまったので、調査した顛末をたぶん同じような問題に直面されている方もおられるかと思いますので備忘録として記載します。 Javaヒープのチューニングにも多少役立つかと思います。 (この記事はJava8が対象となります。) OOMKillerとはOut of Memory時に、サーバ全体を守るためにメモリーを消費しているプロセスを停止するLinuxの標準機能です。 そのOOMKillerになんとTomcatが突然殺害されてしまいました。 問答無用の辻斬り状態です。 早朝ですのでアクセスログには何も記録されておらず、catalina.outには OpenJDK 64-Bit Server VM warning: Setting LargePageSizeInBytes has no

    TOMCAT殺害事件 - Qiita
    stealthinu
    stealthinu 2020/01/10
    tomcatのメモリ管理について色々と勉強になる。自分も以前のプロジェクトでtomcatのメモリのことで結構たいへんだったのを思い出した。
  • 「ただならぬ空気を感じる」年末年始の3日間でシステム更新予定だった無印良品ネットストア、サービス再開できず"2020年1月上旬"と未定に

    Miyahan @miyahancom MSP事業者で監視システムの運用や業務標準化・自動化をやっています。今後は運用設計をやっていきたいけど学がない。体重2桁死守。 / ex 大手通信会社で壊れたルーターを取り替えるだけの夜勤作業員 miyalog.hatenablog.jp Miyahan @miyahancom 無印良品ネットストア、年末年始の3日間でシステム更改する予定だったが未だにサービス再開できず、メンテ期間が "〜2020年1月上旬" と未定になり、ただならぬ空気を感じる。合掌。 pic.twitter.com/3OmUauoBuH 2020-01-06 15:45:30

    「ただならぬ空気を感じる」年末年始の3日間でシステム更新予定だった無印良品ネットストア、サービス再開できず"2020年1月上旬"と未定に
    stealthinu
    stealthinu 2020/01/07
    無印良品のシステム系が年末のメンテナンスから全滅してるっぽいという話。これは… 中の人たちの無事を祈らざるを得ない。年末年始働くはめになったうえにこれではな。
  • 稼働中の商用ネットワークでVRRPの切替検証を実施しちゃった話 - Qiita

    ご挨拶 初めまして @moriya-snj です。 この記事は「番環境でやらかしちゃった人 Advent Calendar 2019 - Qiita」の15日目の記事です。 みなさん盛大にやらかしている様で安心しております。 今回は私が社会人3ヶ月目でやらかした重大事故の記録を包み隠さず暴露するとともに当時フォローしてくださった先輩や上司お陰でなんとかこの業界で生き抜くこと出来ていることの感謝をお伝えすべく、キーボードに手を伸ばしております。 何をしでかしたか 顧客AがIP電話を導入するため、新たにVoIP用ネットワークを構築することとなった。 機器の設置等は別部署が行うため、設置依頼を出し、完了の報告をもらったため、ネットワーク機器のコンフィグなどを流し込み疎通確認などを行うこととなった。 疎通確認が完了し、お次はVRRPの切替確認を行おうとしたが、ここで誤って稼働中の顧客Bのネットワ

    稼働中の商用ネットワークでVRRPの切替検証を実施しちゃった話 - Qiita
    stealthinu
    stealthinu 2019/12/16
    これ、やらかしの話より、やってしまった件の事後対応したときの上司、先輩の対応がすごく参考になる。めちゃよい会社・チームじゃん。
  • AWSのWEBコンソールでミスって本番を消した話と戻すまでの15分間の話 - まぁ、つまらないものですが

    この記事は「番環境でやらかしちゃった人 Advent Calendar 2019 - Qiita」の13日の記事です。 気軽な気持で登録したらカレンダーTwitterでバズリ、出てくる記事もみんな面白いので、「おいおいおいおい、俺はなんてものに登録してしまったんだ」と反省している深夜21時です。みんな文豪か? というわけで、こんにちは。godanです。 これは当にくだらないミスで番を消した人間の悲しい15分を思い出しながら書いた記事です。皆様にあたっては穏便に他山の石にしていただけると幸いです。叩かれたり炎上したりしないよう気をつけていますが、なにかあれば教えていただけると幸いです。 結論。 番には削除保護フラグを立てておこう Webコンソールで横着して複数作業するのはやめておこう サーバー名は誤解しないようにしておこう ここから以下ポエムです。 背景。 某月某日 普段リモートワー

    AWSのWEBコンソールでミスって本番を消した話と戻すまでの15分間の話 - まぁ、つまらないものですが
    stealthinu
    stealthinu 2019/12/13
    最悪の事態はまぬがれたといえそりゃ待ってる間は死ぬ思いだわな。
  • cron哀歌~typoを笑うものはtypoに泣く~他 - Qiita

    この記事は「番環境でやらかしちゃった人 Advent Calendar 2019」の12日目です。 https://qiita.com/advent-calendar/2019/yarakashi-production (想像以上に人気のカレンダーに参加してしまい、正直なところ、戦々恐々としております……) はじめに ほとんどの方ははじめまして、 @NACK と申します。 エンジニアになって何十年も経ちますが、未だに、ここに書いた「やらかし」は夢に見ます。 皆さんにご笑覧いただいて、私も一緒に笑えるようになればいいなあ……と思い、今回の企画に参加させていただきました。 というわけで、ぜひ笑いとばしていってください。もしくは、今後のみなさんの業務に、ほんの少しでもお役に立てれば幸いです。 用語説明 typoとは 入力ミスのこと。"typographical error"の略。 http:/

    cron哀歌~typoを笑うものはtypoに泣く~他 - Qiita
    stealthinu
    stealthinu 2019/12/12
    crontab -rネタなんだけど2段になっててちゃんと現在はこう改善したということが書かれていて参考になる。crontab 【ファイル】でその内容に更新できるのね。勉強になった。
  • 50自治体システム障害続報、不具合は米デルのストレージで発生

    2019年12月4日に発生した50自治体のシステム障害について2019年12月10日、不具合を起こした日電子計算がIaaS「Jip-Base」で利用していたのは米デルテクノロジーズ(Dell Technologies)のストレージ装置「Dell EMC Unity 500」であることが分かった。 日電子計算によると、このストレージ装置の特定のバージョンのファームウエアを使い、さらに高速に読み書きするための並列処理機能を使う条件がそろったときに不具合が発生したと見ている。不具合を解消するためにストレージメーカーからの修正ファームウエアを適用したが、12月10日午前11時時点で復旧には至っていない。 日電子計算の広報担当者は、「データの一部は読み書きできるようになったが、いまだに読み書きできない部分も発生している」とコメントした。修正ファームウエアを適用したのになぜ読み書きできないデータ

    50自治体システム障害続報、不具合は米デルのストレージで発生
    stealthinu
    stealthinu 2019/12/10
    日本電子計算のJip-Baseの障害はDellのストレージの特定ファームバージョンでストライピングで?使うときだけ起こる障害だった模様。でもまだ復旧せずと。これはつらい。
  • VSCodeの操作ミスでGCP Cloud Composerの裏側k8sをお掃除した話 - Qiita

    tl;dr 筆者はvim派でVSCode初心者。でも勧められたので数カ月ぶりに起動してみた。 Pluginを色々入れていたので、サイドバーにはたくさんのアイコン。なにこれ楽しい。 Cloud Codeタブを触っていたら…指先が震えてトラックパッド誤操作。「Delete Cluster」を押してしまう。 その時たまたま偶然、GCPのオーナー権限を持つIAMで認証していた。 盛大にやらかして復旧が手間だったが、いくつかの理由で障害として顕在化しなかった。 というお話 何をやらかしたのか やらかし当時、筆者はGCPでデータ処理基盤の開発を行っていました。vimとzshが大好きで、開発のすべてをこの2つで済ませてましたが、同僚にVSCodeを猛プッシュされたので使ってみることにしました。 VSCodeは数ヶ月前にインストールしたもののそのときは結局使わず。数ヶ月ぶりの起動でした。 インストール時に

    VSCodeの操作ミスでGCP Cloud Composerの裏側k8sをお掃除した話 - Qiita
    stealthinu
    stealthinu 2019/12/10
    これcrontabのオプションの-eと-rでもよく言われるような話だな。
  • 50自治体システム障害はIaaSで使うソフトのバグが原因、復旧メド立たず

    12月4日に発生した東京都中野区など約50の自治体のシステム障害で、12月5日も住民票の発行やホームページの閲覧などができない状態が続いている。原因は各自治体が利用している日電子計算のIaaS「Jip-Base」にシステム障害が発生したため。現状で復旧のメドは立っていない。 4日の時点ではディスク故障が原因とされていたが、詳細が分かってきた。2019年12月4日午前10時56分に同社のシステムにアラートがあがり、システム障害が発生した。調査したところストレージ装置のファームウエアにバグがあり、ディスクの読み書きができなくなったためだった。 各自治体の障害の影響範囲については、「自治体ごとにIaaSを利用しているシステムが異なるため一概には言えない。明確になり次第お知らせしていく」(日電子計算 広報)とした。11月23日にもQTnetのデータセンター障害で福岡県庁のシステムが一時的に利用

    50自治体システム障害はIaaSで使うソフトのバグが原因、復旧メド立たず
    stealthinu
    stealthinu 2019/12/06
    ストレージのファームバグが原因なのにHPEストレージ32768時間障害とは別、ということはどちらも共通で使っているSSDのファームだったりコントローラのファームバグとか??じゃあさらに続発する?
  • 現用ボーダールータを(社長が)ふっとばした話

    アーカイブ2022年2月 (1)2021年11月 (1)2021年9月 (1)2021年5月 (1)2021年3月 (1)2021年1月 (1)2020年12月 (1)2020年11月 (2)2020年10月 (3)2020年9月 (1)2020年8月 (3)2020年7月 (1)2020年6月 (2)2020年5月 (4)2020年4月 (2)2020年3月 (2)2020年2月 (1)2020年1月 (1)2019年12月 (4)2019年11月 (3)2019年10月 (5)2019年9月 (4)2019年8月 (5)2019年7月 (6)2019年6月 (7)2019年5月 (7) はっきり覚えていないのだが、たぶん20年前のことだと思う。S・アール・エスとIフォレストが協業を始め、Sくらインターネットができた直後ぐらいの話だ。 土曜日だったか、日曜日だったか、夜に車を運転していた

    現用ボーダールータを(社長が)ふっとばした話
    stealthinu
    stealthinu 2019/12/04
    めっちゃおもしろかった。20年前だとこんな感じだよね。…ってあれを作ってた時期だ… もう20年前…
  • HPEのサーバー向けSAS SSD、稼働32,768時間超えでデータ喪失。復旧も不可

    HPEのサーバー向けSAS SSD、稼働32,768時間超えでデータ喪失。復旧も不可
    stealthinu
    stealthinu 2019/12/04
    なぜに現代のハードで、時(hour)で16bit int境界超えで障害が出るのだ… どういうコードになっているのか見てみたい。
  • 本番環境でやらかしちゃった人 Advent Calendar 2019 - Qiita

    番環境でやらかしちゃった人のアドベントカレンダーです。 例) DB吹き飛ばした 番サーバをデストロイした ネットワーク設定をミスって番サーバにアクセス出来なくなり、サーバが世界から孤立した などなど... 以下の2点については必須項目なので、記述お願いします。 惨劇はなぜおこってしまったのか 二度と惨劇を起こさないためにどうしたのか もう二度とあの惨劇を繰り返さないために、みなで知見を共有しましょう。

    本番環境でやらかしちゃった人 Advent Calendar 2019 - Qiita
    stealthinu
    stealthinu 2019/11/17
    これは期待。/2日目だがもうわくわくが止まらんw
  • ApacheでのLet's Encrypt運用が簡単になりました

    Let’s Encrypt は無料でサーバー証明書を発行してくれる認証局です。2016 年のサービス開始以来、 急速に普及しています。 Let’s Encrypt の証明書発行には ACME プロトコルに対応したクライアントソフトウェアを使います。主要な ACME クライアントソフトウェアは ACME Client Implementations で紹介されています。Let’s Encrypt のサイトでは certbot というツールが推奨されているのですが、 このツールは Windows には対応していません。Windows 環境では win-acme (旧名 letsencrypt-win-simple) というツールが良く使われているようです。 私も、 これまで win-acme を使ってきたのですが、 先日、 ふとしたことで mod_md という Apache モジュールの存在を

    ApacheでのLet's Encrypt運用が簡単になりました
    stealthinu
    stealthinu 2019/07/18
    mod_mdでLet's Encryptの証明書更新が自動でできるらしい。が、最初何回かリブートしないといけないとか。このあたりもうちょっときれいに運用出来ないのかな。
  • ?n_cid=nbpnxt_fbbn

    「目指せ!インシデント・ゼロ」「ヒヤリハット撲滅!」──。最近このような組織目標を掲げるIT職場が増えている。 情報セキュリティやシステム品質に対する要求レベルがますます高まっている昨今。インシデント・ゼロやヒヤリハット撲滅を掲げたくなる気持ちはよく分かる。情報漏洩や品質低下が企業の信頼を一瞬にして失墜させ、ブランドイメージを大きく下げることを考えると事情は理解できる。 しかし、インシデント・ゼロやヒヤリハットの撲滅といった掛け声は、私の経験ではIT職場にとってむしろ逆効果でしかないように思える。現場では「ミスなく働く振り」が横行し、結果的に社員や関係会社の人たちを疲弊させるだけだ。 インシデント・ゼロ宣言は余計な仕事を生むだけ インシデント・ゼロを掲げたIT職場で働く社員の典型的な行動パターンを見てみよう。よほど風通しが良い組織でなければ、多くの企業では大抵こうなる。IT職場の課長クラス

    ?n_cid=nbpnxt_fbbn
    stealthinu
    stealthinu 2018/08/23
    インシデントを「なくす」ように目標を掲げてしまうと逆にインシデントを隠す、報告しない体質になってしまい逆効果だという指摘。やる内容が人によるダブルチェックだとかで担当のせいにされるから。
  • ひとり情シスとクラウドは相性最悪、大企業のIT部員も納得の理由とは

    「面白い男がいて、今度うちで『ひとり情シス』の取り組みを発表するので、あなたも聴きに来ないか」。ある学会の会長からそんな誘いを受けて講演を聴いたのが、大手製造業の事業子会社でIT技術者として働く成瀬雅光氏との出会いだった。 その講演内容は衝撃的だった。「10人いたIT部門がリストラで消滅。たった1人残された技術者(成瀬氏)が200台のサーバーを管理し、複数の業務システムを内製できるまでになった。その取り組みとは」。大変申し訳ないことだが、学会発表を聴くと途中でまぶたが重くなり、やがてコクリ、コクリ…というパターンが多いのだが、この日は違った。「こりゃ、すごい。この事例を多くの人に知らしめよう」と冴えた頭で考えていた。 既に「ああ、あの連載のことね」とお気付きの読者も多いかと思う。ITpro(現・日経 xTECH)に2016年10月から連載した「ひとり情シス顛末記」はこうして生まれた。IT

    ひとり情シスとクラウドは相性最悪、大企業のIT部員も納得の理由とは
    stealthinu
    stealthinu 2018/04/04
    リプレースならすぐに稟議が通るがクラウド化だと新規になるからなかなか通らない… なるほどそうだよねと納得するけどほにゃ~と脱力する話だ。ほんとアホみたいな話多すぎる。
  • 大規模memcached障害と私 - Qiita

    この記事は ex-mixi Advent Calendar 2017 19 日目のエントリーです。 こんにちは。@bonnu と申します。 株式会社ミクシィには2006年1月から2012年3月末までの間、6年と3ヶ月ほど在籍していました。その後株式会社FreakOut(現在はホールディングスとなっています)に転職。そこからさらに転職を重ね、現在は株式会社GameWithでサーバーサイドを主としたエンジニアをやっています。 ミクシィに入社した当時はまだ社名が株式会社イー・マーキュリーで、入った翌月に社名変更したタイミングでした。なので希少な「イー・マーキュリー」の名刺を持っていました。私より後に入社した他のエンジニアのみんなからよく珍しがられたのを覚えています。 今回はOB・OGによるアドベントカレンダーということで、在籍していた頃に体験した障害について少しお話したいと思います。 (※ 当時

    大規模memcached障害と私 - Qiita
    stealthinu
    stealthinu 2017/12/19
    『一人だけが対応するよりも二人、三人で役割を分担した方が確実に負担が軽減します。障害対応は基本的に「いかに一人の負担を軽減するか」がキモです(間違いありません)』
  • バウンスメール解析ライブラリSisimaiの出力からバウンスメールの集計と通知を行う

    OSS紹介アドベントカレンダー の19日目の記事です。 こんにちは、滝澤です。 去年の今頃もメール関連の記事(Null MXについて)を書いていましたが、再びメール関連の記事を書きます。 今回は、メーリングリストのバウンスメールをバウンスメール解析ライブラリSisimaiを使って解析し、その出力を集計して、Slackに通知するようにした事例を紹介します。 Sisimaiとは 公式サイトの説明が簡潔なので引用します。 SisimaiはbounceHammerの後継となるバウンスメール(エラーメール)解析ライブラリ (PerlモジュールとRuby Gem)であり、RFC5322に準拠した バウンスメールを解析し、JSONなどの構造化されたデータとして出力します。 Sisimaiはライブラリとして利用することも、次のようにコマンドラインで利用することもできます。 $ ruby -rsisimai

    stealthinu
    stealthinu 2017/12/19
    『バウンスメールが溜まったメールボックスをウェブメールで確認する運用にはなっていましたがそんな運用が回るわけもなくバウンスメールが放置されている状況がありました』ほとばしるあるある感
  • セキュリティ対策の不都合な真実--5年に一度しか来ないベンダーの正体

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 連載「企業セキュリティの歩き方」では、セキュリティ業界を取り巻く現状や課題、問題点をひもときながら、サイバーセキュリティを向上させていくための視点やヒントを提示する。 ベンダーにもセキュリティ人材がいない 前回は、日企業が表向きは多層防御のセキュリティ対策を講じていても、攻撃を検知しても対処ができない「セキュリティマネジメント不在」の状況を述べた。今回は、なぜセキュリティ対策製品を提供するベンダーがその状況を看過しているのかについて述べる。 セキュリティ対策の運用の現状は、攻撃手法の進化に大きく遅れを取ってしまった。セキュリティ製品を提供しているベンダーが、なぜこの状況を看過しているのだろうか。 答えは簡単だ。それは、ユーザー企業に

    セキュリティ対策の不都合な真実--5年に一度しか来ないベンダーの正体
    stealthinu
    stealthinu 2017/06/27
    これはまさにな指摘。
  • ルーターのコンフィグを git にぶち込んで世代管理してみたはなし - miyalog

    この記事を三行で みんな好き勝手な名前でコンフィグファイルをアップロードしてサーバーがパンク&どれが最新版かわからない状況に 命名規則を作り、サーバーに置いておくコンフィグを最新世代1つのみとした さらにファイルを社内 GitLab に自動アップロードし履歴確認ができるようにした ※ GitLab を入れ物として使うだけで、git を使ったワークフローを導入したとかのカッコイイ話じゃありません あらまし とある通信会社の委託でIPネットワークの監視作業員をやっています(非エンジニア)。うちの会社ではルーター・スイッチ類のコンフィグをTFTPサーバーへアップロードしてバックアップとしていますが、先日そのサーバーで反応が5分くらい返ってこなかったり、ファイルのアップロードに失敗したりと動作が不安定に・・・。HDDでも壊れたかな?と思いながら調べてみると... $ df -h Filesyste

    ルーターのコンフィグを git にぶち込んで世代管理してみたはなし - miyalog
    stealthinu
    stealthinu 2017/06/09
    後日談が本題w システム屋なのになぜそういう人が力を持っちゃうんでしょうね。はあ。