タグ

障害に関するmizdraのブックマーク (16)

  • なぜ我々はsession.cookieを変更しなければならなかったのか - BASEプロダクトチームブログ

    はじめに こんにちは。バックエンドエンジニアの小笠原です。 今回は、2022年2月18日から2022年3月4日にかけて発生していたこちらの障害に対し私達開発チームが実施した、session.cookieで定義しているCookieのkey名を変更するという影響範囲の大きい対応について、実施に至るまでの経緯や対応過程についてご紹介したいと思います。 ショップオーナー向けに掲載していたお知らせの内容 背景 全ては iOS14.5から端末識別子の取得に同意が必要になったことから始まった ことの発端は、iOS14.5以降からIDFA(端末ごとに持つ固有識別子)の取得に端末所有者の許可が必要になったことでした。 この変更は、端末所有者側から見ると情報の活用範囲を自身で管理できることでよりプライバシーに配慮されるようになった良い変更と言えるでしょう。 一方で、広告出稿側から見た場合は拒否をしたユーザーの

    なぜ我々はsession.cookieを変更しなければならなかったのか - BASEプロダクトチームブログ
  • 【1月23日追記】12月23日、24日に発生しました障害に関するご報告

    いつもSkebをご利用いただき、誠にありがとうございます。 12月23日12時よりskeb.jpにアクセスできない大規模な障害が発生しておりましたが、12月24日07時に復旧いたしました。 12月23日、および12月24日が納品期限のリクエストは納品期限を12月25日23時59分までに延長させていただきます。 みなさまには多大なご迷惑をお掛けしましたことをお詫び申し上げます。 障害につきまして詳細をご報告させていただきます。 概要日時: 12月23日12時22分〜12月24日7時00分 (JST) ダウンタイム: 18時間38分 内容: skeb.jpにアクセスできない不具合 原因: SkebはすべてのサーバとシステムをHerokuに設置していたが、障害発生時刻より同サービスのアカウントが理由の通知なく利用できなくなった。 解決: Herokuの一切の利用を中止し、すべてのサーバとシステ

  • サーバダウンしたニコニコ漫画に何が起きていたのか - BOOK☆WALKER inside

    こんにちは。メディアサービス開発部Webアプリケーション開発課の奥川です。ニコニコ漫画のバックエンド開発を担当しています。 2021年初頭、ニコニコ漫画である作品の連載が開始されました。それに端を発する数カ月間のサーバ障害により、ユーザーの皆様には大変ご迷惑をおかけしました。 少し前の話にはなりますが、当時ニコニコ漫画のサーバでは何が起こっていたのか、どのような対応を行ったのかを振り返ってみたいと思います。 1号棟(事の起こり) 2021/01/08 問題の作品(以後、「作品I」*1と記述します)の第1話が投稿されます。その過激な内容からSNSなどでは一部で話題になりましたが、まだニコニコ漫画へのアクセスも穏やかなものでした。 2021/01/22 その2週間後、「第2話(前編)」の公開から事件が起こります。 ピークタイム最中の12:22頃から、まずmemcachedがCPU Utiliz

    サーバダウンしたニコニコ漫画に何が起きていたのか - BOOK☆WALKER inside
    mizdra
    mizdra 2022/10/29
    良いインターネット
  • GitLab.comが操作ミスで本番データベース喪失。5つあったはずのバックアップ手段は役立たず、頼みの綱は6時間前に偶然取ったスナップショット - Publickey

    果たしてGitLab.comで何が起きたのでしょうか? これまでの経緯をまとめました。 スパムによるトラフィックのスパイクからレプリケーションの不調へ GitLab.comは今回のインシデントについての詳細な経過を「GitLab.com Database Incident - 2017/01/31」で公開しています。また、もう少し整理された情報がブログ「GitLab.com Database Incident | GitLab」にも掲載されています。 これらのドキュメントを軸に、主なできごとを時系列に見ていきましょう。 1月31日16時(世界協定時。日時間2月1日午前8時)、YP氏(Yorick Peterse氏と思われる)はPostgreSQLのレプリケーションを設定するためにストレージの論理スナップショットを作成。これがあとで失われたデータを救う幸運につながります。 1月31日21時

    GitLab.comが操作ミスで本番データベース喪失。5つあったはずのバックアップ手段は役立たず、頼みの綱は6時間前に偶然取ったスナップショット - Publickey
    mizdra
    mizdra 2022/04/13
    伝説の回。もう5年経ったのか…
  • Downdetector との正しい付き合い方 - Qiita

    この記事について Downdetector (ダウンディテクター) について勘違いしている人が多数見受けられるので、正しい使い方(?)をまとめたものです。 AWS東京リージョンの大障害 2019/08/23にAWS東京リージョンで大障害が発生しました。 サービスが停止して阿鼻叫喚した方、仕事にならないと諦めて帰った方、など、悲喜こもごもだったのではないかと思います。 そんな障害発生している際、主にSNS界隈で以下のような地図をよく見かけませんでしたでしょうか? この地図は Downdetector ( ttps://downdetector.jp/ ←あえてリンクにはしません ) が提供している障害発生マップです。 上の画像は8/23の実際のAWS障害時にスクリーンショットを撮ったものです。 この地図をパッと見て、どのように感じるでしょうか。 「 『Amazon Web Service の

    Downdetector との正しい付き合い方 - Qiita
    mizdra
    mizdra 2021/06/20
    "この地図が表している情報は「障害が発生している事実」ではありません"
  • fastlyのCDNで発生したシステム障害についてまとめてみた - piyolog

    2021年6月8日、fastlyのCDNサービスで障害が発生し、国内外複数のWebサイトやサービスに接続できないなどといった事象が発生しました。ここでは関連する情報をまとめます。 原因はソフトウェアの潜在的な不具合 fastlyより6月8日付で今回の障害の顛末が公開されている。 www.fastly.com 障害原因はソフトウェアの潜在的な不具合で特定状況下かつ顧客構成で発生する可能性があった。このソフトウェアは5月12日に展開が開始されていた。 6月8日早くにこの不具合を発生条件を満たす構成変更が顧客によって行われネットワークの85%がエラーを返す事態が発生した。サイバー攻撃の可能性は否定と報じられている。*1 障害は発生から1分後にfastlyに検知され、49分以内にネットワークの95%が復旧した。 今回の障害を受け、短期的には修正プログラムの早期適用、復旧時間の短縮、テスト時に不具合

    fastlyのCDNで発生したシステム障害についてまとめてみた - piyolog
  • みずほ銀行システム障害に学ぶ

    みずほ銀行システム障害の調査報告書が公開されたのがニュースになって、Twitterなどで色々な人がコメントをしているのを見た。140文字しか書けない空間で他人の失敗談の揚げ足取りをするのは簡単だが、そこからは一時の爽快感以外に何も得るものがないので、僕はそういうのはカッコ悪いと思っている。 そこで、ちゃんと読んでみたら全く他人事でない部分も沢山あるし、非常に面白く勉強になったので、ブログにまとめてみる。 技術的な話 銀行のシステムがどのようになっているのか、全然イメージが湧いていなかったので、それがまず勉強になった(p.29)。 トラフィックのソースに応じて用意された色々なシステムから基幹システム「MINORI」の取引メインバスにトラフィックが流れ、そこから各種システムへとリクエストが送られていく。この辺はService Oriented Architectureらしい。開発当時としては(

    みずほ銀行システム障害に学ぶ
    mizdra
    mizdra 2021/06/17
    良い
  • データ移行で発生したみずほ銀行のシステム障害についてまとめてみた - piyolog

    2021年2月28日、みずほ銀行でシステム障害が発生し、全国で同行のATMが利用できなくなる、キャッシュカードが取り込まれたまま戻ってこないなどのトラブルが発生しました。ここでは関連する情報をまとめます。 取り込まれ戻ってこないキャッシュカード みずほ銀行サイト上に掲載されたシステム障害発生の案内障害が発生したのは2021年2月28日11時頃。障害により各地で生じた影響は以下が報じられるなどしている。なお、法人向けに提供されるサービスでは今回のシステム障害による不具合は確認されていない。*1 障害発生から30時間後に全面復旧をした。 みずほ銀行の自行ATM5,395台の内、54%にあたる2,956台が停止し(2月28日19時40分頃時点)、預金引き落とし等が出来なくなった。*2 台数はその後訂正され、最大4,318台が停止していたことが明らかにされた。 *3 障害発生中は、ATMよりキャッ

    データ移行で発生したみずほ銀行のシステム障害についてまとめてみた - piyolog
  • 吃音と向き合う バイデン氏は吃音のある初の米大統領 - BBCニュース

    ジョー・バイデン次期米大統領の就任式が目前に控えている。バイデン氏は吃音(きつおん)のある初の大統領でもある。

    吃音と向き合う バイデン氏は吃音のある初の米大統領 - BBCニュース
  • 「自閉症は津軽弁を話さない」この謎に挑んだ心理学者が痛感したこと(プレジデントオンライン) - Yahoo!ニュース

    自閉症の子どもは津軽弁を話さない。そんなの一言をきっかけに、心理学者の松敏治氏はことばと心の謎の解明に乗り出した。松氏は「最初は軽い気持ちで調べていたが、にまとめるまで十数年がかかった。現場の人々の経験や感覚に目を向けることの大切さを痛感した」という――。 【この記事の画像を見る】 ■「ことばと心の謎」に迫る研究のきっかけ ある日、町の乳幼児健診から帰ってきた心理士のが、ビールを飲みながら「自閉症の子どもって津軽弁しゃべんねっきゃ(話さないよねぇ)」と言ってきました。 障害児心理を研究する私は、「それは自閉症(自閉スペクトラム症:ASD)の独特の話し方のせいだよ」と初めは静かに説明してやりました。しかしは、話し方とかではなく方言を話さないのだと譲りません。 やり取りするうちに喧嘩になり2、3日は口を利いてくれませんでした。こちらも長年、その道の研究職であるつもりでしたから、たと

    「自閉症は津軽弁を話さない」この謎に挑んだ心理学者が痛感したこと(プレジデントオンライン) - Yahoo!ニュース
    mizdra
    mizdra 2020/10/08
    めっちゃ良い
  • 「絶対落ちないシステムを作れ」という要件に、開発者たちはどう対応したのか。東証arrowheadの当事者が語る

    「絶対落ちないシステムを作れ」という要件に、開発者たちはどう対応したのか。東証arrowheadの当事者が語る 「素人的に言えば、絶対落ちないシステムを作れ、というのがユーザーから見た要求条件」と発言したのは、東京証券取引所の株式売買システム「arrowhead」開発のプロジェクトマネージャ 宇治浩明氏。 東京証券取引所は2005年にシステム障害を起こし、取引が一時全面停止するという事態を引き起こしました。そのため2010年に稼働を開始した新システム「arrowhead」の開発では、高性能と高可用性という高い品質を実現することが絶対の目標となっていました。 東京証券取引所と、arrowheadの開発に当たった富士通。両社はどのように開発プロジェクトを通して高いソフトウェア品質を実現したのでしょうか? 9月9日、早稲田大学 西早稲田キャンパスで行われた日科学技術連盟主催「ソフトウェア品質シ

    「絶対落ちないシステムを作れ」という要件に、開発者たちはどう対応したのか。東証arrowheadの当事者が語る
  • 良いディフェンダーはタックルをしないし、良いエンジニアは障害対応をしない · takus's blog

    Amazon のオススメに出てきた「 サッカー データ革命 ロングボールは時代遅れか 」を読んでみました。 このは、野球界における「 マネーボール 」のように、 サッカーを様々なデータを元に見つめ直すような内容になっていて、 例えば、チームが負けているときに交代によって最大の効果を得るためには、 1 人目の交代を後半 13 分、2 人目を後半 28 分、3 人目を後半 34 分までに行うべきとか、 極端に能力の高い選手を獲得するのと弱点となる選手の穴を埋める補強はどちらがいいのかとか、 統計を元にしたサッカーに関する興味深い考察が多かったのですが、その中に 1 つ引っかかる話があったのでそれについて書いてみます。 良いディフェンダーはタックルをしない 書の中で、 四半世紀に渡ってマンチェスター・ユナイテッドを率いた名将ファーガソンが、 オランダ代表のディフェンダー、ヤープ・スタムを放

  • AWS 東京リージョンで発生した大規模障害についてまとめてみた - piyolog

    2019年8月23日 13時頃からAmazon AWS 東京リージョン でシステム障害が発生し、EC2インスタンスに接続できない等の影響が発生しています。ここでは関連する情報をまとめます。 AWSの障害報告 aws.amazon.com AWS障害の状況 障害発生時間(EC2) 約6時間 2019年8月23日 12時36分頃~18時30分頃(大部分の復旧) 障害発生時間(RDS) 約9時間半 2019年8月23日 12時36分頃~22時5分頃 障害原因(EC2) 一部EC2サーバーのオーバーヒートによる停止 制御システム障害により冷却システムが故障したことに起因 影響範囲 東京リージョン(AP-NORTHEAST-1)の単一のAZに存在する一部EC2、EBS、およびRDS。 発生リージョンは東京。東京近郊4データセンター群の内、1つで発生。 日国内のAWSの契約先は数十万件とみられる。*

    AWS 東京リージョンで発生した大規模障害についてまとめてみた - piyolog
  • システム障害のおわびとまなび - freee Developers Blog

    はじめに こんにちは、freee株式会社でCDO(最高開発責任者)をしている平栗です。 2018年10月31日に、freeeで起こしてしまったシステム障害について、その原因と対策、障害からの学びについて共有したいと思います。 この記事はfreee Developers Advent Calendarの22日目になります。 おわび まず、約2時間半にわたりfreeeの全サービスを停止し、皆様に多大なるご迷惑をおかけしましたことを、改めてお詫び申し上げます。 今回の障害を大きな学びと成長の機会とし、今後の再発防止と業務改善に取り組んでまいります。 障害の経緯 2018年10月31日12時34分~15時00分の2時間26分の間、freeeの全サービスを一時停止し、すべてのサービスがご利用できなくなりました。 以下、復旧までの経緯です。 11時24分 特定の機能が利用できなくなっていると、社内から

    システム障害のおわびとまなび - freee Developers Blog
  • News Up 聞こえるのに、聞き取れない私 | NHKニュース

    「音量は普通に聞こえるのに、言葉が聞き取れないという症状に3年くらい悩まされています」 女子学生があげたこのツイートが拡散、「私もそうだ」と同じ症状に悩む人が次々と苦しさを訴え始めました。時を同じくして耳鼻科医も偶然、症状を知ってもらうためのサイトを立ち上げていました。この症状「聴覚情報処理障害」と言います。 (ネットワーク報道部記者 和田麻子 目見田健 飯田耕太)

    News Up 聞こえるのに、聞き取れない私 | NHKニュース
    mizdra
    mizdra 2018/09/26
    すごい. NHKで記事になってる.
  • アニメの中の障害者キャラクター - ダブル手帳の障害者読み物

    私は重度障害者のアニオタだが、もっと障害者がアニメに何の理由もなく出てくるようになってほしい。そこで、記事ではアニメにおける障害者キャラの取り扱いについて考察する。 まず、日のアニメに出てくる障害者のうち、殆どは後天性の障害者である。何かの事故で、あるいは事件や戦いの中で傷を負い、障害者となるパターンが圧倒的に多い(コードギアスのナナリーなど)。このパターンだと、障害を持っている理由を簡単に説明できるうえ、過去のトラウマ・因縁との対決という図式で話も作りやすい。つまり対決すべき暗い過去としての障害である。 稀に先天性の障害者が出てくることもある。だがそういう場合、大抵は障害と引き換えに超人的な能力を持っている(例:盲目だが敵の気配を全て察知する剣士など)。いわゆる強キャラポジションである。この場合、障害はキャラの強さに対する箔付けや、キャラの能力をピーキーにするための理由付けとして用い

    アニメの中の障害者キャラクター - ダブル手帳の障害者読み物
  • 1