タグ

troubleに関するlizyのブックマーク (169)

  • 高松市様における「Fujitsu MICJET コンビニ交付」での証明書の誤交付発生について

    高松市様における「Fujitsu MICJET コンビニ交付」での証明書の誤交付発生について 2024年4月4日に高松市様において、「Fujitsu MICJET コンビニ交付」で、申請された方とは異なる住民の方の住民票の写しが発行される事象が発生いたしました。高松市様および住民の皆様、関係者の皆様には多大なるご迷惑、ご心配をお掛けしましたことをお詫び申し上げます。 事象の原因は、複数サーバーでシステムを構成している高松市様向けに、来はその構成に応じたプログラムを適用すべきところを、誤って単一サーバー構成向けのプログラムを適用していたことによるものです。現在は既に正しいプログラムを適用し、高松市様において正常に動作することを確認しております。 また、高松市様と同一構成の団体様について同様の問題が発生しないことを確認済みです。加えて、全ての団体様において事象に関係のないプログラムも含め

    高松市様における「Fujitsu MICJET コンビニ交付」での証明書の誤交付発生について
    lizy
    lizy 2024/04/17
    「誤って単一サーバー構成向けのプログラムを適用していた」排他とか採番とかみたいな処理が1台で閉じていたせいで、複数サーバが並列で処理した場合に不整合が発生したとか?
  • 全銀システムの大規模障害、「真の原因」明らかに--全銀ネットとNTTデータが発表

    全国銀行資金決済ネットワーク(全銀ネット)とNTTデータは12月1日、10月10日〜11日に発生した全銀システムの大規模障害の真の原因を明らかにした。 全銀システムは、日常の振込や送金をリアルタイムで処理するシステムで、国内のほぼすべての預金取扱金融機関が利用している。10月のシステム障害では三菱UFJ銀行、りそな銀行など10行で、他行宛の振り込みができないなどの障害が丸2日間継続した。 障害は、全銀システムの中継コンピューターを新機種「RC23シリーズ」へ交換し、その後営業運用を開始した直後に発生した。RC23シリーズ内の「銀行間手数料を処理するためのインデックステーブル」が破損しており、同テーブルを参照する際の処理でエラーが生じたためだ。 中継コンピューターは東京と大阪に1台ずつ、冗長化として設置されていたが、2台同時に新機種のRC23シリーズに切り替えたため、2台ともにソフトウェア障

    全銀システムの大規模障害、「真の原因」明らかに--全銀ネットとNTTデータが発表
    lizy
    lizy 2023/12/02
    1つずつ展開される想定で作ったものが、本番環境では4つ同時に展開されたのか。本番環境相当でテストすれば検出できたんだろうけど、こういうところだと用意するのも難しそう
  • 全銀システム障害、全銀ネットの対応で不足していたもの【鈴木淳也のPay Attention】

    全銀システム障害、全銀ネットの対応で不足していたもの【鈴木淳也のPay Attention】
    lizy
    lizy 2023/10/27
    まだ根本的な修正には至ってなくて、暫定対処のまま運用されてるのか……
  • オンライン DDL を期待して ALTER 文を実行したら障害になりかけた話 - カミナシ エンジニアブログ

    こんにちは。ソフトウェアエンジニアの坂井 (@manabusakai) です。 カミナシではマルチプロダクト化に向けて、認証・認可の切り出しを進めています。その対応を進める中で、既存テーブルへのカラム追加が必要になりました。 先日、そのリリースのために番データベースにマイグレーションの ALTER 文を実行したところ、クエリが詰まって危うく障害になるところでした(幸いすぐにキャンセルして事なきを得ました)。 原因を調べたところ、オンライン DDL は複数の条件が関係することがわかりました。オンライン DDL に対する知識不足と事前検証の甘さゆえのミスでしたが、結果的には良い学びが得られました。 カミナシのバリューのひとつである「全開オープン」の気持ちで、事の顛末やそこから得た学びを公開します。 なお、今回の話は MySQL 5.7 互換の Amazon Aurora MySQL 2 で確

    オンライン DDL を期待して ALTER 文を実行したら障害になりかけた話 - カミナシ エンジニアブログ
    lizy
    lizy 2023/10/23
    列を追加する際に順序を気にしてなかった。MySQL開発側も末尾追加のユースケースが大半と想定していたのかな
  • 全銀システム システム障害に係る対応状況について

    lizy
    lizy 2023/10/18
    「値を取得して設定」の取得でエラーになるから、取得せずにダミーの値を設定するようにした?「顧客影響なし」と書いてあるから大丈夫なんだろうけど……
  • 全銀システム障害の原因判明、メモリー不足でインデックステーブルが不正確な状態に

    銀行間送金を担う「全国銀行データ通信システム(全銀システム)」で2023年10月10~11日に発生した障害の原因が10月16日、分かった。全銀システムと各金融機関のシステムをつなぐ中継コンピューター(RC)において、メモリー不足に起因し、金融機関名などを格納したインデックステーブルに不正な値が紛れ込んだ。 インデックステーブルはRCのディスク上にあるファイルから展開する。このファイルを作成するプログラムを実行したタイミングで、一時的に確保するメモリー領域が不足し、ファイルの内容が不正確になったという。 全銀システムの障害を巡っては、三菱UFJ銀行やりそな銀行などで他行宛ての振り込みに遅れが生じた。全銀システムを運営する全国銀行資金決済ネットワーク(全銀ネット)によると、概算値ながら10月10~11日の2日間で仕向けと被仕向けを合わせて500万件超の送金に影響が出たとしている。

    全銀システム障害の原因判明、メモリー不足でインデックステーブルが不正確な状態に
    lizy
    lizy 2023/10/17
    64bit化が原因という情報があるけど、4バイト前提のバイナリファイルを8バイト想定でアクセスして値がおかしくなった?
  • 「全銀システム」障害 復旧の見通し立たず 関係者“不具合は思った以上に複雑で、いまだ詳しい原因の特定には至らず”(日テレNEWS) - Yahoo!ニュース

    「全銀システム」障害 復旧の見通し立たず 関係者“不具合は思った以上に複雑で、いまだ詳しい原因の特定には至らず”(日テレNEWS) - Yahoo!ニュース
    lizy
    lizy 2023/10/11
    三連休でシステム更改したのが原因らしいけど、ひとまず切り戻すしかなさそう | 「10日から夜通しで対応にあたりましたが、不具合は解消されていません」読んだだけでキツイ
  • 全国銀行データ通信システムのシステム障害についてまとめてみた - piyolog

    2023年10月10日、全国銀行資金決済ネットワークは、同社が運用している全国銀行データ通信システムでシステム障害が発生したことを公表しました。この障害の影響により一部の金融機関で送金遅延などが生じました。ここでは関連する情報をまとめます。 560万件の取引に影響 障害が起きたのは全国銀行資金決済ネットワーク(全銀ネット)が運用する全国銀行データ通信システム(全銀システム)のうち、平日8時半から15時半まで稼働するコアタイムシステムで金融機関との接続に使用される中継コンピューター(RC)。障害は10月10日8時半に発生し、10月12日未明に復旧に向けた対応が完了、同日8時半の切替完了したことで復旧した。*1 全銀システムは1,000超の金融機関が参加しており、1営業日当たりの取引件数は2022年実績で約806万件、約14兆円。*2 今回のシステム障害により金融機関間で行われる送金に遅延や取

    全国銀行データ通信システムのシステム障害についてまとめてみた - piyolog
    lizy
    lizy 2023/10/11
    「約140万件の内、100万件分は代替処理により10日中に送金処理が行われたが、残りの40万件は11日に処理がずれ込む」完全にストップではないにしてもどんどん残件が積み上がりそう……
  • 「ブルアカ」緊急メンテ 約17時間経過 定期メンテ中にデータベースの作業ミス

    スマートフォンゲーム「ブルーアーカイブ」が6月21日午後8時から緊急メンテナンス中だ。同日午前11時から午後7時にかけて実施していた定期メンテナンス中、データベースに関する作業ミスがあったといい、22日午後12時55分時点で緊急メンテナンスを継続している。 「6月21日午前11時に実施されたメンテナンス中、開発チームによるデータベースに対する高可用性修正において、作業ミスが発生した」(ブルーアーカイブ公式Twitterアカウント)という。これにより、21日午前9時から11時、午後7時から8時にかけてのゲームプレイのデータが一部正しく保存できなかったという。 保存できなかったデータについては「最大限にデータの復元ができるよう、対応を行う」という。メンテナンスの終了予定時刻は随時発表する。 ブルーアーカイブゲームパブリッシャーのYostar(東京都千代田区)が2021年にリリース。アップデー

    「ブルアカ」緊急メンテ 約17時間経過 定期メンテ中にデータベースの作業ミス
    lizy
    lizy 2023/06/22
    「同日午前11時から午後7時にかけて実施していた定期メンテナンス中、データベースに関する作業ミスがあったといい、22日午後12時55分時点で緊急メンテナンスを継続している」読むだけでキツイ
  • 川崎市様における証明書誤交付ついて(お詫び)

    川崎市様における証明書誤交付ついて(お詫び)2023年5月2日に川崎市様において、証明書交付サービスと戸籍システムを連携させるために当社が開発した個別連携システムの通信連携プログラム(以下、当該プログラム)不具合により、証明書交付サービスで申請された方とは異なる住民の方の戸籍全部事項証明書が発行されるという事象が発生いたしました。 川崎市様ならびに証明書交付サービスをご利用の皆様に多大なるご迷惑ご心配をおかけいたしましたことを深くお詫び申し上げます。 事象の原因は、2か所のコンビニで、2名の住民の方が同一タイミング(時間間隔1秒以内)で証明書の交付申請を行った際に、後続の処理が先行する処理を上書きしてしまうことによるものです。事象の原因となった当該プログラムの不具合は、既に修正および入れ替えを完了しております。なお、当該プログラムは川崎市様以外では使用されておりません。 当社はこれまで

    川崎市様における証明書誤交付ついて(お詫び)
    lizy
    lizy 2023/05/10
    出力用一時ファイルの名前が秒単位タイムスタンプベースで、バッティングすると上書きするということか。出力ジョブIDみたいなのがあるだろうからそれ使えばよかったのに
  • 新潟県の公文書管理システム内で電子データ約10万ファイルが消失する事故、県民や事業者などへの影響は調査中

    新潟県は4月21日、県の業務で使用している公文書管理システムに登録した文書の添付ファイルが消失する事故が発生した事を公表し、記者会見を開いた。 新潟県は業務において、文書の作成、決裁、保存などを電子的に行う公文書管理システムを使用しており、起案や決済の履歴、伺い文、起案の添付ファイル(施工した文書など)は、保守業者のサーバーに保存している。今回は、3月24日から同月31日23時59分までに登録した文書の添付ファイルの一部が4月9日の夜に消失する事故が発生した。消失したファイル数は保守業者によると、10万3,389ファイルだという。 事故の発生原因については、システム保守業者の人為的ミスであり、外部の攻撃などによるものではない。なお、外部への流出はない。現在、消失したファイルの復旧作業を行うとともに、県民や事業者などへの影響を調査中。 会見によると、県民のサービスためのシステムデータベースの

    新潟県の公文書管理システム内で電子データ約10万ファイルが消失する事故、県民や事業者などへの影響は調査中
    lizy
    lizy 2023/04/23
    "不要な添付ファイルを削除する既存のプログラムが「拡張子が小文字の添付ファイル」を不要と判断" 百歩譲って変換前の大文字ファイルを不要と判断する可能性ならありそうだけど……
  • 橋の設計ミスで工費3倍に、工期は4年半延長

    長野県が建設を進める国道148号雨中バイパスの新柳瀬橋(小谷村)に設計ミスがあり、上部工の工費が当初の6億6200万円から22億6900万円に膨らむことが分かった。再設計の結果、材料費がかさんだ他、仮設費が増大した。2021年1月までだった工期は25年8月まで延長した。

    橋の設計ミスで工費3倍に、工期は4年半延長
    lizy
    lizy 2023/01/14
    システム開発案件だと、設計と実装を別会社が受注したようなものか……どう考えても破綻しそう
  • 「Herokuの対応は遺憾」 Skeb障害、機会損失は1500万円相当 クラウド丸ごと乗り換え約18時間で解決

    Herokuの対応は遺憾」 Skeb障害、機会損失は1500万円相当 クラウド丸ごと乗り換え約18時間で解決 クリエイターに有償でイラストなどを発注できるサービス「Skeb」で12月23日から24日にかけて発生した障害について、運営元のスケブ(東京都千代田区)は24日、損失の詳細を公開した。 「Skebでは月間約5億円の取引があるが、今回の障害で1500万円相当の取引の機会損失が発生した。しかし、12月26日午前8時現在もHerokuから詳しい状況説明はなく、詳細な経緯は判明していない。厚いサポートをうたうエンタープライズ契約を締結しているにもかかわらず、このような対応は大変遺憾」(同社) 障害は23日午後12時22分から24日午前7時にかけて発生。期間中、ログインなどがしにくい状態だった。原因はサービスの提供に使っていたクラウドサービス「Heroku」のアカウントに起きた問題。「Ske

    「Herokuの対応は遺憾」 Skeb障害、機会損失は1500万円相当 クラウド丸ごと乗り換え約18時間で解決
    lizy
    lizy 2022/12/26
    アプリはコンテナでいいとして、DBは直近のバックアップとかから復旧したんだろうか
  • Google Cloud、暑さでダウンか ロンドンのデータセンターで冷却系に障害 Oracle Cloudも【復旧済み】

    Google Cloudの欧州リージョンの一部(europe-west2)で障害が発生している。ロンドンにあるデータセンターの1つで、7月20日午前2時13分ごろ(日時間、以下同)から、冷却関連のトラブルが起きているという。問題は一部改善しているものの、午前10時時点で解消はしていない。 障害によって、ユーザーが使う少数の仮想マシンが強制的に終了した他、スケーリングなどに影響が出たという。午前10時時点でも、一部のユーザーは仮想マシンの起動やスケーリングなどが通常通りできない場合がある。米Googleは引き続き改善に取り組むとしている。 同様の障害はOracle Cloudでも起きている。Oracle Cloudでは、19日午前12時21分ごろ、ロンドンにあるデータセンターで冷却系のトラブルが発生。一部ユーザーがサービスにアクセスしにくい状態になった。 米Oracleによれば、状態はすで

    Google Cloud、暑さでダウンか ロンドンのデータセンターで冷却系に障害 Oracle Cloudも【復旧済み】
  • みずほ銀行 障害の原因はハードディスクの経年劣化(テレビ朝日系(ANN)) - Yahoo!ニュース

    みずほ銀行は8月から先月まで4回発生したシステムなどの障害について、ハードディスクの経年劣化などが原因だったと公表しました。 みずほ銀行は8月20日に店頭での取引の一部ができなくなった障害について、データセンターのハードディスクが稼働から6年経って劣化していたことに気付かず、故障したことが原因だと明らかにしました。 この際、バックアップシステムに切り替えようとしましたが、入力すべき追加の指示を飛ばしたため失敗しました。 8月23日や先月8日に100台以上のATMが一時停止したケースではネットワーク機器に静電気などが生じエラーが発生した可能性が高いということです。 再発防止のため、みずほ銀行は6年前のシステム構築に携わった富士通や当時の技術者らとの関係を強化する方針です。

    みずほ銀行 障害の原因はハードディスクの経年劣化(テレビ朝日系(ANN)) - Yahoo!ニュース
    lizy
    lizy 2021/10/09
    「バックアップシステムに切り替えようとしましたが、入力すべき追加の指示を飛ばしたため失敗しました」直接の原因はHDD故障かもしれないけど、こっちも問題ではw
  • アカマイのDDoS対策サービスが誤ってオーストラリアの銀行他をダウン | Data Center Café

    6月17日、Akamai(アカマイ)の Prolexic サービスが裏目に出ました。 Prolexic サービスはオンライン攻撃を防御するのではなく、オーストラリアとニュージーランドの銀行、航空会社、郵便局などの主要顧客をダウンさせてしまいました。 Prolexic はアカマイのコンテンツ・デリバリー・ネットワーク(CDN)上で動作し、分散型サービス拒否(DDoS)攻撃からの保護を目的としています。6/17の障害は、サイバー攻撃ではなく設定ミスによるもので、約500社の顧客に影響を与え、一部の顧客は4時間以上も障害の影響を受けました。障害の影響を受けたのは、コモンウェルス銀行、ASB、ANZ、ウェストパック、セントジョージ、ME銀行、マッコーリー銀行などです。また、ヴァージン・オーストラリア、米国の航空会社であるサウスウェスト航空、アメリカン航空、およびオーストラリア・ポストにも影響が及び

    アカマイのDDoS対策サービスが誤ってオーストラリアの銀行他をダウン | Data Center Café
  • fastlyのCDNで発生したシステム障害についてまとめてみた - piyolog

    2021年6月8日、fastlyのCDNサービスで障害が発生し、国内外複数のWebサイトやサービスに接続できないなどといった事象が発生しました。ここでは関連する情報をまとめます。 原因はソフトウェアの潜在的な不具合 fastlyより6月8日付で今回の障害の顛末が公開されている。 www.fastly.com 障害原因はソフトウェアの潜在的な不具合で特定状況下かつ顧客構成で発生する可能性があった。このソフトウェアは5月12日に展開が開始されていた。 6月8日早くにこの不具合を発生条件を満たす構成変更が顧客によって行われネットワークの85%がエラーを返す事態が発生した。サイバー攻撃の可能性は否定と報じられている。*1 障害は発生から1分後にfastlyに検知され、49分以内にネットワークの95%が復旧した。 今回の障害を受け、短期的には修正プログラムの早期適用、復旧時間の短縮、テスト時に不具合

    fastlyのCDNで発生したシステム障害についてまとめてみた - piyolog
  • Query Insights はいいぞ!SREのとあるデータベースのインシデント対応

    つい先日データベースの負荷が急激に上昇したのを気にレイテンシーが悪化し続けるインシデントがありました。その対応過程とCloudSQL Query Insightsがどのように役に立ったかまとめます。 こんにちは Typoが治らない @sakajunquality です Site Reliability Engineeringしてますか??ブーメランが突き刺さりそうなのでこれ以上やめておきます。 さて今日の内容ですが、先日とある理由で弊社のtoC向けサービスにアクセスが集中し(通常の数倍程度のトラフィック増加)、一時リクエストが捌けなくなるインシデントがありました。検知から対応までSREがどのように動いたか、またQuery Insightsがどのように役に立ったかまとめます。 インシデントの検知まず使用しているデータベースの負荷の上昇アラートが来ました。(残念ながらSLO低下やError B

    Query Insights はいいぞ!SREのとあるデータベースのインシデント対応
  • 「みずほe-口座」のデータ更新45万件が重なりメモリー不足、みずほ銀行システム障害

    みずほ銀行で2021年2月28日に発生したシステム障害を巡り、同行は3月4日、通帳を発行しない「みずほe-口座」関連のデータ更新処理が発端になったと明らかにした。定期預金関連で定例のデータ更新のほか、1年以上記帳がない口座を自動的にみずほe-口座に変更する約45万件の不定期処理が重なり、定期預金コンポーネントでメモリー容量不足が発生した。 みずほ銀行は2021年1月18日から、みずほe-口座の取り扱いを始めていた。それに関連し、2月下旬から3月上旬にかけて、1月末時点で1年以上記帳がない口座をみずほe-口座に段階的に変更する予定だった。2月28日はこうしたみずほe-口座への変更処理の約45万件に、定期預金の積み立てなど定例の処理も含めた合計で約70万件のデータ更新を予定していた。 この約70万件の処理でメモリー容量不足が発生。その結果、定期預金関連の取引ができなくなり、さらにピーク時で7割

    「みずほe-口座」のデータ更新45万件が重なりメモリー不足、みずほ銀行システム障害
    lizy
    lizy 2021/03/05
    「2月28日はこうしたみずほe-口座への変更処理の約45万件に、定期預金の積み立てなど定例の処理も含めた合計で約70万件」わざわざ処理の重なる日にやらなくても……
  • AWS障害、5時間でほぼ復旧 気象庁Webサイトなどに影響【各サービス復旧状況を追記】

    Amazon Web Services(米AWS)が提供するクラウドサービス「AWS」の東京リージョンで、2月20日午前0時ごろに障害が発生した。発生から約5時間がたった午前5時9分に同社は、障害の大部分を解消したと発表した。この影響でAWSを利用するオンラインゲームの一部などが利用しづらい状態に。また、気象庁の公式サイトが一時接続できない状態になり、同庁は復旧作業や関連性の調査を急いでいる。 追記 2021年2月20日午後4時 気象庁Webサイトは完全復旧 気象庁は、午前10時50分ごろに公式サイトの全ページが正常に閲覧できるようになったと発表した。原因は「同庁が利用しているクラウドシステムの障害」としており、同庁の担当者はこのクラウドシステムがAWSであることを認めている。 暗号資産取引所を運営するコインチェックは午前11時24分、同社の全てのサービスが通常通り利用できるようになった

    AWS障害、5時間でほぼ復旧 気象庁Webサイトなどに影響【各サービス復旧状況を追記】
    lizy
    lizy 2021/02/20
    通常はマルチAZで問題ないんだろうけど、アズレンぐらいになると1つ落ちると一気に過負荷になったりするのかな