タグ

障害に関するrjjのブックマーク (7)

  • “LLM for SRE“の世界探索 - ゆううきブログ

    ChatGPTが登場した当初、対話や要約、翻訳、コード生成などの典型的な言語タスクができても、SREやAIOpsの研究開発にはあまり関係ないのではないかと正直思っていた。AIOpsでは典型的にはいわゆるObservabilityデータ(メトリクス、ログ、トレースなど)が入力となるため、自然言語ではなく数値のデータを解析することが求められる。自然言語のタスクを研究対象としていなかったため、AIOpsとChatGPTに強い関係性は見いだせなかった*1。 しかし、自分で大規模言語モデル(Large Language Model: LLM)を日常的に使用したり、表題にあるようにSREのためのLLM(LLM for SRE, LLM4SRE)に関する論文を読むうちに、LLMのテキスト生成器としての性質よりもその優れた推論機械としての性質に注目するようになった。特にSREの障害診断は、人間の専門家が推

    “LLM for SRE“の世界探索 - ゆううきブログ
    rjj
    rjj 2024/03/22
    良サーベイ。過去のインシデント履歴から原因予測する手法はコレジャナイ感が強い。未知の障害に対して一歩一歩仮説とデータを積み重ねて原因を追い詰めていくエージェントベースの手法に期待する。
  • すべてのフェーズでミスが重なった ―全銀ネットとNTTデータ、全銀システム通信障害の詳細を説明 | gihyo.jp

    すべてのフェーズでミスが重なった ―全銀ネットとNTTデータ⁠⁠、全銀システム通信障害の詳細を説明 全国銀行資金決済ネットワーク(以下、全銀ネット)とNTTデータは12月1日、2023年10月10日~11日にかけて全国銀行データ通信システム(以下、全銀システム)で発生した通信障害に関する報道関係者向けの説明会を開催しました。件についてはNTTデータが11月6日に行った途中経過報告の内容をもとにレポートしましたが、今回、全銀ネットとNTTデータが揃って会見を行ったことで、より詳細な障害の原因が判明したので、あらためてその内容を検証してみたいと思います。 説明会の登壇者。左から、全銀ネット 企画部長 千葉雄一氏、事務局長兼業務部長 小林健一氏、理事長 辻松雄氏、NTTデータ 代表取締役社長佐々木 裕氏、取締役副社長執行役員 鈴木正範氏 なお、全銀ネットとNTTデータは、今回の障害に関して金融

    すべてのフェーズでミスが重なった ―全銀ネットとNTTデータ、全銀システム通信障害の詳細を説明 | gihyo.jp
    rjj
    rjj 2023/12/06
    面白すぎる。valgrind的なメモリチェッカーが効くケースだったのか?運用時に破損したインデックスを読んだと検知できたのはどういう仕組みか?SEGV?検知できたならエラーパスには行けなかったのか?等などが気になる。
  • 全銀ネット障害、いまだ根本原因特定できず メモリ不足の指摘には「分からない」

    全国銀行協会(以下、全銀)は10月18日、銀行間の送金を行う「全国銀行データ通信システム」(全銀ネット)で10日から11日にかけて発生した障害について会見を行い、現状を説明した。未だに根的な原因は特定できず、暫定的な“代替対応”のまま運用しているという。 不具合はシステムのリプレース直後に発生した。全銀は7~9日の3連休を利用し、加盟14銀行の中継コンピュータを「23シリーズ」と呼ぶ新機種に更新した。それまでの「17シリーズ」は各機関に設置していたが、今回は全銀センターに集約して運用する形にした。 9日までに製品単体試験から相互運転試験までいくつもの試験を行っていたが、不具合は見られなかったという。 しかし10日午前8時30分。システムが通信を始めると、10行の中継コンピュータで電文の送受信ができなくなった。りそな銀行や三菱UFJ銀行などで他行宛の振込取引ができない状態になった。 バック

    全銀ネット障害、いまだ根本原因特定できず メモリ不足の指摘には「分からない」
    rjj
    rjj 2023/10/19
  • GitHub - danluu/post-mortems: A collection of postmortems. Sorry for the delay in merging PRs!

    A List of Post-mortems! Table of Contents Config Errors Hardware/Power Failures Conflicts Time Database Uncategorized Other lists of postmortems Analysis Contributors Config Errors Allegro. E-commerce site went down after a sudden traffic spike caused by a marketing campaign. The outage was caused by a configuration error in cluster resource management which prevented more service instances from s

    GitHub - danluu/post-mortems: A collection of postmortems. Sorry for the delay in merging PRs!
    rjj
    rjj 2022/04/05
  • AWSでAZ障害が起きたので困ったことを書いておく - なんかかきたい

    前にも似たようなこと書いたなと思ったけどもう一年半も前のことになるのか t-cyrill.hatenablog.jp ご存知の通り昨日 2021/02/19 23:20頃 AWSにて東京リージョンの一つ apne-az1 にて大規模な障害が発生。多くのAWSを利用していたサービスで影響があった。 そんな私はいつものように アラストリリィ アサルトリリィ ラストバレット というゲームを呑気にプレイしていたのだけど、23:25 から緊急メンテに入ってしまった。 どうしたんだろうと思っていたら、社内SlackにてAWSを利用しているサービスがたまに応答しなくなる、Elasticacheが切り替わったなどなどの報告が入り、もしかすると面倒ごとかなと思いながら対応することになった。 起きていたこと 既にAWSからも公開されていることであるが、今回は2019年8月に起きた障害と類似するタイプの障害だっ

    AWSでAZ障害が起きたので困ったことを書いておく - なんかかきたい
  • 東京証券取引所様の株式売買システム「arrowhead」で発生した障害の原因と対策について : 富士通

    2020年10月19日 富士通株式会社 東京証券取引所様の株式売買システム「arrowhead」で発生した障害の原因と対策について 日、株式会社東京証券取引所(以下、東京証券取引所)様より、さる10月1日に発生した東京証券取引所様の株式売買システム「arrowhead」の障害に関しての発表がありました。 東京証券取引所様、ならびに投資家の皆様、市場関係者をはじめ多くの皆様方に多大なるご迷惑をおかけいたしましたこと、あらためてお詫び申し上げます。 下記のとおり、障害の根原因および当社の品質保証体制の強化について、ご説明させていただきます。今後こうした事態を二度と起こさぬよう、再発防止に向け、全力を挙げてまいります。 記 東京証券取引所様の株式売買システム「arrowhead」障害の根原因について (1)発生事象について 東京証券取引所様に共有ディスク装置として納入した当社ストレージ製

    東京証券取引所様の株式売買システム「arrowhead」で発生した障害の原因と対策について : 富士通
    rjj
    rjj 2020/10/20
    これ、英語版はどこ?
  • 東証、障害の原因を特定 設定値に不備、切り替え失敗

    取引所グループは同日、調査結果を踏まえ、再発防止策などを検討する調査委員会を設置した。委員長の久保利英明弁護士をはじめ、4人の社外取締役で構成する。 関連記事 東証、10月2日は通常通りの売買へ システム障害を起こし全銘柄の売買を停止していた東京証券取引所は、明日、10月2日は通常通り売買を行うと発表した。 東証のシステム障害、解消は「明日以降」 「バックアップへの切り替え」で異常 東京証券取引所が、システム障害について「明日以降、正常な売買ができるよう対応している」と発表した。 東証にシステム障害 終日、全銘柄売買停止に【更新】 東京証券取引所は10月1日、相場情報に障害が発生したため、朝から全銘柄の売買を停止している。1日は終日売買停止となる。復旧については未定。 “東証を変えた男”が語る、金融業界の伝説「arrowhead」誕生の舞台裏――“決して落としてはならないシステム”がで

    東証、障害の原因を特定 設定値に不備、切り替え失敗
    rjj
    rjj 2020/10/06
  • 1