タグ

Systemに関するhitoriyokozunaのブックマーク (117)

  • これから「みずほ銀行」に起こる、ヤバすぎる現実…システムの「爆弾」を誰も処理できない(週刊現代) @moneygendai

    今年8月に発生したみずほ銀行のシステムトラブル。実は19年前にもこれに似たケースが起こっていたことを【前編】『「みずほ銀行」のシステム障害はなぜ防げなかったのか…エンジニアを見下す「悪しき体質」』で報じた。多発する「システム障害」の爆弾を抱えた同行は今後どうなっていくのか…? 隠れていた「古の言語」 全体像の見えない「バベルの塔」と化したみずほのシステム。その成り立ちとは、どのようなものなのか。 過去に2度、みずほは大きなシステム障害を起こしている。1度目は前編でも触れた、'02年の3行統合に伴う混乱だ。 統合時、みずほは旧3行が使っていた複数の異なるシステムを生き残らせたまま、「ゲートウェイ・システム」と呼ばれる中継プログラムでそれらを繋ぎ合わせるという方針を打ち出した。 だが、この建て付けそのものに難があった。当時の事情を知るみずほ行員が言う。 「勧銀は富士通製のメインフレーム(大型コ

    これから「みずほ銀行」に起こる、ヤバすぎる現実…システムの「爆弾」を誰も処理できない(週刊現代) @moneygendai
  • 東証、障害の原因を特定 「自動切り替えできない設定値になっていた」

    東京証券取引所は10月5日、株式売買システム「arrowhead」(アローヘッド)で1日に発生した障害の原因を特定し、4日中に修正したと発表した。 障害は、ストレージ内でメモリ故障が起き、サブ機にも切り替わらなかったことが原因。メモリ故障による障害が起きた際、自動切り替えできない設定値になっていたという。 arrowheadのユーザー情報などを格納するストレージ「共有ディスク装置」の1号機に搭載されたメモリが故障したことに起因。1号機が障害を検知すると、切り替え用設定値に従って自動で2号機に切り替わるはずが、切り替わらなかった。 調査したところ、メモリ故障が原因の障害パターンが発生した際、自動切り替えできない設定値になっていたという。設定値を変更すれば、自動切り替えできることが判明。4日にシステムに適用し、自動切り替えが動作することを確認したという。 稼働前のテストでは、1号機と2号機相互

    東証、障害の原因を特定 「自動切り替えできない設定値になっていた」
  • システム障害の本のカット「重大障害時におけるCIOの取組み(悪い例)に「あらゆる闇」が内包されていた…見た人「あれ、俺、なんで泣いてるんだろう」

    良太郎 @ryota_hnk 自称インフラエンジニアgoogleなけりゃタダの人。 普段はNew Relicという会社で働いてます。headtonirvana.hatenablog.com qiita.com/ryota_hnk lapras.com/public/2ZM2JJP

    システム障害の本のカット「重大障害時におけるCIOの取組み(悪い例)に「あらゆる闇」が内包されていた…見た人「あれ、俺、なんで泣いてるんだろう」
    hitoriyokozuna
    hitoriyokozuna 2020/09/20
    もうちょっとオドロオドロしく、地獄絵図っぽく描いてみようか。会社、やめたくなる。
  • メインフレーム、無停止サーバ、クラウドにおける信頼性 - ブログなんだよもん

    「メインフレームの異常処理」という記事が話題になってましたがとても面白かったです。 qiita.com せっかくなので自分が知ってる範囲で各システムの信頼性における考え方を書いてみました。特にシステムが死んでも仕掛かり中のプロセスが正常完了する事を「無停止システム」としてフォーカスしています。 詳しいわけじゃないからあまり詳しくは話せないので、指摘とか頂けると嬉しいです メインフレーム HPE NonStopサーバ Stratus FT Server オープン系: クラスタ オープン系: 負荷分散(シェアードナッシング) クラウド/仮想環境: Live Migration ソフトウェア: Jakarata EE/EJB ソフトウェア: Oracle RAC ソフトウェア: Erlang/OTP ソフトウェア: Cloudで良くありそうなMSAや非同期キューをベースとした無停止デザイン まと

    メインフレーム、無停止サーバ、クラウドにおける信頼性 - ブログなんだよもん
  • Netflix 驚異的なトラブル対応 カオスエンジニアリングとは、何か?

    Netflix面白いですね。 何と言ってもオリジナルドラマのクオリティが高い。 最近では、「DEVILMAN」、新しく始まった 「ブラックライトニング」、次シリーズが待ち遠しい「ルシファー」、セカンドシーズンが始まった「スタートレック・ディスカバリー」、「Godless (ゴッドレス-神の消えた町)」も興味あるし、MARVELのヒーローたちの次シーズンも楽しみです。 ドラマとは思えないほどのクオリティと変なスポンサーのご機嫌取りをしている昨今の映画より素晴らしい。 何より、2時間前後の制約がないため脚に無理がない。 と冒頭から熱く語ってしまったわけですが、 今回の「小僧の教えてIT」では、膨大な作品を世界中に配信しているNetflixのシステム面での凄さをお伝えいたします。 題して「Netflixの驚異的なトラブル対応 カオスエンジニアリングとは、何か?」 今回も小難しい専門分野をやさし

    Netflix 驚異的なトラブル対応 カオスエンジニアリングとは、何か?
    hitoriyokozuna
    hitoriyokozuna 2019/02/16
    レイテンシーモンキー、地味に怖い。
  • システム移行中のみずほ、一部ATMでトラブル発生するもリスク分散で回避か : 市況かぶ全力2階建

    のぞみ全車指定のJR西日、「お乗りになってから初めて自由席がないことにお気付きのお客様」とつい煽ってしまう

    システム移行中のみずほ、一部ATMでトラブル発生するもリスク分散で回避か : 市況かぶ全力2階建
    hitoriyokozuna
    hitoriyokozuna 2018/06/19
    人ごとだけど、なんか泣ける。
  • How to use the FIM/MIM Azure Graph Management Agent for B2B Member/Guest Sync between Azure Tenants - darrenjrobinson - Bespoke Identity and Access Management Solutions

  • 関係が泥沼化、京都市が7億5000万円請求するもIT企業は支払い拒否

    京都市が進めていたシステム刷新の稼働が遅延している件で、京都市とシステム開発を受託したシステムズ(東京・品川)の関係が泥沼化している。京都市は開発遅延の責任を巡って2017年10月12日、システムズに対して10月27日までに約7億5000万円の損害賠償を支払うことを求めていた。ところがシステムズはこの支払いに応じなかったことが、日経コンピュータの取材で分かった。京都市とシステムズともに、訴訟に発展する可能性を否定していない。 京都市の情報システム部門に相当する総合企画局情報化推進室は2014年から81億円を投じて、基幹系システムの刷新プロジェクトを進めてきた。この基幹系システムは、国民健康保険や介護保険といった福祉系のほか、徴税、住民基台帳の管理など18業務を担うもの。NEC製メインフレーム上にCOBOLプログラムで構築したシステムで、稼働後約30年が経過している。 福祉系のオンラインシ

    関係が泥沼化、京都市が7億5000万円請求するもIT企業は支払い拒否
    hitoriyokozuna
    hitoriyokozuna 2017/11/04
    泥試合の様相…。
  • IT土方に激震、AI技術者なら年収5000万円もザラの時代突入。今すぐPython勉強するしかないだろこれ : IT速報

    AI人材の報酬が凄まじいと話題。高度な技術を要するために人材不足であり、年収5000万などの超高額報酬で引く手あまただという。 驚くほどの給料を支払っている 業界の大手企業は人工知能に大きく懸けており、顔認証のスマートフォンや対話型スピーカーから、医療のコンピュータ化や電気自動車まで、さまざまなものへの応用に期待を寄せている。こうした未来を描く中で、これまで最高の人材には堂々と惜しみなく大金を提供してきた大手企業も、さらに驚くほどの給与を支払い始めている。 大学で博士号を取得したばかりの人や、それほどの学歴がなく仕事の経験も数年程度の人であっても、AIの専門家であれば年間30万~50万ドル(約3300万~5500万円)、あるいはそれ以上の給与と会社の株式を手にすることができる。この数字は、大手テクノロジー企業に勤める人、あるいはそうした企業から仕事の誘いを受けた人、合計9人に話を聞いた結果

    IT土方に激震、AI技術者なら年収5000万円もザラの時代突入。今すぐPython勉強するしかないだろこれ : IT速報
    hitoriyokozuna
    hitoriyokozuna 2017/11/03
    日銭稼ぐのに心血注いでいる我が身が情けないなぁ…。でも現実はそんなもん。
  • 【悲報】三井住友銀行のATMが日本全国でダウンする大規模障害発生 : IT速報

    三井住友銀行のATMが日全国で使えなくなってしまったと話題に。復旧の目処は立っていないという。 追記:公式発表 一部ATM等の不具合について 日、ネットワーク機器の不具合により、一部のATM等でお取り引き頂けない事態が発生しました。 既に復旧しておりますが、お客さまにご不便・ご迷惑をおかけし、深くお詫び申し上げます。 現在、原因等の詳細の確認を行っており、再発防止に向け、取り組んで参ります。 http://www.smbc.co.jp/information0818.html 待って三井住友全滅やねんけど 会社帰り寄って無理やったから住道しよー思って来たのに意味なかったし 聞いたら全国のATMがやられてるらしい(笑) なんか西日の落雷でやってw これはもー終わったな pic.twitter.com/yZaJs7Gkep — ★極士☆卍地車馬鹿卍 (@JntM611) 2017年8月1

    【悲報】三井住友銀行のATMが日本全国でダウンする大規模障害発生 : IT速報
    hitoriyokozuna
    hitoriyokozuna 2017/08/19
    他所さんの障害記事にすぐ食いついてしまう、我が身のあさましさよ…
  • オレオレ認証局の作り方~SSL証明書を無料で作る方法 on CentOS 5 - OPTPiX Labs Blog

    ウェブテクノロジのサーバやネットワークのお守りをしている yone です。今後、社内で実際に使っているソフトウェア・設定・構成などの豆知識のご紹介をしていきたいと思っています。巷にある情報の再掲になりますが、実稼働事例の一つとしてご参考になれば幸いです。 1. お金のかかる証明書は要らない HTTPS を使ったウェブサイトを立ち上げるとき、SSL サーバ証明書屋さんからサーバ証明書を購入するのが普通です。 ところが、会社内や特定のメンバー内だけで利用するサーバであれば、必ずしも証明書屋さんから証明書を購入する必要はないのです。 今回は、証明書屋さんから買わずに自前で証明書屋さんを作って自前で証明書を発行し、HTTPS サイトを立ち上げる方法をご紹介します。 その証明書の正式名称は、自己署名証明書ですが、稿ではオレオレ証明書と表記することにします。(笑) 試しに、「オレオレ証明書」で検索し

    オレオレ認証局の作り方~SSL証明書を無料で作る方法 on CentOS 5 - OPTPiX Labs Blog
    hitoriyokozuna
    hitoriyokozuna 2017/05/13
    いつか使うかも。
  • マニュアルや手順書を作るだけでは新たな暗黙知になってしまう

    属人化したノウハウを整理し、誰でも使えるようにするには、「暗黙知」を「形式知」化するプロセスが必要となる。 製造業を中心に技術伝承ソリューションを提供する富士ゼロックスは、一橋大学の野中郁次郎氏と竹内弘高氏らが提案したナレッジマネジメントのフレームワーク「SECI(セキ)モデル」に準じて、暗黙知を形式知に転換する手法を採用している(図A)。 個々の作業者は、「異物が付着する」といったトラブル事象にどのように対応しているかを、プロセス図を描いて整理していく。やり方は人によって異なるため、いったんノウハウを形式知化したうえで、技術スタッフが集約して大きなプロセス図にまとめる。 作業者を交えて、それぞれのやり方の効果や実現性を判定する。このとき、他の方法も加えてプロセスの抜け漏れをなくしていく。構造化を行ったうえで再び作業者に効果的な手法をフィードバックする。 形式知の保管場所が暗黙知化するジレ

    マニュアルや手順書を作るだけでは新たな暗黙知になってしまう
  • TechCrunch

    Reliance is nearing a deal to acquire Disney’s India business, according to a report, as Mukesh Ambani’s oil-to-telecom empire eyes broadening digital and television assets. Disney values Dating app users will often sit with friends as they swipe through their matches in order to gain feedback, or even hand over their phone and let their friends swipe for them. Now, that real-life expe

    TechCrunch
    hitoriyokozuna
    hitoriyokozuna 2017/03/01
    仕事が早いな。
  • なぜ「システムが無事に動いている」ことの価値は理解されないのか

    最近はあまり技術的な仕事をしていないんですが、実は私は元々DBエンジニアです。 OがつくDBとか、PがつくDBとか、mがつくDBとかをいじくって、クエリを書いたり、テーブルの設計をしたり、パフォーマンスのボトルネックをあれこれ調べて解消したり、INDEXヒントを総とっかえして頑迷なオプティマイザをぶん殴ったりすることが主なお仕事でした。今でもたまーにそういうことをします。 同業の方であればお分かりかと思うんですが、DBのパフォーマンスは凄く唐突に、かつ多くの場合極端に落ちます。そして、DBのパフォーマンスが落ちると物凄く広範囲に影響が及びます。 アプリケーションサーバ、重くなります。クライアント、ろくに動かなくなります。お客様、切れます。カスタマーサポートにはわんさか電話がかかってきます。 ただ「遅くなる」だけでも十分に影響は甚大なのですが、それ以上のトラブルが発生するとまあエラいこっちゃ

    なぜ「システムが無事に動いている」ことの価値は理解されないのか
    hitoriyokozuna
    hitoriyokozuna 2017/02/08
    当たり前のように365日ネットがつながり、ATMから現金が引き出せ、コンビニでお買い物ができる社会、奇跡じゃないですか。インフラエンジニアの屍の上にその便利な生活がある…そう思うと胸熱です。
  • Microsoft AzureのAzure DNSが引き起こした大規模障害、原因はネットワークデバイスのバグ

    Microsoft AzureのAzure DNSが引き起こした大規模障害、原因はネットワークデバイスのバグ マイクロソフトのクラウドサービスであるMicrosoft Azureは9月15日にDNSの障害をきっかけにAzure SQL Database、Azure Backup、Visual Studio Team Searvice、Redis Cacheなどをはじめとする多数のサービスに障害が発生、可用性が低下するなどの現象を引き起こしました。 マイクロソフトはこの大規模障害について「Azure status history」のページに9月15日付「Azure Services - Service Interruptions in Multiple Regions」で詳しい報告を書いています。内容をまとめました。 この障害は9月15日11時18分(世界協定時)には現象が確認され、約1時間

    Microsoft AzureのAzure DNSが引き起こした大規模障害、原因はネットワークデバイスのバグ
  • Z会、障害で受講受付を停止--1月稼働の新システムに不具合

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 通信教育を手掛けるZ会が、システム障害により、幼児から高校受験まで幅広く新規受講申し込みの受付を停止している。また2月開校の中学受験コースなどで実施する予定である、生徒の学力などに応じた教材の配布やタブレットへの配信も、現在はサービス内容とは異なる教材で対応している。原因の究明と復旧に向けて準備中とのこと。 ZDNet Japanの取材によると、システム障害が起きたのは、生徒の状況に応じた個別の教材を構成し、紙への印刷やタブレットに配信するためのシステム。生徒の学力や苦手分野などに応じて教材をパーソナライズする形で振り分ける。 教材のパーソナライズ化自体には以前から取り組んでいたが、1月中旬に新たなシステムを稼働させていたという。 この

    Z会、障害で受講受付を停止--1月稼働の新システムに不具合
    hitoriyokozuna
    hitoriyokozuna 2017/01/31
    復旧四月って…。どんだけ…。
  • CPU使用率100%のWebサーバをOSのチューニングだけでCPU使用率20%まで改善する - 人間とウェブの未来

    こんばんは、 @matsumotoryです。 hb.matsumoto-r.jp 上記エントリにおいて、プロセスの大量メモリ確保に伴うページテーブルサイズとベージテーブルエントリ数の肥大化によるcloneやexecveの性能劣化とCPU使用時間の専有問題、および、それらの解決方法についてシステムコールレベルで確認しました。 そこで今回は、システムコールやそのカーネル内部の処理の性能、というよりは、より実践的な環境であるApache httpdとmod_cgiを用いて、phpinfo()を実行するだけのCGIに対してベンチマークをかけた時にどれぐらいCPUのidleが空くか、システムCPUの使用量が変わるかを、前回示した解決方法の1つであるHugePagesを使うかどうかの観点で比較してみましょう。 特定条件下のWebサーバ環境のシステムCPUに起因する高負荷問題から、システムコールやカーネ

    CPU使用率100%のWebサーバをOSのチューニングだけでCPU使用率20%まで改善する - 人間とウェブの未来
    hitoriyokozuna
    hitoriyokozuna 2016/07/23
    いまじゃバケモンのように性能のいいマシンがそこそこのお値段で調達でちゃう。たまにゃこういう記事読んでアタマつかわにゃね。
  • 全日空システム障害の原因は?評論家は相変わらず何もわかってない! | IT虎の穴

    ※ANAの記者会見にて原因が発表されました。原因について追記してます。 全日空のシステムトラブルで連休開けの空港はまさに混乱状態だったみたいですね。 全日空では、22日午前8時20分ごろからシステムトラブルのため、羽田や大阪、それに福岡など各地の空港で、国内線の搭乗手続きができなくなりました。 このため一部の便が欠航したり、出発便に遅れが出たりしていましたが、復旧作業を進めた結果、全日空によりますと午前11時半すぎにシステムが復旧し、順次、搭乗手続きを再開しているということです。全日空は「ご迷惑をおかけし申し訳ない」と話しています。 全日空では先月24日にも同じシステムがダウンし、全国の空港で30分間、搭乗手続きができなくなるトラブルが起きています。 全日空によりますと、システムトラブルのため、午後1時40分現在、羽田を発着する便など合わせて116便が欠航し、およそ1万5000人に影響が出

    全日空システム障害の原因は?評論家は相変わらず何もわかってない! | IT虎の穴
    hitoriyokozuna
    hitoriyokozuna 2016/03/25
    「復旧しても終わらないシステム障害」…泣けてきます。
  • 障害の事後分析を読んで得た教訓 ― 「何がシステムを停止させるのか?」 | POSTD

    私はポストモーテム(事後分析)の記録を読むのが大好きです。ポストモーテムを読むと勉強になりますが、大抵の教材的資料とは違って、興味深いストーリーが含まれているのです。相当な時間をかけてGoogleMicrosoftのポストモーテムを読みました。大きな障害を招く最大の原因について、私は(まだ)きちんと分析していませんが、何度も繰り返し目にするポストモーテムのパターンがいくつかあります。 エラーハンドリング 適切なエラーハンドリングのコードを書くのは難しいものです。エラーハンドリングのコードに含まれるバグは、 大きな 問題を引き起こす主な原因となっています。つまり、エラーによってバグのあるエラーハンドリングのコードが実行されるということは、単に個々のエラーが重なるだけという事態にはとどまらないのです。障害が重なって重大なシステム停止につながることはよくあります。それはある意味明らかなことで、

    障害の事後分析を読んで得た教訓 ― 「何がシステムを停止させるのか?」 | POSTD
  • TechCrunch

    U.S.-based cybersecurity giant Malwarebytes today launched ThreatDown, a new brand that encompasses its business software portfolio and B2B-focused unit, the company confirmed to TechCrunch. Earlier t

    TechCrunch