UEHARA, TetsutaroProfessor at Colledge of Information Science and Engineering, Ritsumeikan University
この1度目のシステム障害を、対応ベンダのうちの1社として見ていた者です。 確かに、ここまで掘り下げるのは大変だったでしょう。しかしながら、例えば、実務レベルの暗闘や困惑は 不十分というか、日経という立ち位置からか書かれていません。 私自身は別プロジェクトに居ましたが、ATM系の開発を社(当時)が請け負っており、そのマネージャーが 懇意の同僚でした。彼は、オブザーバとしてながら、実際の実務レベルミーティングに参加していたのです。 真の原因は、統合するシステムそのものの設計書・仕様書レベルで、負け組(=新システム開発に乗れな かったカイシャ)が、意図的なイヤガラセで、「現状」の仕様や設計を開示しなかったことにあります。 システムというのは、使えば必ず手直し(所謂、バグだけでなく、法律改正に対応する修正もあります)が 多々発生します。都度、「その場しのぎのパッチ当て」から「キチンと予算を組んだ修
(追記1:2016/7/11 7/7以降のブログ記事などを追加) (追記2:2016/11/24 延期発表の記事を追加) こんばんは。SE兼PM見習いです。 例のみずほ銀行の次期システム開発が話題になってますね。 blog.livedoor.jp blog.livedoor.jp 毎年この時期に、みずほ案件がグダグダだよね、という情報が出てくるのはもう恒例行事となってますが、開発工程終盤を迎えていよいよヤバイ状況が隠しきれなくなっているようです。 趣味が悪いと言われますが、デスマウォッチャーでして、特にこのみずほ銀行案件をウキウキとウォッチングしているのですが、ここでブックマークしている過去の情報を時系列に振り返ってまとめてみたいなと思います。 2002年〜合併時のシステム障害〜 次期システム案件の話に入る前に、みずほ銀行合併時の大規模システム障害に触れておく必要があります。 https:
同期処理が失敗した原因は、4台をつなぐスイッチの不具合。具体的には、スイッチが故障状態であるにもかからず、故障を知らせる「故障シグナル」を発信しなかった。国内線システムは故障シグナルを検知するとスイッチを予備機に切り替えるが、今回はその機能そのものを作動できなかった。 スイッチは完全に停止したわけではなく、「不安定ながらも動作していたようだ」(同)。そのため、DBサーバー間の同期は順次失敗し、停止していったと見られる。 ANA広報によると、スイッチは米シスコシステムズ製「Catalyst 4948E」という。「2010年6月の発売開始以降、世界で4万3000台、うち日本で8700台を販売しているが、今回の不具合は初めての事象と聞いている」(ANA広報)。なぜ「故障シグナル」が発信できなかったかは分かっていない。 1台での縮退運転を決断 4台の完全停止から37分後、ANAは1台のDBサーバー
サイボウズ・ラボの光成です。 今回は原因究明に半年以上かかったバグ調査の紹介をいたします。 弊社はクラウドサービスcybozu.comを提供しています。 クラウドサービスでは障害対策のためのデータバックアップやレプリケーションが必須です。 現在ラボの星野がメイン、私はサブとして弊社サービスでの利用を目指した次期バックアップシステムWalB(GitHub)を開発しています。 WalBは、ファイルシステムとdiskの間に入ってIOを全て記録するブロックデバイスとIOのログを管理するツールからなるシステムです。 詳細はリンク先をごらんください。 発端 去年はラボ内の開発環境でテストを進め、本社でテスト運用を開始するのが目標でした。 ところがラボでテストを開始して4カ月後の2015年4月、不正なlogpackが検出されました。 logpackとはWalBで用いられるデータフォーマットの一つです。
Linuxシステムを管理している人には常識的なことだと思うけど、アプリケーションが使用中のポート番号を調べる方法についてのメモ。今日某プロジェクトの実験用マシンの設定をしていた最中、あるサービスを起動したら「address already in use.」というエラーメッセージが出てきて調べたので。 アプリケーションが使用中のポート番号は「lsof」や「netstat」コマンドで調べることができる。lsofは「lists open files」の略で、プロセスが開いているファイルを列挙するコマンド。 $ ps aux | grep zsh shin 1644 0.0 0.1 602692 2676 s000 S 1:09AM 0:00.12 -zsh $ lsof -p 1644 COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME zsh
人は誰しも、自分の慣れ親しんだ「やり方」で物事を進めたがるものだ。システム開発も、とかく「いつもの段取りで進めよう」となりがちである。むしろ、開発のような仕事であればこそ、いつもとは違うスタイルで臨むことに抵抗があるのかもしれない。 これは決して、間違った考え方ではない。会計でも人事でも、例えば業務パッケージシステムを開発するベンダーであれば、いかに確実に、そして効率的に開発を進めるかが重視される。だから、実績のある開発手法と計画を毎回順守すべきだろう。 また、毎月毎月、同じようなリニューアルを繰り返すサービスであれば、そのサービスを運営する事業部門も、従来とはなるべくやり方を変えずに、決まったタスクをこなす方が失敗の確率は下げられる。 しかし、である。 ITエンジニアには「これまでとは違うアプローチで開発すべし」と、勇気を出してビジネスサイドに提案しなければならないシーンが必ず訪れる。そ
みずほ銀行のATMに金取られた 録画人間の末路 http://blog.goo.ne.jp/krmmk3/e/040c91fffb75222783d676c09b99f8b0 みずほ銀行のATMに金取られた。何度も数えた1万円札50枚、50万円入れたのに48万円と表示され、取り消しても48万円しか戻ってこない。我が店はこれで3度目。いずれも「入れた金額-2万円」にしかならず、これで一ヶ月半の間に6万円も取られた。 こんな記事が話題になっていましたが、もし事実だとしたら日本の社会システムが大混乱に陥るレベルということを書いた人は自覚されているのでしょうか。 この手の事は世界でもダントツに正確・緻密に処理する日本において、ATMがお札を頻繁に数え間違うなんてのは世界を揺るがすほどの大事件なわけです。誇張じゃないですよ、そのくらい先進国のATMが日常茶飯事的にお札を数え間違うというのはとんでもな
政府システム調達における失敗の典型例が、特許庁の基幹系システム刷新プロジェクトだ。5年がかりで臨んだが、結局は55億円を無駄にしただけ。新システムは完成しなかった。失敗の最大の要因は、発注者である特許庁にあった(図1)。関係者の証言から、失敗に至る経過を改めてひもとく。 特許庁は2004年、政府が打ち出した「業務・システム最適化計画」に沿って、特許審査や原本保管といった業務を支援する基幹系システムの全面刷新を計画した。システムアーキテクチャーに詳しい情報システム部門のある職員(以下A職員)と、刷新の「可能性調査」を担ったIBMビジネスコンサルティングサービス(現・日本IBM)を中心に、調達仕様書を作成した。 業務プロセスを大幅に見直し、2年かかっていた特許審査を半分の1年で完了することを目指した。度重なる改修によって複雑に入り組んだ記録原本データベース(DB)の一元化に加え、検索や格納など
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く