[B! システム運用] rryuのブックマーク

家族アルバムみてねで直面してきた技術的負債 / MIXI KAG 2024

2024.3.22（金） SRE観点での技術負債懺悔会 2024 https://mixi.connpass.com/event/312191/

rryu 2024/03/23

OSのメジャーバージョンアップは色々なものが一気に変わるので本当につらい。

システム運用

リンク

システム保守運用を丸投げしてきたツケ、委託先がセキュリティー対応を拒否

数多くのモダナイゼーション案件をみてきた筆者の経験から、実際に起こり得る問題や葛藤を架空の事件簿として解説する本連載。今回は、20年以上アウトソーサー（委託先企業）にシステムを任せてきた大手小売業A社が、脱メインフレームプロジェクトに取り組んだ事例を紹介する。 A社は1980年代のシステム導入当初からメインフレームを利用してきた。そして1990年代後半。バブル崩壊後の経済低迷や「2000年問題」対応のためのアプリケーション修正、社員採用の抑制などが重なり、A社は苦しい状況に陥っていた。そこで、コスト削減と社員不足解消のために、インフラとアプリケーションについてはメインフレームメーカーが提供するアウトソーシングサービスを利用する契約に切り替えた。それから20年がたち、2020年に開催予定だった東京オリンピックに向けてクレジットカードのセキュリティーを強化することになった。そのためには、クレ

rryu 2023/09/28

結局委託先にPCI DSS対応を断られた理由が書かれていないが、インフラとアプリで保守が別会社になるという状況でアプリ側だけでPCI DSS対応するのは無理なので断られたのではないだろうか。

システム運用

リンク

サイバー事故に関しシステムベンダーが負う責任：医療DXを推進するために | 日本医師会総合政策研究機構

堤　信之＜概略＞数あるサイバー攻撃の中でも、特定の攻撃手法が既に広く世間に周知され、かつ実際に被害も頻発しているようなケースでは、当攻撃手法に関し、システムベンダーは医療機関等に対し、委託契約又は信義誠実の原則に基づく付随義務として、医療機関等が患者に対する安全管理義務を履行するために必要な情報を適時適切に提供する義務を負うと考えられる。従って、医療情報システムに設置されたFortinet製VPN装置（CVE-2018-13379）の脆弱性を突いたサイバー事故が医療機関に発生した場合、たとえ医療機関とシステムベンダーで締結したシステム保守契約において、当リスクにかかるシステムベンダーの情報提供義務が明記されていなかったとしても、当該装置の脆弱性に関する情報提供がなされていなければ、医療機関からシステムベンダーに対し、「信義誠実の原則」違反を理由に一定の責任を問える可能性がある。

rryu 2023/08/27

今後の課題と提言が「システムベンダーが全部責任を持つよう行政が指導して」「そうすると保守費が上がるから行政が補助して」という行政に全部丸投げの内容でひどい。

リンク

ソフトウェアはなぜバージョンアップしなければならないのか - Qiita

はじめに社内インフラの運用担当者にとってソフトウェアのバージョンアップは地味な割に大変な業務です。特に社内のオンプレサーバで動いているようなソフトウェアの場合、バージョンアップに伴う諸々の調整をそのソフトウェアを利用している各部署と行う必要があります。そんなときに「今は忙しいからバージョンアップを先送りしてほしい」「このバージョンはスキップしてもよいのでは？」なんて声が各部署から聞こえてきます。バージョンアップの価値を各部署に理解してもらうのは大変です。この文章はそんな時になぜバージョンアップしなければならないのかを上司や各部署のマネージャに伝えるために書きます。ソフトウェアの有効期限は2-5年まず、第一に、ソフトウェアというものは無限に使えるわけではなく、一定の有効期限があり、それを過ぎると徐々に動かなくなってきます。俗にいう「何もしてないのに動かなくなった問題」です。なぜ

rryu 2023/07/30

PHP製のアプリケーションがまさにこれで、5系から8系へのアップグレードは地獄だが、今5系が動く環境を用意するのも地獄という。

システム運用

リンク

わたしたちにIaCはまだ早かったのかもしれない

AWS Startup Meetup #13 LT 登壇資料です。 Infrastructure as Code（IaC）を導入したものの、IaC化した恩恵が思っていたより少なく、IaCで基盤を統一していく方針を転換していった話をご紹介します。

rryu 2022/12/17

IaCしようがしまいが構成図は必要という。結局コードだけでは全体像を把握するのが難しい。

システム運用

リンク

エンジニア一人しかいないとか言わないでほしいって言われた

そこそこの規模の業務用webシステムを一人で開発して運用してるんだけど、問い合わせ対応とか要望対応が一人でやるには多すぎてさばききれないので（当システムは一人で開発運用しているのでお問い合わせはできる限りメールでお願いします、電話はクリティカルな用件だけにしてください）ってことを周知しようとしたら会社上層部からストップがかかった。そんな事を言ったらシステムの信頼性を損なう開発者が少ないのがわかったら足元を見られるバックにたくさんいるように見えたほうが印象いいという理由らしい。そういうもん？（追記）ブックマークがたくさんついてびびった。ってことは、いろんな会社でこういうの結構あるんだね。「これ書いたの君でしょ」って言われて困惑する人があっちこっちにいたら申し訳ないわ。。

rryu 2022/11/11

そんな根幹部分にSPOFがあるシステムはちょっとという感じにはなる。詳細な理由は書かずに電話受付は終了しましたでいいような気がする。

システム運用

リンク

金融の基幹システムを1年半かけて.NET 6に移行した話

はじめに本稿は「.NET 6移行祭り！ C# Tokyo」イベントで発表した「金融の基幹システムを1年半かけて .NET 6に移行した話」の内容を文書化したものです。 [2022.08.28追記] さて、はじめにおことわりを。おもったより大きな反響があって、想定より多く読まれており、とくに正しく伝えられていない箇所があると思い、少し補足を入れました。ここで基幹システムといっていますが、金融の勘定系システムという意味ではありません。基幹システムというとCore Systemという意味（これは勘定システムでしょうね）と、Mission Critical Systemの2つがあると思います。本稿の対象は後者で、システムのお客様が、Mission Critical Systemと判断されて基幹システムとして扱われています。金融の勘定系とは規模や複雑性、クリティカルな度合も異なりますが、

rryu 2022/08/28

.NET6への移行コストの材料として、.NETのバージョンアップに対応する作業を定期的に発生させることで、課題だった担当メンバーの枯渇問題を解消できるとして説得したという話らしい。

システム運用

リンク

【懺悔】稼働中の本番DBで殆どのテーブルをtruncateしてしまった話 - Qiita

これは8年ほど前のある日のことです。本番環境のテーブルを淡々とtruncateし続けたことがあります。リリース前などではなく、稼働中のサービスでした。思い出せる限り、私のエンジニア歴において最大の「やらかし」です。「そんなミスありえないだろ…」「どんだけ迂闊なんだよ」という感想を持たれる方もいらっしゃるかと思います。むしろ、それが正常だと思います。しかし、当時の私はやってしまった。ただ、それでエンジニアをやめるようなこともなく、現在では人を指導する機会も増えました。どうしたらそんな事が起きるのか？その後、どのような対応が行われたのか？教訓はなにか？この機に記させていただきたいと思います。量産現場の社二病社員当時働いていた職場では、「同じような機能を持ったスマートフォンアプリ」を量産する部署がありました。私は、そこに配属されました。当時、新卒２年目。社二病真っ只中

rryu 2022/07/08

操作するサーバを間違えるとだいたい大事故になる。サーバ自体を間違える可能性は一度間違った経験者でないと意外と思い付かないものである。

システム運用

リンク

接続が途切れないストリーミングサーバの無停止アップデートを実装してみました - Mirrativ Tech Blog

こんにちはハタです。最近 SO_REUSEADDR / SO_REUSEPORT を使ったストリーミング配信サーバの無停止アップデート(Hot Deploy)を実装してみたので紹介したいなと思いますことの経緯 HTTPサーバによる Hot Deploy の仕組みストリーミング配信サーバへの応用 SO_REUSEADDR/SO_REUSEPORT を使った実装例 Hot Deploy の組み込み Hot Deploy 実装時に気をつけたことその後 We are hiring! ことの経緯ミラティブでは以前から何度か紹介したとおり自前の配信基盤設備を持っています。配信基盤のミドルウェアも内製であり、機能追加やライブラリの更新などがあるたびにミドルウェアのバージョンアップ作業(メンテナンス)も自社で実施していますストリーミング配信サーバといっても、何か特別な事はなく一般的なHTT

rryu 2022/02/05

音声は一瞬でも途切れるとノイズになるからgraceful restart的にするしかないかなと思ったらそんな感じだった。同一サーバでやろうとすると2バージョン起動しつつ接続を新しい方に寄せるという感じになる。

システム運用

リンク

みずほFG 坂井社長辞任へ相次ぐシステム障害で責任明確化 | NHKニュース

システム障害が相次いでいるみずほフィナンシャルグループに対して、金融庁は改めて業務改善命令を出す方向で最終的な調整をしています。こうした事態を重く見て、みずほグループと、傘下の銀行のトップが経営責任を明確にするため辞任する方向となりました。関係者によりますと、みずほフィナンシャルグループの坂井辰史社長は、一連のシステム障害の経営責任を明確にするため、再発防止の態勢が整った段階で辞任する意向を固めました。また、いったんは辞任に向けて調整が進んでいたものの、再発防止策を徹底するため職にとどまっていた傘下のみずほ銀行の藤原弘治頭取も辞任する方向です。みずほ銀行では、ことし合わせて8回のシステム障害が発生していて、9月には金融庁が再発防止に重点を置いた業務改善命令を出しています。その後も検査を続けた結果、関係者によりますと、金融庁は管理を含めたみずほの企業統治の在り方に問題があるという見方

rryu 2021/11/19

これでシステム運用の予算を削ると社長の首が飛ぶようなことが起こるという意識が広まればいいが…

システム運用

リンク

【独自】みずほ、新システム導入後に要員６割減らす…トラブル遠因になった可能性（読売新聞オンライン） - Yahoo!ニュース

システム障害を相次ぎ起こしたみずほフィナンシャルグループ（ＦＧ）が、新しい中枢システムを全面導入した後に担当の社員数を４割に減らしていたことが３０日、わかった。運用や保守・管理に関するノウハウが十分に引き継がれずトラブルの遠因になった可能性もあるとみて、金融庁はみずほ側に原因究明を求めている。【写真】１円玉を５００枚持ち込んでも預金額は「０円」…手数料の仕組み２０１９年に導入された中枢システム「ＭＩＮＯＲＩ（みのり）」の運用には、２１年３月末時点でみずほ銀行やみずほリサーチ＆テクノロジーズなどグループ会社で計４９０人が関わっている。全面稼働に向けた作業が本格化していた１８年３月時点の約１１４０人に比べて６割近く少ない。開発担当者らがグループ外向けの業務に配置転換されたとみられる。みのりは、預金や融資、決済といったサービスごとにシステムを構築する先進的な仕組みで、他の大手行のシステムよ

rryu 2021/08/31

三社横断の開発部門を解体してさらにFGの人員も削っている訳だから運用に金をかけないと大変なことになるということを身をもって証明している感じになっているという。

リンク

システム会社の一台のWebサーバー（Nginx）でのSSL証明書の更新作業の見積もりが20万円でした。ファイルをアップロードして再起動するだけですよね？ぼったくりだと思いますか？

回答 (14件中の1件目) ちょいちょいっと自分でできる人です。これまで20回以上作業しています。その上で適正価格だと思います。 SSL証明書は、ハマりどころが実に豊富です。 1. SSL証明書自体の取得方法がベンダーによってかなり違い、日本の組織の存在証明など奇天烈な方法を要求するものもある。Nginx Apacheなどサーバーによっても変えなくてはならない。 2. 提供された中間証明書をこちらで一つのファイルにまとめなくてはならず、どのようにバンドルするか、ベンダーからの情報だけでは自明ではないものも結構あってハマる 3. SSLのプロトコルは実に余計なものがたくさんありそ...

rryu 2021/07/29

初見のサーバが作業対象なら中身の調査と作業手順の作成が必要なので妥当だと思う。

システム運用

リンク

勘定系システムは塩漬けにすべきか、みずほ銀行・静岡銀行の大規模障害で揺らぐ選択

勘定系システムの刷新を巡り、銀行間で明暗が分かれている。全面刷新に踏み切ったみずほ銀行などで大規模システム障害が起きた一方、アプリケーションの刷新は一部にとどめ、システム基盤の更改を進めた銀行で目立ったトラブルは起きていない。移行コストやリスクを抑えるため「勘定系システムは塩漬けでいい」という声も強まるなか、その選択肢は果たして持続可能なのか。 2021年に入り、銀行で大規模なシステム障害が2件起きた。1つがみずほ銀行だ。2月28日、定期性預金システムのトラブルがATMに波及し、4000台以上のATMが稼働を一時停止した。ATMがキャッシュカードや通帳を取り込み、店舗などで数時間待たされた顧客も出た。しかも、それから2週間あまりで立て続けに別の3件ものシステム障害を起こし、金融庁は業務改善命令を出す方向で調整している。もう1つが静岡銀行だ。1月4日に他金融機関から同行宛ての振り込みの一部

rryu 2021/07/16

みずほの場合は新システム完成後に担当部署を解体して事実上塩漬けにしたせいで各部署が自分の担当範囲内で対処するしかなかった結果なので塩漬けの時点でダメだと思う。

システム運用

リンク

grepを忘れただけなのに - Qiita

去年も『本番環境でやらかしちゃった人のアドベントカレンダー』は盛り上がりましたね。知見が多く、関心しながら拝見しています。人は必ず何かしらミスを起こすもの。明日は我が身と思いながら、業務をこなす日々です。そんな私も業界に入って1年目(前々職)に、本番環境の洗礼にあったことがございます。当時は苦々しい思いをしましたが、その経験を供養するためにもここに残そうと思います。発生当時の状況事件当時、私はサーバのリプレイス案件にアサインしていました。その業務の中で上司に日常的に運用されているスクリプトの調査を依頼されました。私はまだ経験が浅かったため理解が合っているかは怪しいですが、関わっていたシステムは設計の段階で大分やっつけだったらしく、格納場所が間違っているスクリプトやログが散見されました。リプレイスを切っ掛けに整理をする予定だったと記憶しています。入ったばかりのペーペー

rryu 2021/04/07

人に見られながらやるとなるべくスムーズにやろうと慌てて普段しない失敗をしがちである。なのでそういうペア作業をぶっつけ本番でやってはいけない。

システム運用

リンク

はてなブログのキャッシュ周りをきちんと改善したら、アプリケーションサーバの台数を半分にできた話 - Hatena Developer Blog

はてなブログでSREをやっているid:cohalzです。 2019年12月頃からid:utgwkkやid:onkとともに、はてなブログにおけるキャッシュ周りの改善を行いました。その結果、次のような成果が得られました。ブログ記事のキャッシュヒット率が、1日平均で8％から58％に向上アプリケーションサーバの台数を、以前の半数以下に削減 DBに届くリクエスト数が、以前の3分の2まで減少レスポンスタイムの平均が、以前の8割まで減少この記事では、実際にどういった改善を行ったのか、その際に気をつけたことや大変だったことを紹介します。はてなブログがVarnishを導入した経緯と課題開発合宿をきっかけに問題が明らかになる進め方をまず考えるホストのメモリをできるだけたくさん利用するメモリを積んだホストでなぜかレイテンシが悪化キャッシュが分散しないようVaryヘッダを使うデバイス情報を適

rryu 2020/09/23

キャッシュヒット率平均8％ってほぼキャッシュできてないのでは…

システム運用

リンク

【Linux】インフラエンジニアの僕が「hostname」コマンドを使わない理由とは？ - Qiita

はじめに Linuxの運用監視～設計構築迄経験している僕が、「hostname」コマンドを基本的に使わない理由について書いていきたいと思います。今回の対象OS Linux系OS全般(RHEL/CentOS/Solaris等) そもそも「hostname」コマンドとは？ Linux系OSのホスト名を確認するコマンドになります。使い方は、こんな感じになります。

rryu 2020/08/10

hostnameコマンドは変更用のコマンドで確認用という認識は無かった。IPアドレス確認するのにこのコマンドを使うのか…

リンク

物理サーバーを稼働させたまま引っ越しさせた意外な方法がネットで話題に

ウェブサービスが障害などで利用できないダウンタイムは、できるだけ少ない方がサービスを提供する側にとってもされる側にとっても望ましいもの。しかし、物理的なサーバーの移動といった作業は、電源を切ってダウンタイムを生じさせなければ困難にも思えます。そんなサーバーの物理的な移動を「ダウンタイムゼロ」で達成したという記事が海外掲示板のRedditに投稿され、話題を呼んでいます。 [Rant... sorta] Physically moved a server today... : sysadmin https://www.reddit.com/r/sysadmin/comments/i3xbjb/rant_sorta_physically_moved_a_server_today/ [FAQ][Rant... sorta] Physically moved a server today... :

rryu 2020/08/09

電源とネットワークインタフェースが二重化されていなかったら初手で詰んでいるので最初からやる気満々だった感じもする。

システム運用

リンク

cakes（ケイクス）

cakesは2022年8月31日に終了いたしました。 10年間の長きにわたり、ご愛読ありがとうございました。 2022年9月1日

rryu 2020/07/23

神頼みのサービスレベル要求が高すぎるw

システム運用

リンク

デプロイ今昔 - Hatena Developer Blog

こんにちは。はてなのアプリケーションエンジニアの id:onk です。最近、若手エンジニアを中心に、いろいろな技術を見つめ直すワーキンググループをやっています。今回は、その中から「デプロイ」の会で発表されたことをまとめました（なお、私は会のとりまとめをやっている非若手です）。デプロイのライフサイクルの違い Infrastructure Platformでのデプロイ Application Runtime Platformでのデプロイ Applicationsのデプロイデプロイ方式はどのように変化してきたか In place から Blue/Green へ Immutable Infrastructure という考え方オートスケールへの対応 push 型デプロイと pull 型デプロイコンテナによるデプロイの現況コントロールプレーンによって何が変わったか ECS におけるデプロイ