タグ

ITSMに関するJohn_Kawanishiのブックマーク (67)

  • 完璧な監視システムの作り方 in cybozu.com - Cybozu Inside Out | サイボウズエンジニアのブログ

    こんにちは、Hazama チームの萩原(@hagifoo)です。 ハードウェアは故障し、ソフトウェアにはバグがあり、運用ではミスがおきるもの。もちろん、障害が発生しないのが理想ですが人間が作ったものに完璧はありません。そこで、障害の前兆や発生を捉え、その詳細を運用チームに知らせるための監視システムが必要となります。cybozu.com でも以下のようにありとあらゆるものを監視するシステムを構築し日夜監視を行なっています。 今回は、そんな cybozu.com の監視(モニタリング)システムについてお話しします。 cybozu.com と障害 監視システムの設計 3つの監視 外形監視 症状監視・リソース監視 ログ監視 その他の監視 モニタリングフレームワーク 誰が監視者を監視するのか? まとめ cybozu.com と障害 まずは、監視対象である cybzou.com について説明します。

    完璧な監視システムの作り方 in cybozu.com - Cybozu Inside Out | サイボウズエンジニアのブログ
  • Ansibleによる運用自動化について

    [構成] コントロールノード ターゲットノード [PC(Ubuntu)]------[RTX1210] 192.168.100.100 192.168.100.1 Ansibleのインストール Ansibleのインストール手順はOSや環境によって異なります。 公式ドキュメントなどを参考に、 AnsibleをインストールするPC(以下、コントロールノード)の環境に合わせて適切な方法でインストールしてください。 Ansibleネットワークモジュールでは、デフォルトでPython SSHクライアントライブラリの「paramiko」が必要になるため併せてインストールしてください。 インストール時は、コントロールノードがインターネットに接続できる状態であることを確認してください。 Collectionのインストール ヤマハのAnsibleモジュールはAnsible Galaxyでコレクションとして配

  • 書籍「まんがでわかるLinux シス管系女子」のシリーズ累計販売部数が4万部を突破

    株式会社クリアコード(社:埼玉県所沢市、代表取締役:須藤功平)は、クリアコード社員結城洋志が執筆した書籍「まんがでわかるLinux シス管系女子」のシリーズ累計販売部数が4万部を突破したことをお知らせします。 ■「まんがでわかるLinux シス管系女子」シリーズについて 「まんがでわかるLinux シス管系女子」はLinux・UNIX系シェルコマンドおよびシェルスクリプトを初級~中級者向けに漫画形式で解説した技術書シリーズです。日経BP社刊「日経Linux」誌上にて2011年より連載中の「シス管系女子」および「#!シス管系女子」をまとめたものです。 【シス管系女子公式サイト】 https://system-admin-girl.com/ ■クリアコードとの関わり クリアコードは社内研修・技術顧問などを通じて各社の技術力向上を支援しています。著者の結城もそのような技術支援業務に従事しており

    書籍「まんがでわかるLinux シス管系女子」のシリーズ累計販売部数が4万部を突破
  • リスクマネジメント - Wikipedia

    この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。(このテンプレートの使い方) 出典検索?: "リスクマネジメント" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL(2011年4月) リスクマネジメント(英語: risk management)とは、JISの定義では「リスクについて,組織を指揮統制するための調整された活動」である[1][2]。和文表記はリスク管理または危機管理(ききかんり)。 注意:規格の混在[編集] リスク管理関連は広範囲の分野が対象で、規格も複数存在する(参考 #規格の種類)。このため、「リスクマネジメント」の用語は複数の規格で設定され定義も異なる。さらに、出典の英語Wikipediaでも各規格の内容の混同した可

  • OSS監視ツールのLTS版「Zabbix 5.0」リリース、さまざまなサービスとの連携機能を標準搭載

    OSS監視ツールのLTS版「Zabbix 5.0」リリース、さまざまなサービスとの連携機能を標準搭載
    John_Kawanishi
    John_Kawanishi 2020/05/13
    pic.twitter.com/J94xubNN2n
  • 「海外21拠点を1人でサポートし3年間残業ゼロ」を実践したネットワーク監視の匠が語る「AIOps」の効果とビジョン

    海外21拠点を1人でサポートし3年間残業ゼロ」を実践したネットワーク監視の匠が語る「AIOps」の効果とビジョン:特集:AIOpsとは何か(3)(1/2 ページ) システムの安定した稼働を守ることが求められる「IT運用」の現場において「AIOps」による業務の自動化、効率化への関心が高まっている。商社のインフラサポートエンジニアとしての職務経験の中で、自ら機械学習を応用した遠隔サポートシステムを開発した園山淳也氏に「AIOps」の有効性や未来像を聞いた。 さまざまな領域で注目を集める、機械学習やディープラーニングなどを応用した「AI」と総称される情報処理技術。これらが、最も早く適用され始めているのが、これまで「人間にしかできない」とされていたような判断や作業を、高速かつ高精度に行う「自動化」の領域だ。ビジネスとITとの関係が不可分なものになり、ITの重要性が高まり続ける中で、システムの安

    「海外21拠点を1人でサポートし3年間残業ゼロ」を実践したネットワーク監視の匠が語る「AIOps」の効果とビジョン
  • 当社サーバーサービスに関する技術情報共有サイトへの投稿について | さくらインターネット

    お客さま各位 当社サーバーサービスに関する技術情報共有サイトへの投稿につきまして、当社サービスをご利用いただいているお客さまやお取引をいただいているお客さまをはじめ関係者の方々にご心配、ご迷惑をお掛けしていることを心よりお詫び申し上げます。 2012年に新規提供を終了させていただいております「専用サーバ」サービスにおきまして、2017年にサーバーの物理移設を含むメンテナンスを実施させていただいておりました。 その対応の中で、投稿記事に書かれている内容に合致するハードウェア故障とオペレーションミスに起因するサーバー停止が発生し、謝罪とともに障害報告書と再発防止策をご提示していたケースがございました。 投稿記事は2017年当時の当社の対応に関する内容で、現在までのお客さまに対するご案内やサポート対応がご期待に十分に沿うものではなかったと真摯に反省し、ご指摘を重く受け止めております。 今後につき

    当社サーバーサービスに関する技術情報共有サイトへの投稿について | さくらインターネット
  • 「さくらの専用サーバー」利用者がサポート対応の悪さをQiitaで暴露、その後記事がQiita運営によって非公開にされる | スラド IT

    Anonymous Coward曰く、 12月24日深夜、「ほんとうに怖い。さくらのレンタルサーバー」という記事がQiitaに投稿された。内容はさくらインターネットのサーバーレンタルサービス(さくらの専用サーバー)を10年ほど利用していたが、2年ほど前にさくらインターネット側でのデータセンター内でのサーバー移動作業が行われ、その際にトラブルがあったというものだ(Web魚拓)。 この記事の内容自体は実際に発生しそうなトラブルではあるものの、執筆者による一方的な内容であることから100%そのままは信じられない、という意見もある。しかし、25日昼頃に突然この記事が「業務妨害」という利用規約違反で閲覧できなくなった。さくらインターネットの中の人はこれに対し「例の記事が消えて社内が混乱中。誰が削除依頼したのか分からなくて。」という反応をしていたが、その後Qiitaが自主的にガイドライン違反だとして非

  • 今まで手作業でインフラ構築をしていた組織がAnsibleを使うときに気をつけて欲しいこと - Qiita

    この記事は Ansible 2 Advent Calendar 2019 24日目 の記事です。 自己紹介+この記事の説明 サーバーサイドのインフラの設計や構築周りをやっているあんでぃーと申します。 どちらかというと大手(?)SIerに勤めています。 弊社では、一昨年〜去年あたりから色々なプロジェクト(以下PJ)で「Ansibleを使いましょう」という指令が発射されるようになりました。 それまでのやり方はウォーターフォール型で、 Excel設計書作ってレビューして Excelで構築手順書を作ってレビューして 単体テスト仕様書を作ってレビューして 構築手順書と設計書を見ながら実機をカチャカチャして構築して 単体テスト仕様書と設計書を見ながら実機をカチャカチャして正しく構築されてることを確認して といった感じのまごころドリブンなやり方です。 まぁ複数人でシステムを作るにあたっては一般的(であ

    今まで手作業でインフラ構築をしていた組織がAnsibleを使うときに気をつけて欲しいこと - Qiita
  • 【魚拓】ほんとうに怖い。さくらのレンタルサーバー - Qiita

    ・ 10月04日 16時    x.com取得時のダイアログを非表示に変更しました     ウェブ魚拓は表示に必要なHTMLソースへの変更は可能な限り避 ...

    【魚拓】ほんとうに怖い。さくらのレンタルサーバー - Qiita
  • ホスティングサービスでのトラブルを考えてみる - orangeitems’s diary

    ホスティングサービスでのトラブル サーバーのホスティングサービスを提供することについて、事業者側の大変さは経験上分かっています。 分かったうえで、この文書のことを考えてみます。 qiita.com さくらで専用サーバーを10年ほど利用しています。 単体のハードを利用するもので、外部からの操作はsshでログインすることしかできないものです。 作業時間を必死に捻出して、こつこつと長期間システムを開発して何とか動作するものを作り上げていました。 さくらのレンタルサーバーを利用することは、ほんとうに危険で怖いことだとおもいます。 自分が体験したトラブルをレンタルサーバーの利用を検討している方々に共有させていただきたく初めて記事を書いてみました。 この文書がノンフィクションかどうかはわからないですが、ホスティングサービスには契約があり契約書があります。この状況について契約的にはどういうことが言えるか

    ホスティングサービスでのトラブルを考えてみる - orangeitems’s diary
    John_Kawanishi
    John_Kawanishi 2019/12/25
    「「移設等により各利用者が被った損害について、賠償する責任を負いません。」と記載されています。結構はっきり書いたな、という」「まずは利用開始前に契約をよく読むこと。其の上で自分の利用方法に基づいて適…
  • ほんとうに怖い。さくらのレンタルサーバー - Qiita

    Help us understand the problem. What is going on with this article? さくらで専用サーバーを10年ほど利用しています。 単体のハードを利用するもので、外部からの操作はsshでログインすることしかできないものです。 作業時間を必死に捻出して、こつこつと長期間システムを開発して何とか動作するものを作り上げていました。 さくらのレンタルサーバーを利用することは、ほんとうに危険で怖いことだとおもいます。 自分が体験したトラブルをレンタルサーバーの利用を検討している方々に共有させていただきたく初めて記事を書いてみました。 二年ほど前、さくらさんが専有サーバーの場所を移動したいという申し出があり快く許可しました。その時のご説明では、場所を移動するだけでハードの変更は一切行いませんというもので、今まで通りの動作が保証される作業内容というこ

    ほんとうに怖い。さくらのレンタルサーバー - Qiita
  • 障害対応のマスコットキャラ、バリーくん | IIJ Engineers Blog

    IIJ内でひそかに盛り上がりを見せているキャラクター「バリーくん」が皆さんに紹介されたがっているようです。 「そわそわっ…」 「LINEスタンプも発売中だよ」 [2019/10/09 追記]新しいLINEスタンプを追加しました どれも普段使いしやすいものになっていますので、ぜひご活用ください! バリーくんの日常 – LINE Store バリーくんのお気持ちLINE Store バリーくんお仕事中 – LINE Store バリーくん バラエティパック – LINE Store Barry のマスコットキャラクターとして生まれたバリーくん バリーくんは「Barry」という、社内で開発中の障害対応用のシステムで使うスタンプのキャラクターとして生まれました。 Barry についてはそのうち別のエントリで触れるかもしれませんが(※)、ここでは単純に「スマホに通知が届き、チャットのようなもの

    障害対応のマスコットキャラ、バリーくん | IIJ Engineers Blog
  • 【負荷対策】CM放映期間にサーバを落とさない方法(保存版) - AppBrew Tech Blog

    遊撃エンジニアの @anoworl です。最近はメンバーを巻き込みつつ転職ドラフトで指名をして指名承諾率1位になったり、SaaSをReactやReduxと戯れながら開発してちょっとだけSPAが分かった気になったりしました。 この記事では「CM放映期間にサーバを落とさない方法」と題して、昨年12月〜今年の1月のCM放映時行っていたことを紹介したいと思います。↓このCMです。 CM放映期間は記事に書いてあることを実践し、事前の負荷試験では元の10倍の負荷に耐えられるようにしました。 その結果、5xx皆無とか99パーセンタイルレスポンスタイム完璧!とまではいきませんが大きな障害も無く、分かりやすい値だとNew Relicで測定しているUptimeは期間中100%を記録しました。 Uptime 100% ! 注意事項 この記事は、私自身CMを放映することになった際まとまった情報がインターネット上に

    【負荷対策】CM放映期間にサーバを落とさない方法(保存版) - AppBrew Tech Blog
  • なぜ日本の運用業務はつらいのか /20190910-most-important-for-operation

    運用現場が「つらい」のはなぜかについて説明した簡単な資料です。 運用自動化や運用改善をする前に、一度じっくりと考えるための土台として作成しました。 (2019-09-12更新) - 「ダイジェスト」を追加しました。 - 「参考: 処方箋としての資料」セクションを追加しました。 (2019-09-11更新) - 「運用のつらさ」を説明するスライドを追加しました。 - 「海外仕事のやり方 (運用業務を含む)」セクションを追加しました。 (運用設計ラボ合同会社 波田野裕一)

    なぜ日本の運用業務はつらいのか /20190910-most-important-for-operation
  • Excel運用からAnsible TowerとGitLab運用に変更してどう変わったかまとめてみた | 日常系エンジニアのTech Blog

    Ansible TowerとGitLabを入れてどういう運用を実現したかったかを簡単な例と一緒にまとめてみようと思います。(自分への備忘録含め) ここに書くこと ここでは Ansible Night in Tokyo 2019.04 で話をした中のLinuxサーバ運用編ついてもう少し詳細に書いてみようと思います。 ここで言う運用のイメージは 定常運用 です。 Excel運用課題の振り返り ファイルの管理が「yyyymmdd」などファイルの末尾で管理されていたりしてどれが最新か分かりにくい 手順書の変更履歴が表で管理されていて文字しか書いていなくて before after が分かりにくい レビューシートが手順書ごとに出来ていく、これも日付管理されたり文字で書いてあるだけなので実際にどう修正したのかが残らない 手順書フォーマットは統一されているが、人によって手順の内容がバラバラ 「このファイ

    Excel運用からAnsible TowerとGitLab運用に変更してどう変わったかまとめてみた | 日常系エンジニアのTech Blog
  • 『運用☆ちゃんと学ぶ システム運用の基本』出版記念!大喜利&クイズ大会 まとめ

    湊川あい📚IT漫画家 わかばちゃんと学ぶ シリーズ発売中 @llminatoll #運用ちゃんデプロイイベント いよいよ明日、5/8(水)です! 増枠&繰り上がりがあったので、キャンセル待ちだった人もほぼ参加できるようになっていますよ☆ こちらからご確認ください 『運用☆ちゃんと学ぶ システム運用の基』出版記念!大喜利&クイズ大会 #運用ちゃん funplot-event.connpass.com/event/125981/ 2019-05-07 17:20:51 木檜(こぐれ)和明@ITエンジニア @kogurek1 明日このイベントにおじゃましますが、「運用でカバー」から「運用が主役」の時代になってほしいなと切に願っています。 なにしろ作ったシステムがサービス提供者・利用者双方に利益をもたらすのは間違いなく運用フェーズですからね。 #運用ちゃんデプロイイベント funplot-ev

    『運用☆ちゃんと学ぶ システム運用の基本』出版記念!大喜利&クイズ大会 まとめ
  • バッチプログラムの運用と監視について検討しよう | メルカリエンジニアリング

    こんにちは。メルペイでバックエンドソフトウェアエンジニアをしている id:koemu です。 バッチプログラムのお話、今回は運用・監視についてお話したいと思います。当社はすべての業務が24時間行われていますので、システムがオンラインのときに動作するバッチプログラムについてのみ議論します。 過去の記事はこちらにあります。 運用に備えて バッチプログラムの運用について、「プリモーテム」「実行管理」そして「ログ管理」の3点について述べていきます。 プリモーテム ポストモーテムという言葉を聞いたことがある方はいらっしゃるかと思います。ポストモーテムとは、GoogleのSREの15章*1によれば、障害などの失敗を振り返り、今後に活かすプロセスの総称と捉えることができます。 さて、プリモーテム(プリモータム)とは何でしょうか。この言葉は、私が最近読んだThe Manager’s Path*2*3で使

    バッチプログラムの運用と監視について検討しよう | メルカリエンジニアリング
  • 監視を育てよう! /「入門 監視」を読んだ - kakakakakku blog

    今年1月に出版された「入門 監視」を読んだ.出版前から予約をしていたけど,他に積読もあり,読み始めるのが少し遅れてしまった.評判通り素晴らしく,特に「監視」というテーマをうまく言語化しているだと感じた.目次を見るとわかる通り,「あれも監視!これも監視!」という幅の広さに気付くことができる.書は1人で読んで終わりにするのではなく,チームで輪読会をしてディスカッションをするなど,改善に繋げるために継続的に読むと良さそう.さらに書で学んだ内容に Dive Deep するために他の書籍も併読するべきだと思う.今回は関連する書籍も紹介しようと思う. 入門 監視 ―モダンなモニタリングのためのデザインパターン 作者: Mike Julian,松浦隼人出版社/メーカー: オライリージャパン発売日: 2019/01/17メディア: 単行(ソフトカバー)この商品を含むブログを見る 目次と正誤表 1章

    監視を育てよう! /「入門 監視」を読んだ - kakakakakku blog
  • Apple製品を会社として導入するための準備をした話

    これは FOLIO Advent Calendar 2017 の12/3の投稿でもあります。前日は chocoi さんで「とある新興証券会社での AWS Direct Connect 利用に関して」でした。 今回は社内情報システム案件でも中々情報の少ない、Apple製品についてフォーカスを当ててみます。 主にmacOS端末を導入した際の記録的な感じでいろいろ書いていければと思います。 macOS端末はWindows端末とは異なり、シリーズとスペックくらいしか選定基準がないですが、 今後導入することになった際、 「実際導入するとなったらこういう流れになるのか」 「実はそんな仕組みもあるのか」 というキッカケになれば幸いです。 また、実際どういったことを考慮に入れてmacOS端末やiOS端末をキッティング(セットアップ)しているかなどついては、 12/10 12/17に記事を書く予定です。 2

    Apple製品を会社として導入するための準備をした話