タグ

システム運用に関するshin16884のブックマーク (39)

  • Prometheusによる数百台規模のモニタリングで直面した問題について | GREE Engineering

    インフラの反田 (@mtanda) です。 GREEでは、多くのサービスをAWS環境で運用しており、それらサービスのモニタリングシステムとしてPrometheusを利用しています。 Prometheusを導入してから約2年がたち、1台のPrometheusで数百台規模のインスタンスをモニタリングするなかで、さまざまな問題に直面しました。 それら問題の原因を分析し、設定や利用の仕方を改善することで、ある程度安定して運用できるようになりました。 これらの知見が少しでもお役に立てばと思い、ここで共有いたします。 なお、対象とするPrometheusのバージョンは1.xです。Prometheus 2.0では、これら問題のほぼ全てに対して改善されています。そのため、2.0でどういった点が改善されているかを知るためにも有用だと思います。 Prometheusのストレージ実装の基礎知識 Promethe

    Prometheusによる数百台規模のモニタリングで直面した問題について | GREE Engineering
  • AWS運用設計フェーズの基本を解説、システムを「安定稼働」させる4つのポイント

    これまでの連載では、AWSの基からサーバーレス・アーキテクチャの考え方、オンプレミスからAWSへの移行のポイントについて解説してきました。第3回目の連載で取り上げるのは「AWSの運用設計」です。AWSではシステムの構築もさることながら、その運用も重要です。今回はAWSを継続的に安定稼働させるための4つのポイントとして(1)障害が発生した場合を想定し、影響を最小限にとどめるための運用設計(2)障害が発生した場合の問題の切り分け(3)障害から復旧させる方法(4)障害を未然に防ぐためのモニタリングについて解説します。

    AWS運用設計フェーズの基本を解説、システムを「安定稼働」させる4つのポイント
  • rm -rf でやらかした時すかさず実行する復元コマンド(Linux編) | aucfan Engineers' blog

    初めまして、新卒入社の桑折(@2k0ri)と申します。 入社から今日まで約3ヶ月間、研修およびOJTを受けさせて頂いておりました。 その初OJTのステージング環境で、デプロイ先ディレクトリのシンボリックリンクを消すつもりが デプロイディレクトリを中身ごとrm -rfする という重度のやらかしをしでかしました。 30秒うちひしがれた後、ググって extundeleteというコマンドを見つけてからの 自分が行ったリカバリーの手順を残します。 なお、このコマンドはext3/ext4フォーマット専用になります。 1. サーバーへのアクセスを出来る限り抑えるように周知 最近のLinuxのデファクトFSであるext4フォーマットは、rmされたデータの跡地に 待ったなしで容赦なく新しいデータが書き込まれていきます。 そのため、何よりもまず失われたデータが上書きされないように、 該当サーバーでやらかしたこ

    rm -rf でやらかした時すかさず実行する復元コマンド(Linux編) | aucfan Engineers' blog
  • 「セキュリティインシデント対応人材」のあるべき姿――求められる「先読み力」とは

    セキュリティインシデント対応人材」のあるべき姿――求められる「先読み力」とは:セキュリティ教育現場便り(3)(1/3 ページ) 筆者の経験を基に、当に必要なセキュリティ教育について考える連載。3回のテーマは「情報セキュリティ事故(インシデント)対応」です。インシデント発生時の混乱した状況に適切に対処するための担当者の役割、あるべき姿について考えます。 連載目次 コンピュータウイルス感染やWebサイトの改ざん被害など、情報セキュリティ事故のニュースが相次いで報道されています。最近では、コンピュータウイルスを利用したPCの遠隔操作により、ネットワークの奥にあるデータを盗み取られるような被害も出ています。 組織において情報セキュリティ事故(インシデント)が起きた場合、「対外対応」の他、「被害の最小化」や「再発防止」にも取り組む必要があります。事故対応を適切に行うためには、インシデント対応マ

    「セキュリティインシデント対応人材」のあるべき姿――求められる「先読み力」とは
  • AWSを10年運用してわかったことをAmazonの最高技術責任者が語る

    By Robert Scoble Amazonが提供するクラウドコンピューティングサービスの「アマゾン ウェブ サービス(AWS)」が登場してから10年を迎えました。これを運用する中で得られた教訓を、Amazon.comおよびAWSのCTOであるワーナー・ヴォーゲル氏が自身のブログの中で公開しています。 10 Lessons from 10 Years of Amazon Web Services - All Things Distributed http://www.allthingsdistributed.com/2016/03/10-lessons-from-10-years-of-aws.html ◆発展可能なシステムを構築する 我々が構築するソフトウェアは、1年後も継続しているソフトウェアでなければいけません、とヴォーゲル氏。ヴォーゲル氏はAWSではサービス開始当初から「アーキテ

    AWSを10年運用してわかったことをAmazonの最高技術責任者が語る
  • ウェブアプリケーション開発に新言語を採用したときにインフラで考えたこと - ゆううきブログ

    この文章は、サーバサイドのウェブアプリケーション開発において、社内実績の少ない新しい言語を採用したときにインフラ面で考慮したことを社内向けにまとめたものです。 はてなでは、長らくPerlでウェブアプリケーション開発を続けてきた一方、ここ数年で社内でScalaまたはGoの採用事例も増えてきました。 今後開発が始まるプロダクトにおいても、PerlScalaGoもしくは他の言語を採用するかどうかを開発開始時に選ぶことになるでしょう。 新言語を採用するときに、考慮すべきことの一つとして、「インフラ」への影響があります。 新言語に関する雑談をしていると、ウェブアプリケーションエンジニアに「インフラ」への影響について聞かれます。 もしくは、ウェブオペレーションエンジニアから考慮するポイントを伝えることもあります。 ScalaGo以外に、Node.jsやサーバサイドSwiftはどうかというのも雑談

    ウェブアプリケーション開発に新言語を採用したときにインフラで考えたこと - ゆううきブログ
  • Apache ZooKeeperのトランザクションログとスナップショットの運用と削除

    Zookeeperのトランザクションログの運用 Hadoopと組み合わせて使用されるZooKeeperは、タイミングが非常に重要な高可用性の分散協調システムです。NTPを設定してログの時刻ずれが無いように設定しておく必要があります。また、Zookeeperのトランザクションログとスナップショットは別のディスクドライブに保存することが望ましいとされています。ログが頻繁に書き込まれるため、I/O性能の良いSSDなどのフラッシュストレージに保存しておくことが望ましいです。これらはdataDirおよびDataLogDirプロパティによって設定が可能です。Zoopkeeperのトランザクションログが一定の設定値(デフォルト64MBまたは100,000回)以上に書き込まれると、znodeツリーのメモリダンプであるスナップショットが作成されます。スナップショットは基、それ以前のトランザクションログに代

    Apache ZooKeeperのトランザクションログとスナップショットの運用と削除
  • 「東洋一のデータセンター」が時代遅れになった理由

    2015年末も押し迫った12月28日、横浜市の慶應大学日吉キャンパスにほど近いある建物に、野村総合研究所(NRI)の役員と幹部が大勢顔をそろえていました。同所にあるNRIの「日吉データセンター」の閉所式がひっそり執り行われたからです。 日吉センターの開業は日がバブル経済に突入する直前の1985年。野村證券専用のデータセンターとして建設され、以来30年に渡って野村證券の、ひいてはNRIのビジネスを支えてきました。 建設時は「東洋一のデータセンター」をうたっており、当時、野村證券社長だった田淵節也さんが出席して大々的に開所式が催されました。閉所式のちょうど30年前、土曜日で半ドンだった大納会の12月28日には、旧センターの最後のオンライン処理を終了させ、その後に新しい日吉センターへと大規模な引っ越しを実施しました。大量の磁気テープ輸送のトラックを、パトカーが先導した話は、今でもNRI社内の語

    「東洋一のデータセンター」が時代遅れになった理由
    shin16884
    shin16884 2016/01/19
    日吉センター閉所したのか。仕事で初めて入ったのがこのDCやったな。おつかれさま。
  • 2015年、365日のあいだ一度も落ちなかったクラウドはあるか? AWSやAzureなど主要クラウドのダウンタイムについてCloud Harmonyの調査結果

    2015年、365日のあいだ一度も落ちなかったクラウドはあるか? AWSやAzureなど主要クラウドのダウンタイムについてCloud Harmonyの調査結果 クラウドを対象にした調査会社CloudHarmonyは、おもなクラウドの稼働状況をつねにモニタリングし、稼働状況を累積表示するダッシュボード「CloudSquare」を公開しています。 これはサーバのモニタリングサービスを提供しているPanoptaの協力によって実現しているもので、Panoptaは60秒ごとにエージェントから情報を収集しているとのこと。 これを見ると、AmazonクラウドやMicrosoft Azure、SoftLayer、Google Compute Engineなど主要クラウドが過去1年にどれくらいダウンしていたのか、あるいは一度も落ちなかったクラウドがあるのかといった情報を見ることができます。 この1年、AWS

    2015年、365日のあいだ一度も落ちなかったクラウドはあるか? AWSやAzureなど主要クラウドのダウンタイムについてCloud Harmonyの調査結果
    shin16884
    shin16884 2016/01/13
    落ちても大丈夫な仕組みにするのは当然だけど、代替が効かないクラウドサービスが落ちると辛いなと。
  • メール運用がロストテクノロジーになっていく話

    クラウドワークス Advent Calendar 17日目担当のSMTPおじさんの記事です。 時間の無い人のために3行でまとめますと以下のコンテンツでお送りします。 大規模なメール配送を安全に行うには特別なノウハウがあり罠も多い SendGrid便利です 当たり前になった技術は空気のように見えなくなってインフラ化する。それがある日突然失われたときの被害は甚大。インフラ技術をキャッチアップして備えよう メール配送今昔 さて、メール配送といえば古くはSendmailを使っていました。多くのUnixディストリビューションに標準でインストールされており、使うのが当たり前で選択肢も少なかった時代です。 Sendmailは開発が重ねられることで複雑化しセキュリティホールが頻発しました。また設定ファイルのsendmail.cfはチューリング完全であるほど高機能で複雑でまた長くなりがちでもあり今でも書きた

    メール運用がロストテクノロジーになっていく話
    shin16884
    shin16884 2015/12/31
    メール配信の仕組みや現状を知れば知るほどメールが配信先に届くことがどれだけ難しいかを実感するなぁ。知らない人は届いて当たり前って思ってるやろうけど...。sendgridのIP Warmup便利そう。
  • elasticの新プロダクト「Beats」シリーズに震える! - Taste of Tech Topics

    初めてこのブログに投稿します、PlNOKlOです! 皆さんよろしくお願いします。 このエントリーは、Elasticsearch Advent Calendar 2015の15日目です。 さて、 今日紹介したいのは、elasticの新プロダクト「Beats」シリーズです。 社内で @cero_t さんが「みんなでBeatsのWebinarを見る夕会」なるイベントを 突発的に企画したので、よく分からないながらも参加してきたのですが、、、 震えました モニタリングツールとしてかなりよくできている感じで、 @cero_t さんが騒ぐ理由も分かる気がしました。 特にPacketbeatは想像以上にヤバかったですね。 皆さん、こいつは注目です! ということで、そんなBeatsシリーズのうち、 TopbeatとPacketbeatの2つについて、私の震えポイントを紹介します! 1. Beatsとは?

    elasticの新プロダクト「Beats」シリーズに震える! - Taste of Tech Topics
  • Graylog ではじめるログ管理 - クックパッド開発者ブログ

    こんにちは。インフラストラクチャー部 セキュリティグループの星 (@kani_b) です。 主に "セキュリティ" や "AWS" といったタグのつきそうなこと全般を担当しています。 Fluentd などのデータコレクタ、Kibana やその他 SaaS による可視化、Kafka, Kinesis, Spark などのストリーム処理といった様々な分野で「ログの処理」がホットですが、アプリケーションのログ (行動ログなど) に関する話題が多くを占めています。 そうしたログの他に重要なのが OS や各種ミドルウェアのシステムログです。これらはトラブルシューティングであったり、セキュリティ上の問題を見つけたり、といったことに使われますが、最低限 syslog でどこかに集約しているだけ、といった例をよく見かけます。 これらのログをきちんと検索可能にし、分析することで、今まで気づかなかったような問

    Graylog ではじめるログ管理 - クックパッド開発者ブログ
    shin16884
    shin16884 2015/11/25
    権限管理ができるのが良さそう。複数プロジェクトでまとめて使えるかも。
  • Apache全プロセスの総利用メモリ量がしきい値を超えるとApacheプロセスを再起動させる - Qiita

    set daemon 60 # monitの監視間隔(秒) set logfile /var/log/messeges # ディフォルトではSyslogが指定されていますが、私の環境ではうまく出力されなかったので明示的に記載 # logrotateの設定も忘れずに set mailserver 127.0.0.1 # メール送信に利用するSMTPサーバーを指定 set alert hoge001@hogehoge.co.jp set alert hoge001@hogehoge.co.jp # アラート送信先メールアドレス # 複数の通知先へメールを送信する場合は列挙する set mail-format { from: monit@hogehoge.com # メール送信元アドレス subject: $HOST : $SERVICE - $EVENT message: Monit A

    Apache全プロセスの総利用メモリ量がしきい値を超えるとApacheプロセスを再起動させる - Qiita
    shin16884
    shin16884 2015/11/14
    いろんな応用ができそう。おもしろい。
  • 「突然落ちて当たり前」にエンタープライズITは堪えられるのか?

    少し前の話ですが、シアトルのアマゾン社に出掛けて米Amazon Web Services(AWS)の幹部の前でプレゼンをする機会がありました。 前回のこの連載「AmazonがエンタープライズITを『ぶっつぶす』」でも述べたとおり、私は「AWSはクラウド時代の鍵となる存在」と考えています。その一方で、現状の日のエンタープライズITシステムをAWSに移行させるには、技術的、社会的にハードルがあり、簡単ではないとも見ています。 野村総合研究所(NRI)はAWSが日で最初に認定したプレミアコンサルティングパートナーです。AWSを使ったシステム構築の経験は既に幾つもあります。その経験から率直に言うと、AWSを使ったシステム構築は喧伝されるほど容易ではありません。 こうした問題意識があったのでこの機会に、日のエンタープライズITの現場の実情をAWSの幹部に理解してもらい、システム構築や運用を容

    「突然落ちて当たり前」にエンタープライズITは堪えられるのか?
    shin16884
    shin16884 2015/10/26
    絶対落ちないシステムなんてないからね。それをどれだけ許容するか、許容できる範囲で最善を尽くす。AWSならオンプレよりも最善は尽くしやすいと思ってる。
  • 日本の小売業がECやテクノロジーとの付き合いかたを見直す絶好のチャンス ECサイトリニューアルトラブルから学べること

    ECzine Day(イーシージン・デイ)とは、ECzineが主催するカンファレンス型のイベントです。変化の激しいEC業界、この日にリアルな場にお越しいただくことで、トレンドやトピックスを効率的に短時間で網羅する機会としていただければ幸いです。

    日本の小売業がECやテクノロジーとの付き合いかたを見直す絶好のチャンス ECサイトリニューアルトラブルから学べること
  • Slerがawsで運用してきた話

    SRX5000シリーズ for Cloud Builders ~Trailer version~ マクニカ&ジュニパー共同資料

    Slerがawsで運用してきた話
  • AWS Partner SA ブログ

    PSA酒徳です。第2回運用管理フォーカスセミナー Zabbix on AWS セッションレポート初日はZabbix Japan寺島様からの投稿です。 ご登壇資料: http://awsservicedocs.s3.amazonaws.com/Seminor/20150422_aws_sysops_forcus_seminar/Zabbix_Presentation.pdf 会社名:  Zabbix Japan 製品 / ソリューション名: システム構成図: 対象顧客と導入効果: クラウドサービスを利用してシステムを構成することはシステムのリソースの使用状況に応じて必要なだけ必要なリソースを追加削減できることが大きなメリットです。 Zabbixはシステムを監視するためのオープンソースソフトエアであり、これまでオンプレミスで利用されることがほとんどでしたが、近年クラウドサービス上のシステムの監

    shin16884
    shin16884 2015/05/12
    複数の環境を上手くまとめて監視できる構成がいい。
  • バグをドラゴンと呼ぶ運用を始めて1ヶ月くらいたった - Konifar's WIP

    1ヶ月くらい前、 「バグをドラゴンと呼んだらどうなるか」というTweetを見ました。 確かに、バグをドラゴンと読んだ場合「Sクラスのドラゴンが出ました!」「Aクラスのドラゴンを相手にしてる最中だってのに!」って会話になるし、ドラゴンは結局人の手で生み出されたものってところが中二ファンタジーっぽくて良い— 尾野(しっぽ) (@tail_y) March 18, 2015 これは天才的発想だなと思って職場で雑談で話してみたところ、 同僚のスペインエンジニアにバカウケしまして、 それからちょいちょいバグのことをドラゴンと呼ぶようになりました。 せっかくなので、どんな雰囲気になるのかまとめてみようと思います。 先に言っておくと、自分ともう1人スペインエンジニアが時々チャット上で使っているだけで、 正直そんなに流行ってないです。 なんかテンションが上がる バグ修正ってマイナスをゼロにするだけで何

    バグをドラゴンと呼ぶ運用を始めて1ヶ月くらいたった - Konifar's WIP
    shin16884
    shin16884 2015/05/02
    ちょっとした工夫で雰囲気が変わることが伝わってきた。面白い試みやなと思う。
  • TalknoteのAWS等にまつわる黒歴史

    http://geechs-magazine.com/3839 http://geechs-magazine.com/4320

    TalknoteのAWS等にまつわる黒歴史
    shin16884
    shin16884 2015/04/23
    インスタンスストアに全てのデータを置いてるってところで、思わず声を漏らしてしまった。そこから、今のような理想的な構成になる流れはまさにベストプラクティスでは?
  • 企業が気になる基幹系システムのクラウド化、ハイブリッドモデルをこう使え!

    クラウドの利用機運が高まる中、安定性やセキュリティなどを理由にクラウド化が困難なシステムは少なくない。その解決策として注目されるのがハイブリッドクラウドだ。ITmedia エンタープライズ主催の勉強会ではSDNを生かしたクラウドサービスを提供するNTTコミュニケーションズと、仮想化からクラウドへの移行を推進するVMwareが、ハイブリッドクラウドの導入・構築を成功につなげるための秘訣を紹介した。 ビジネス展開を容易にする柔軟性や災害などに強い事業継続性が求められるITシステムを実現するために、企業ではクラウドの利用が格化しつつある。だが、様々な企業のITシステムの中でも基幹系システムは、構成の複雑化やサイロ化といった問題を抱え、クラウド化が難しいとされてきた。そこで注目したいのが、ハイブリッドクラウドの活用である。 ITmedia エンタープライズ編集部主催の勉強会「インフラ最適化も事業

    企業が気になる基幹系システムのクラウド化、ハイブリッドモデルをこう使え!
    shin16884
    shin16884 2015/04/14
    基幹システムをいかにスムーズにクラウドへ移行していくか。ここのノウハウはかなりの価値がありそう。