[B! monitoring] toritori0318のブックマーク

~スタートアップの人たちに捧ぐ~ 監視再入門 in AWS

https://aws-startup-community.connpass.com/event/241721/ 2022/05/10(火) 19:30 〜 21:30 「スタートアップ事例祭り〜監視・モニタリング・セキュリティ編〜」

toritori0318 2022/05/11

良い資料だった

monitoring

リンク

監視とは何か～監視エンジニアのスキルと成長～

July Tech Festa 2021 winter E2セッションの資料です ITシステム監視とは何か監視エンジニアの未来監視エンジニアのトレーニング次世代MSPの役割

toritori0318 2021/01/28

monitoring

リンク

あと2時間でElastiCacheのメモリが枯渇！そのときあなたは何をしますか？

突然ですが... あなたは、あるゲームプロジェクトの本番リリース2日前にサーバエンジニアとしてJOINしました。いざリリースを迎えたとき、ElastiCacheのメモリが突然危険域を超え、さらにあと2時間で枯渇しそうな状況になりました。さて、この状況におかれたあなたは何をしますか？はじめにモバイルゲームのシステムは新しいイベントをopenするとトラフィックが2倍、3倍、時には普段の10倍以上来ることがあり、トラフィックの変動が非常に大きい特性があります。新しいゲームのリリース時はより顕著で、想定以上のトラフィックが来ることもしばしばあります。この記事は、あるゲームプロジェクトの本番リリース時に大規模トラフィックが来た際のサーバトラブルを題材に、どのような観点で問題を切り分けていったのか、トラブルシュートのプロセスどのような準備(負荷テスト)をしていれば防げるのかという話をし

toritori0318 2020/12/20

良い知見。CloudWatchはそれな感…

monitoring

リンク

Amazon Linux 2 のインスタンスを作成する時に必ずやっておきたい事 | DevelopersIO

はじめにこんばんは、菅野です。 Amazon Linux 2 への移行は終わりましたか？ Amazon Linux 2 へ移行するには新しいインスタンスを作成する必要がありますが、その時におすすめしたい設定があります。 ※2020-07-08に「注意点その2」を追記しました。おすすめの設定セッションマネージャーを利用できるようにすることメモリ使用率とディスク使用率を CloudWatch で見れるようにすることこれらを設定しておくと、今後の運用が楽になります。セッションマネージャーを使うメリットメリットとしては、SSH 接続をしなくても EC2 のコマンドが実行できるようになりますので、セキュリティグループで SSH を解放する必要が無くなりセキュリティの向上につながります。この画像はマネジメントコンソールから EC2 にログインした時のものですが、AWS Systems

toritori0318 2020/07/09

リンク

ECSとGoで構築したシステムにDatadogを導入する | おそらくはそれさえも平凡な日々

追記: GoのアプリケーションをOpenMetricsを使ってObservableにする方法については別エントリを書きました。 → https://songmu.jp/riji/entry/2020-05-18-go-openmetrics.html ECSとGoで運用しているシステムに対するDatadogの日本語知見があまり無さそうだったので書いてみる。ちなみに以下の環境です。 ECS on EC2 (not Fargate) アプリケーションコンテナのネットワークモードはbridgeモード動的ポートマッピングも利用背景として3月にNature Remoのインフラアーキテクチャ改善をしていて、その前にもうちょっと監視を整えたほうが良いな、ということでDatadogを導入したのがある。テストがないとリファクタリングできないように、監視がないとアーキテクチャのアップデートもやりづらいとい

toritori0318 2020/05/17

リンク

次世代のログ基盤 Grafana Lokiを始めよう! / prometheus-meetup-tokyo-3-lets-start-the-loki

toritori0318 2020/01/20

気になる

monitoring

リンク

クラウド世代の OSS 監視システム「Prometheus」 Meetup でがっつり話を聞いてきた #prometheustokyo | DevelopersIO

6/3 渋谷で行われた Prometheus Tokyo Meetup #2 をレポートします。 Prometheus といえば「クラウドネイティブ」というキーワードの中で語られることの多いインフラ監視・モニタリングソリューションですが、本ミートアップではクックパッド社やヤフー社の事例など、 Prometheus ヘビーユーザの方々により特徴や活用事例が語られる、非常に興味深いものでした。 Prometheus Tokyo Meetup #2 - connpass Prometheus Tokyo Meetup #2 - 資料一覧 - connpass なお、本ミートアップはサイバーエージェント殿協力の下、渋谷の Abema Towers にて行われました。動画 Prometheus Tokyo Meetup #2 - YouTube 入門 Prometheus スピーカー : Kazu

toritori0318 2019/06/19

リンク

k8s環境のメトリクスやログを取得するマネージドサービス「CloudWatch Container Insights」が発表されました！ | DevelopersIO

k8s環境のメトリクスやログを取得するマネージドサービス「CloudWatch Container Insights」が発表されました！従来、EKSの監視やログ管理にはサードパーティーOSSや監視用SaaSなどがほぼ必須だったのが、CloudWatchのみで完結しそうな大型アップデートです。現在開催されているKubeCon + CloudNativeCon Europe 2019 - Linux Foundation Eventsにおいて、Kubernetes環境のコンテナ環境のメトリクスを取得する「CloudWatch Container Insights」が発表されました！コンテナワークロードのためのメトリクス・ログモニタリングサービス、CloudWatch Container Insights の Public Preview を発表しました！！ #KubeCon 続) pic

toritori0318 2019/05/22

こういうところのマネージドは本当ありがたい

リンク

オブザーバビリティ（可観測性）がなぜ必要だと考えるのか - YAMAGUCHI::weblog

はじめにこんにちは、Stackdriver担当者です。本記事は完全に個人の意見です。（念押し） GCP的に担当製品がわかりやすいのでStackdriverの担当と書いてますが、仕事での担当領域的には「オブザーバビリティ (Observability、可観測性)」です。この「オブザーバビリティ」という言葉が近年SREの文脈で語られることが増え、また今年に入って「入門監視 ("Practical Monitoring" の日本語訳)」が刊行されたことで、日本でもより多く耳にするようになりました。 SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム発売日: 2017/08/12メディア: 単行本（ソフトカバー）入門監視 ―モダンなモニタリングのためのデザインパターン作者:Mike Julian発売日: 2019/01/17メディア:

toritori0318 2019/04/03

リンク

コンテナを利用したWebサービス開発と実運用

はてな×さくらが考えるテクノロジーの未来〜コンテナ・分散型データセンター〜 Mar 20th, 2019 Profile id: Songmu (ソンムー) Masayuki Matsuki / 松木雅幸おそらくはそれさえも平凡な日々 http://www.songmu.jp/riji/ https://metacpan.org/author/SONGMU はてな東京オフィスチーフエンジニア Mackerel プロダクトマネージャー 60+ CPAN Modules 3 Times ISUCON Winner Using Perl YAPC::Tokyo 2019 ベストスピーカー最近はGoが好き

toritori0318 2019/03/25

リンク

監視入門 ~ マイクロサービス時代の監視設計

Profile id: Songmu (ソンムー) Masayuki Matsuki / 松木雅幸おそらくはそれさえも平凡な日々 http://www.songmu.jp/riji/ https://metacpan.org/author/SONGMU はてな東京オフィスチーフエンジニア Mackerel プロダクトマネージャー 60+ CPAN Modules 3 Times ISUCON Winner Using Perl YAPC::Tokyo 2019 ベストスピーカー

toritori0318 2019/03/25

リンク

負荷が低いのにアクセスを捌けきれない時の対応 - Carpe Diem

概要 Mongo DBでCPU使用率やロードアベレージが高くないのに処理が詰まっている現象が起きました。その時間にbatchが動いていてアクセスが急に増えることが原因と言うのは分かっているのですが、負荷的には十分余裕があり不思議な状態でした。そこでdstatで見るポイント - Carpe Diemでも述べたように、負荷の状態から判断する基準があります。ロードアベレージを確認する１が高ければCPU、ディスクI/O、メモリにボトルネックがある１が低ければTCPコネクションにボトルネックがある今回の現象から判断するに、TCPコネクションに原因がありそうです。原因調査 Too many open filesは出ているかファイルディスクリプタが足りない場合はコネクション数が足りずに処理が詰まってしまいます。そしてその場合Too many open filesというエラーが出ます。し

toritori0318 2019/02/07

リンク

Site Reliability Engineering – 10章時系列データからの実践的なアラート - Fire Engine

こんにちは、つるべーです。先日、福岡のインフラ界隈のエンジニアの方々がやっているSRE本の輪読会に参加し、発表をさせていただいたので、その時の内容をまとめます。私は、10章の「時系列データからの実践的なアラート」を担当させてもらいました。はじめになぜ「時系列データからの実践的なアラート」が必要かを考えてみた。 Webサービスの大規模化や複雑化に伴い、サーバ台数の増加やシステム構成の複雑化が進んだことで、サーバのメトリクス等の情報を高解像度かつ長期間保持したいという要望が高まっている。また、サーバのメトリクスをより統計的に解析し、アラーティングの精度を向上させたいといったシーンも増え、時系列データベースに溜め込んだデータを用いた柔軟なアラーティングの需要が高まっているのではないだろうか。概要 10章ではBorgmonと呼ばれるGoogleの内部システムについての話が中心だが、「アラ

toritori0318 2018/06/10

リンク

Monitoring at AbemaTV

A consistent delivery process with GitOps style for any application on any platform

toritori0318 2018/04/25

リンク

Web アプリケーションを把握するためのコンソール - クックパッド開発者ブログ

技術部開発基盤グループの鈴木 (id:eagletmt) です。クックパッドではほとんどの Web アプリケーションが Amazon ECS 上で動く状態となり、またマイクロサービス化や新規サービスのリリースにより Web アプリケーションの数も増えていきました。個々のアプリケーションでは Docker イメージを Jenkins でビルドして Amazon ECR にプッシュし、Rundeck から hako を用いて ECS にデプロイし、またその Web アプリケーションからは Amazon RDS、Amazon ElastiCache 等のマネージドサービスを活用しています。このように多くの Web アプリケーションが存在し、また各アプリが別のアプリや AWS の様々なマネージドサービスを利用している状況では、どのアプリが何を使っているのかを把握することが困難になっていきます

toritori0318 2018/04/06

すばらしい

リンク

Web サービスの信頼性と運用の自動化について / iot40-rrreeeyyy

第40回インターネットと運用技術研究発表会の招待講演で『Web サービスの信頼性と運用の自動化について』というタイトルで発表しました。

toritori0318 2018/03/13

すごい

monitoring

リンク

CPU使用率は間違っている | Yakst

Netflixのパフォーマンスエンジニアである筆者からの、topコマンドなどで表示されるCPU使用率(%CPU)は、いまや本当の使用率を表しておらず、チューニングなどのための指標として使えないという指摘。なぜそうなってしまったのか、何を見れば本当のCPU使用率がわかるのかをわかりやすく解説した記事。私たちみんながCPU使用率として使っている指標は非常に誤解を招くもので、この状況は毎年悪化しています。CPU使用率とは何でしょうか？プロセッサーがどのくらい忙しいか？違います。CPU使用率が表しているのはそれではありません。私が話しているのは、あちこちで、あらゆる人たちに、あらゆる監視製品で、あるいはtop(1)でも使われている、"%CPU"という指標のことです。あなたの考えているであろうCPU使用率90% : 実際 : "stalled"(訳注 : 以下ストールと言う)とは、プロセッサーが

toritori0318 2017/06/17

リンク

時系列データベースに関する基礎知識と時系列データの符号化方式について - クックパッド開発者ブログ

こんにちは。インフラストラクチャー部 SRE グループの吉川 ( @rrreeeyyy ) です。今期オススメのアニメはツインエンジェル BREAK です。普段の業務並びに趣味の一環として、サーバのモニタリング環境の調査や改善に取り組んでいます。そこで本稿では、モニタリングのコンポーネントの一つとして外すことが出来ない、時系列データベースの基礎知識に関して紹介します。そもそも時系列データ・時系列データベースとは？時系列データというのは、特定の時間ごとに何らかの値を取得した際の、取得した一連の値を指します。例えば、以下のようなフォーマットをしたデータなどは時系列データにあたるでしょう。 timestamp1,key,value1 timestamp2,key,value2 timestamp3,key,value3 : 時系列データベースとは、上記のような時系列データの保存・処理に

toritori0318 2017/06/02

素晴らしい

リンク

CloudWatch LogsでAmazonLinux上のApacheエラーログを監視する | DevelopersIO

はじめにこんにちは、虎塚です。ログファイルの監視ができるAWSサービスといえば、CloudWatch Logsですね。メトリックを使ってアラームを設定し、SNSと組み合わせることで、アラートメールも送信できます。本ブログでも、これまでに何度かCloudWatch Logsをご紹介してきました。 Amazon CloudWatch Logsでログファイルを監視する｜ Developers.IO Amazon CloudWatch Logsによるログの収集とフィルタとアラーム設定｜ Developers.IO CloudWatch Logsは、2014年7月にリリースされたサービスです。この半年ほどで、いくつか機能アップデートがありました。主なアップデートは、次のとおりです。 CloudWatch Logsが東京リージョン(ap-northeast-1)でも利用できるようになりました

toritori0318 2017/02/07

リンク

Tech Meetup に参加して「grafana-zabbix 活用術」を紹介してきた - kakakakakku blog

今日は freee で開催された Tech Meetup に参加してきた．ダッシュボード厨としては最近導入した grafana-zabbix の紹介もしたいと思って「grafana-zabbix 活用術」というタイトルで LT もしてきた．懇親会でいろいろお話もできたし凄く楽しかった！ plaidtech.connpass.com freee を支えるインフラ技術 @manabusakai Monyog - Monitor & optimize MySQL database performance は知らなかった！「障害が起きることを前提に」は本当に重要 AWS Well-Architected Framework にも「コンポーネントの障害に対応するべし」と書かれてるし理解はしてるけど SPOF になってしまうこともあるよなぁ…と思ったり「トラッキングして見える化」も重要だなと思っ

toritori0318 2017/01/30

リンク

はてなブックマーク

タグ

関連タグで絞り込む (68)

monitoringに関するtoritori0318のブックマーク (84)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス