なめらかなシステムに向けた Webサービス基盤技術とAI技術の活用 ペパボ研究所によるWebサービスのユーザ体感と技術者体感に関する研究 ペパボ研究所 主席研究員 松本亮介 / Pepabo R&D Institute, GMO Pepabo, Inc. 2017.09.13 2017年電子情報通信学会ソサイエティ大会 BT-2 : AIを活用したネットワーク運用技術
はじめに はてなサマーインターン2017の大規模システムコースの成果報告をします。 今年の大規模システムコースではメンターのid:masayoshiさんとid:y_uukiさんの下、自律分散監視システムとそれを利用したネットワークグラフの可視化に取り組みました。自律分散監視システムでは単純なクラスタリングによる死活状況の確認だけではなくアプリケーションレベルの疎通確認を行えるものを実現しました。またどのようにしてクラスタを形成するかという問題に取り組む内に、サービス間のネットワーク上のつながりを取得できるようになり、その情報でサーバー間の関係性の可視化を行いました。この記事では、それらの詳細を説明します。 はじめに 自律監視システムの実現 中央サーバー型の監視システム 自律分散監視システム アプリケーションレベルの相互監視 どうやってクラスタを形成するか? 実験 ネットワークグラフの可視化
このエントリーは家庭を支える技術 Advent Calendar 2014 - Adventarの5日目の記事として書きました。 情報共有と運用ルール 先日、結婚して丸一年を迎えました。 我々のチームについては妻がLifehacker.jpにて記事を書いていたりもしてますが、様々なツールを駆使して共有漏れがないように進めるとともに、どちらかが家事をしているときは、他方も家事をするというルールで運用しています。 情報共有ツール Google Calendar Google Plus (写真の共有) Chatwork Facebook Facebook Messenger LINE FaceTime etc 結婚は短期開発、長期運用。「結婚疲れ」を回避する3つのコツ | ライフハッカー[日本版] 相互トラッキングと課題 さて、今回は夫婦間の生存確認方法と今後の課題についてです。 「夫婦間の生存
こんにちは。インフラストラクチャー部 SRE グループの吉川 ( @rrreeeyyy ) です。今期オススメのアニメはツインエンジェル BREAK です。 普段の業務並びに趣味の一環として、サーバのモニタリング環境の調査や改善に取り組んでいます。 そこで本稿では、モニタリングのコンポーネントの一つとして外すことが出来ない、時系列データベースの基礎知識に関して紹介します。 そもそも時系列データ・時系列データベースとは? 時系列データというのは、特定の時間ごとに何らかの値を取得した際の、取得した一連の値を指します。 例えば、以下のようなフォーマットをしたデータなどは時系列データにあたるでしょう。 timestamp1,key,value1 timestamp2,key,value2 timestamp3,key,value3 : 時系列データベースとは、上記のような時系列データの保存・処理に
Recent posts: 28 Apr 2023 » eBPF Observability Tools Are Not Security Tools 01 Mar 2023 » USENIX SREcon APAC 2022: Computing Performance: What's on the Horizon 17 Feb 2023 » USENIX SREcon APAC 2023: CFP 02 May 2022 » Brendan@Intel.com 15 Apr 2022 » Netflix End of Series 1 09 Apr 2022 » TensorFlow Library Performance 19 Mar 2022 » Why Don't You Use ... 26 Sep 2021 » The Speed of Time 06 Sep 2021 »
米フェイスブックは2017年2月3日(現地時間)、同社が開発したインメモリ時系列データベース「Beringei」をブログポストで説明、同ソフトウェアを最近オープンソース(BSDライセンス)で公開したことを紹介した。 米フェイスブックは2017年2月3日(現地時間)、同社が開発したインメモリ時系列データベース「Beringei」をブログポストで説明、同ソフトウェアを最近オープンソース(BSDライセンス)で公開したことを紹介した。 「Beringeiは現時点で、ユニークな時系列データを最大100億件格納し、毎分1800万件のクエリに応えられる。Facebookにおけるほとんどのパフォーマンスモニタリングおよびヘルスモニタリングを担っている。エンジニアやアナリストは、正確なリアルタイムのデータを活用し、迅速な決定ができるようになっている」と、ジャスティン・テラー(Justin Teller)氏は
GMOペパボが立ち上げた「ペパボ研究所」の主席研究員 松本亮介さん(id:matsumoto_r)と、はてなエンジニアの坪内佑樹(id:y_uuki)が対談しました。技術ブログにはてなブックマークを付け合う間柄だった2人の語りから、レンタルサーバーの運用技術を学術研究として突き詰めた松本さんの研究成果「高集積マルチテナント環境」(「ロリポップ!」の「次世代ホスティングサービス」の技術として適用)、そして生き物のようなシステムを目指す「なめらかなシステム」の構想が浮かび上がってきます。 (上写真、左より)GMOペパボ株式会社 ペパボ研究所 主席研究員 シニア・プリンシパルエンジニアの松本亮介さん(id:matsumoto_r)、株式会社はてな システムプラットフォーム部 シニアエンジニアの坪内佑樹(id:y_uuki)。構成はITジャーナリストの星暁雄です。 (※この記事は、GMOペパボ株式
公開されるどこにも記録を残していないような気がするが、2016年の初めからとある事情により JavaScript のエラーをサーバに送りつけて監視サービスに送りつけてエラーの発生を知り、修正する、ということを地味にくり返していた。 そこに至る顛末と今後の分析の予定のお話。 背景これまで扱ってきたものはそこまで JS ヘビーでないものが多く、また自分で書くものはできるだけユニットテストが動くように書いていた and そもそも監視サービスが入っていなかったので、エラーのログをサーバに送るとか監視するとか、そこまで手をかけていなかった。 しかし今回の案件は初期の設計では考えてもみなかった量のカウボーイスタイル JS がコミットされしまい、要するに非常にイキのいいフレッシュなレガシーコードがてんこ盛りで動いている状態になってしまった。 (あーはい、全部ぼくがコードレビューしてリジェクトすれば防げた
こんにちは!freeeでインフラゾンビをやっている @sugitak です。ゲームではレベルを上げて物理で殴る派です。 freee ではたまにインフラエンジニアの数が減るのですが、その減ったインフラエンジニアはインフラゾンビへと進化し、社内を闊歩します。インフラゾンビは主に開発チームに所属して、アプリっぽいインフラの仕事をインフラからアプリ側へと持っていきます。デプロイとか、Dockerとか、Jenkinsとかの、いわゆる DevOps 系のところですね。こうすることで開発者は手を出せるものの自由度が増えるし、インフラはより本来のインフラとして純度を上げていける、 so, win-win ってわけです。 さて、そんなわけで監視です。freee Engineers Advent Calendar 2016の9日目の記事として、 Prometheus による監視が最高なのでみんなもっと使おうと
社内勉強会で「ワクワクする!システム監視入門」という発表をした. 今年の3月頃から DevOps の推進をメインで担当していて,技術的負債の解消,運用改善,外部サービスの導入など,様々な施策を進めている中で,監視の強化も頑張っている.個人的には相当良くなったなー!と思っているんだけど,先日の Infrastructure as Code 勉強会で @songmu さんの話を聞いていたら「監視に対する敷居を下げるべき」という話があって,非常に刺さった.基本的に每日メトリクスを追っているのは僕で,もしかしたら敷居が高いのかもしれないなと感じた.もっとメンバーにもメトリクスを見てもらいたいし,アプリケーション開発に活用してもらいたい!というモチベーションが生まれて今回の発表に繋がった. kakakakakku.hatenablog.com 発表資料 (公開するために一部画像を加工してる) 負荷低
Webサービスのシステム管理で疲弊している人々を救いたい話
NetflixのシニアパフォーマンスアーキテクトであるBrendan Gregg氏による、Linuxサーバにログインして60秒でまず調べることのまとめ。 パフォーマンス問題でLinuxサーバーにログインしたとして、最初の1分で何を調べますか? Netflixには、多数のEC2 Linuxからなるクラウドがあり、そのパフォーマンスを監視したり調査したりするための数々のパフォーマンス分析ツールがあります。その中には、クラウド全体にわたる監視を行うAtlasや、オンデマンドにインスタンスの分析を行うVectorがあります。これらのツールは多くの問題を解決する手助けをしてくれますが、各インスタンスにログインし、標準的なLinuxパフォーマンスツールを実行する必要がある場合もあります。 この記事では、すぐ使えるはずの標準的Linuxツールを使いコマンドラインにおいて、最適化されたパフォーマンス調査を
この記事は MySQL Casual Advent Calendar 2015 - Qiita Elasticsearch Advent Calendar 2015 - Qiita Hamee Advent Calendar 2015 - Qiita の第4日目です。 TL;DR 開発者の皆さんに、CasualにMySQLスローログを分析しもらうために、Fluentd + Elasticsearch + Kibana でMySQLスロークエリを下図のようにビジュアライズしました。(Kibana上で EXPLAIN の結果も確認できるようにしてあります) ついでに、以下の Fluentd の filter plugin を作成しました。 kikumoto/fluent-plugin-sql_fingerprint · GitHub kikumoto/fluent-plugin-mysql_e
Mackerelアドベントカレンダー 4日目です。 昨日は@dolpenさんの「RTX1200の状態をMackerelに監視させる」でした。 qiita.com ネットワーク機器が高負荷で落ちそうとかパケットロスしたときに、グラフでどんな通信があったのかとか確認できると便利ですよね。 そのアラート気付いてます?放置してません? Mackerelとても便利ですよね。Mackerelサーバにクライアントから情報をプッシュするタイプの監視サービスなので、 自宅サーバと外部のサーバを1つの監視に集約できたり、 監視サーバの監視問題(監視サーバの監視はどうしたらいいか)もMackerelに監視を任せることで解決しました。 しかし、監視がどんなに便利になっても、アラートがなった時に対応が出来なければ意味がありません。 導入当時は、監視がこんな簡単にできるなんて便利だなぁとしみじみ思いつつ、アラートに対
こんにちは、インフラストラクチャー部の菅原(@sgwr_dts)です。 インフラストラクチャー部は基本的にクックパッドのインフラに関わる業務を行っていますが、関連会社やグループ会社のインフラまわりについても作業を行ったりお手伝いしたりします。今回、グループ会社である「みんなのウェディング」のAWS化に伴ってそのお手伝いをさせていただいたので、そのときのモニタリングシステムの構築についての失敗談をお話ししたいと思います。 みんなのウェディングのAWS移行 みんなのウェディングは2015年4月にクックパッドグループに加わった結婚式場の口コミサイトです。いままでみんなのウェディングはVPSのホスティングサービスで動いていたのですが、グループ会社化に伴って大規模なリニューアルを進めており、その一環としてAWSへの移行を行いました。 AWSへの移行作業では様々な要素を検討する必要があります。パフォー
Herokuでのご利用は公式サポートの対象外です。 Herokuはウェブアプリケーションを動かすためのPaaSです。 ここでは、Mackerelを利用してHeroku上のアプリケーションを監視する方法を紹介します。 ただし、公式サポート対象とはなっておりませんので、使用上のご質問等にお答えできかねます。なお、対応環境についてはこちらをご確認ください。 Dynoを監視する サービスメトリックを投稿する RailsでJSON形式のログを出力する rsyslogを設定する Heroku Drainsを設定する fluentdを設定する サービスメトリックの監視ルールを追加する Dynoを監視する Herokuは自動でホスト(Dyno)が増減しますので、Auto Scaling環境で使うの設定をHerokuに合わせて利用します。 Herokuでアプリケーションを起動するための Procfile で
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く