[B! サービス運用] masayoshinymのブックマーク

masayoshinym id:masayoshinym

サービス運用に関するmasayoshinymのブックマーク (164)

数十億のレコードを持つ 5年目サービスの設計と障害解決
Kaigi on Rails 2023
masayoshinym 2023/11/01
サービス運用

いつか読む
リンク
cakes（ケイクス）
cakesは2022年8月31日に終了いたしました。 10年間の長きにわたり、ご愛読ありがとうございました。 2022年9月1日
masayoshinym 2022/05/25
サービス運用
リンク
超PayPay祭による高負荷にヤフーはどのように立ち向かったか
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。ヤフーの大岩です。ヤフーが提供するYahoo!ショッピングやPayPayモールでは1年に1度大規模セールを行っています。去年（2020/10/17～11/15）の対象期間は、超PayPay祭の開催に合わせて過去最大級の大規模セールとなっていました。特にセール最終日はグランドフィナーレと呼ばれ、ポイント還元率が年間を通して最大となる1年で最もお得な日となっていました。集客の予測値は通常セールの数倍が見込まれており、セールの高負荷を乗り切るために、セール高負荷専用の対策チームが組まれ、そこを中心として高負荷対策を進めることになりました。本記事では、大規模セールの高負荷に対して実際にどのような負荷対策を行ったかをサー
masayoshinym 2021/09/15
負荷分散

パフォーマンス

開発の現場

いつか読む

サービス運用
リンク
ポートが閉じてることを外部から監視するポートスキャナー（slack通知付き） - Code Day's Night
IP制限しているTCP 22(sshd)や3306(MySQL)のようなポートが空いていないかチェックするツールを作りました。たとえば設定ミスで22番ポートがすべてのIPを許可している状態になってしまっていたというケースがありそうで、サーバ台数が数百台になってくるといちいち気にしているのが面倒なのでチェックする簡易ポートスキャナーを作りました。 github.com 外部監視ツールだとポートが空いてるか、任意の文字列が返るかなどのチェックはできますが、ポートが閉じられてることというのを簡単に管理するのが意外と手間だと感じたのがきっかけです。 Go言語で作ってるのでバイナリにして実行もできます。使い方 goが動く環境を用意して、 echo "example.com\nexample.net" | go run aite9 -tcp 22,3306 のようにすると次のように一気にポートをス
masayoshinym 2021/08/11
ツール

ネットワーク

サーバー運用

サービス運用

いつか読む
リンク
機械学習モデルの局所的な解釈に着目したシステムにおける異常の原因診断手法の構想 - Fire Engine
著者鶴田博文, 坪内佑樹所属さくらインターネット株式会社さくらインターネット研究所研究会第8回WebSystemArchitecture研究会 1. はじめにインターネットを介して利用するシステムの大規模化に伴い，システムの構成要素数の増大や，構成要素間の関係性の複雑化が進んでいる．そのため，システムの性能に異常が発生したときに，システムの状態を示す指標であるメトリックをシステム管理者が網羅的に目視することや，メトリック間の関係性を把握することができず，システムの異常原因を特定することが難しくなっている．この問題を解決するために，深層学習などの機械学習モデルを用いて，システムの異常の原因を診断する手法が提案されている[1,2]．これらの手法は，システム管理者が異常の根本原因を絞り込むために活用することが期待できる．しかし，原因診断を行うためには，事前に機械学習モデ
masayoshinym 2021/06/09
機械学習系読物

サービス運用

サーバー運用

いつか読む
リンク
想定していたものはけっこう簡単に崩れる　BASEとnoteのCTOが、発生した障害対応で実感したこと
BASE社とnote社は、安定したサービス提供をするために、リアーキテクチャやフロントの刷新、セキュリティの強化、パフォーマンス改善など、さまざまな工夫を行っています。それぞれのCTOが課題に対する取り組みと組織運営での奮闘を赤裸々に語りました。2回目は、2020年に起きた障害と技術課題について両CTOが話しました。前回はこちら。自分たちが想定したものはけっこう簡単に崩れてしまう司会者：ありがとうございます。チャットを送ってくださったみなさんありがとうございます。ではさっそく、パネルトークに入っていきたいと思います。いくつかテーマを用意しているので、そちらをピックアップしながら話してもらおうと思っています。今回、4つピックアップしているのですが、チャットで「これってどうなっているんですか？」みたいなものがあれば、適宜拾っていこうと思っています。チャットやQ&Aを送ってもらえるとうれし
masayoshinym 2021/06/08
開発の現場

サービス運用
リンク
メルカリとOmiaiで立て続けに個人情報漏えい　共通点から探るサービス事業者の課題
メルカリとOmiaiの個人情報漏えい事件が大きな注目を集めています。これらの共通点からサービス事業者が取り組むべきセキュリティ認証における課題が見えてきました。立て続けに「不正アクセス」による大きな事件が発生しました。ネットマーケティングが運営するマッチングアプリ「Omiai」が2021年5月21日、外部からの不正アクセスを受け、年齢確認審査書類としてアップロードされた171万1756件分の画像データを漏えいしたことが発覚しました。漏えいしたデータの中には、年齢確認審査書類として禁止されているマイナンバーカードの裏面データも1件含まれていました。マイナンバーの裏面ということは番号そのものが漏えいしていることになります。同日にはもう一件、メルカリによる顧客情報の漏えいも明らかになりました。こちらは少々込み入った手順で情報が漏えいしています。第1の攻撃としては、ソフトウェアテストなどに
masayoshinym 2021/05/26
サービス運用

セキュリティ
リンク
スケールアウトの落とし穴から学ぶ、SREチームでのダッシュボードのアップデート術 - MonotaRO Tech Blog
どんなことが起こったのか？モノタロウのサイトの監視についてレイテンシ監視トラフィック監視エラー監視リソース監視ログトラブルシュートの進め方発生検知発生箇所の特定根本原因の調査強化課題おわりに SREチームの市原(@ichi_taro3) です。モノタロウでは、www.monotaro.com という大規模なECサイトを自社で開発、運用しています。 Webアプリケーションの運用ではトラブルはつきものです。今回は、とあるトラブルシュート事例を軸に、どのように運用を改善しているのかについて紹介します。どんなことが起こったのか？あるとき、モノタロウのWebサービス全体でレイテンシ悪化やバックエンドAPIへのタイムアウトの増加が頻発したことがありました。当然これらは歓迎される状況ではなく、すぐに開発者やSRE、インフラチームの担当者が集まり調査を開始しました。現象は
masayoshinym 2021/05/20
サービス運用

開発の現場

いつか読む

スタートアップ
リンク
Webアプリケーションのパフォーマンス勉強会を開催しました！ - ANDPAD Tech Blog
はじめまして、サーバサイドエンジニアの立木です。特定業種向けポータルサイトやスマートフォンゲーム開発などを経て、昨年3月に入社し、現在はANDPADの開発に従事しています。アンドパッドでは、技術顧問をして頂いてる三谷(mita2)さんによる、データベースに関する勉強会が定期的に行われております。 tech.andpad.co.jp 先日もデータベースの観点から、Webアプリケーションのパフォーマンスをいかにして監視し、改善していくかという勉強会を開催していただきました。今回はその勉強会について気になったポイントをまとめてみたいと思います。当日の資料概要 ANDPADの現状について分析 Datadogによる分析手法よくある改善パターン質疑応答 ANDPADの現状について分析 Webサイトのパフォーマンスは大事当たり前ですが、Webサイトにとってパフォーマンスはとても重要です。
masayoshinym 2021/02/12
パフォーマンス

データベース

開発の現場

いつか読む

サービス運用

いつか理解したい
リンク
ニコニコで12年運用した決済システムを移行する上で必要だったこと - Qiita
はじめに今日は、ニコニコのプレミアム会員サービスを支える「プレミアム課金システム」を動画システムのモノリスから切り出し、変更可能にしていった過程について書きます。プレミアム課金システムは金銭を扱うシステムですので、「（特に、失敗した）話を聞くのは面白いけど、自分で触りたくない」と思われる方も多いのではないでしょうか。この記事では、決済にかかわるシステムでも一般的なシステム改善の方法が適用できることをお伝えしたいと思います。また、コストを抑えつつ着実なシステム改善を行う方法論としてもご理解していただけると嬉しく思います。背景プレミアム会員サービスについて月額500円（税別）のプレミアム会員制度には159万人（2020年9月末現在）の方が加入してくださっており、ニコニコ事業を支える主要な有料サービスです。ニコニコ動画は2006年にサービスを開始し、2007年にプレミアム会員サービス
masayoshinym 2020/12/04
決済サービス

開発の現場

サービス運用
リンク
1000万件オーバーのレコードのデータをカジュアルに扱うための心構え - joker1007’s diary
自分が所属している会社のメンバーの教育用資料として、それなりの規模のデータを扱う時に前提として意識しておかなければいけないことをざっくりまとめたので、弊社特有の話は除外して公開用に整理してみました。大規模データ処理、分散処理に慣れている人にとっては今更改めて言うことじゃないだろ、みたいな話ばかりだと思いますが、急激にデータスケールが増大してしまったりすると環境に開発者の意識が追い付かないこともあるかと思います。そういったケースで参考にできるかもしれません。弊社は基本的にAWSによって運用されているので、AWSを前提にした様なキーワードやサービス名が出てきます。後、句読点があったり無かったりしますが、ご容赦ください。追記: 社内用の資料の編集なのでかなりハイコンテキストな内容だから誤解するかもしれませんが、これらはそもそもRDBの話ではありません。(関係無くは無いけど) 1000万オ
masayoshinym 2020/11/05
パフォーマンス

バッチ処理

プログラミング系読物

開発の現場

いつか読む

サービス運用

サーバー運用
リンク
MySQL のレプリケーションから10年間逃げてきた我々が学んだこと8選 - Cybozu Inside Out | サイボウズエンジニアのブログ
こんにちは。クラウド運用チームで SRE をしている飯塚です。今回は、MySQL のレプリケーション機能を約10年もの間ずっと使ってこなかった私たちが、レプリケーションを使った高可用性構成に移行するための取り組みの中で学んだことについて紹介します。背景巨大なテーブルへの primary key の付与トランザクションサイズが大きい場合には tmpdir に注意 mysqldump で絵文字が消えていないか要チェック mysqldump が Error 1412: Table definition has changed... で失敗する mysqldump したデータのリストアが Duplicate entry 'xxx-yyy-PRIMARY-n_diff_pfx01' for key 'PRIMARY' で失敗することがある mysqldump したデータのリストア時のディスク
masayoshinym 2020/10/27
mysql

開発の現場

サービス運用

いつか読む
リンク
第131回　mysqldumpslowを使ってスロークエリログを解析してみる | gihyo.jp
皆さんはスロークエリログを活用していますでしょうか。今回はこの連載でも第7回　スロークエリーログを使って遅いクエリを収集するや第113回　anemoeaterを使ってスローログを可視化してみるで紹介させていただいた、スロークエリログ関連のお話となります。今回は、mysqldumpslowという、スロークエリログをもっと便利にするコマンドラインツールについて紹介していきます。mysqldumpslowという字面を見ると、mysqldumpでじっくりと時間をかけてダンプファイルを取ってきてくれると思い浮かべるかもしれませんが、全くの別物なので注意しましょう。検証環境今回の検証環境は、第125回　phpMyAdminでDockerで建てたMySQLにアクセスするで記載したdocker-composeを利用して作成します。手元で簡単に試せるように、githubの筆者のレポジトリにサンプルコー
masayoshinym 2020/09/30
MySQL

パフォーマンス

MariaDB

いつか試す

サーバー運用

サービス運用

個人開発
リンク
カオスエンジニアリングを導入したクックパッドの挑戦マイクロサービス化に伴う可用性の低下に対応 - エンジニアHub｜Webエンジニアのキャリアを考える！
カオスエンジニアリングを導入したクックパッドの挑戦マイクロサービス化に伴う可用性の低下に対応料理のレシピ投稿・検索サービスのクックパッドでは2年前からカオスエンジニアリングに取り組み、さまざまな事例やノウハウを蓄積しています。クックパッドの技術部・SR（Site Reliability）グループの小杉山拓弥さんとDX（Developer Productivity）グループの鈴木康平さんに、導入の理由やさまざまな知見を伺いました。カオスエンジニアリング（Chaos Engineering）とは、稼働中のサービスにあえて擬似的な障害を発生させることで、システムの耐障害性を検証する手法です。動画配信サービスを提供するNetflix社が2011年ごろから実践し、ソフトウェアや情報を積極的に公開したことで世界中から注目されるようになりました。国内ではまだ導入事例も少ないなか、料理のレシピ投稿
masayoshinym 2020/09/28
負荷分散

プログラミング系読物

サーバー運用

サービス運用

いつか読む

開発の現場
リンク
はてなブログのキャッシュ周りをきちんと改善したら、アプリケーションサーバの台数を半分にできた話 - Hatena Developer Blog
はてなブログでSREをやっているid:cohalzです。 2019年12月頃からid:utgwkkやid:onkとともに、はてなブログにおけるキャッシュ周りの改善を行いました。その結果、次のような成果が得られました。ブログ記事のキャッシュヒット率が、1日平均で8％から58％に向上アプリケーションサーバの台数を、以前の半数以下に削減 DBに届くリクエスト数が、以前の3分の2まで減少レスポンスタイムの平均が、以前の8割まで減少この記事では、実際にどういった改善を行ったのか、その際に気をつけたことや大変だったことを紹介します。はてなブログがVarnishを導入した経緯と課題開発合宿をきっかけに問題が明らかになる進め方をまず考えるホストのメモリをできるだけたくさん利用するメモリを積んだホストでなぜかレイテンシが悪化キャッシュが分散しないようVaryヘッダを使うデバイス情報を適
masayoshinym 2020/09/18
パフォーマンス

高速化

サーバー運用

サービス運用

開発の現場

いつか読む

スタートアップ
リンク
推測するな、計測せよ　フォージビジョンのエンジニアが教えるパフォーマンス改善に必要なログ分析
ログ分析勉強会は、日々の業務に役立てられる「ログ分析」についての情報交換を目的として活動しています。オンライン開催となった今回、AWSに詳しい山口氏がWebサービスのパフォーマンス改善に必要なログ分析について、日々の業務から得た知見を共有しました。前半は、クライアント側から見たログ分析について。 Webサービスのパフォーマンスとログ分析山口正徳氏：山口と言います。よろしくお願いします。今日はみなさんお集まりいただきありがとうございます。なんと現時点で参加いただいているのが303人。こんなに多くの方に参加してもらえるとは思ってもいなかったので、変な緊張感に包まれています。カミカミなところとかがあったりしても、そこはあたたかい目で見てもらえればなと思います。また、ログ分析勉強会のオンライン配信は JAWS-UG 札幌の三浦一樹さんに協力いただています。配信環境の設営、配信レイアウトの作成な
masayoshinym 2020/09/17
ログ管理

開発の現場

パフォーマンス

サービス運用

サーバー運用

プログラミング系読物

いつか理解したい
リンク
運用練度を高め本番リリースに臨むためのアプローチ | メルカリエンジニアリング
はじめにこんにちは、メルペイのバックエンドエンジニアの cowsys です。「どうすれば決済サービスで必要となる最高レベルの運用練度を有することができるのか」メルペイという決済サービスを開発/運用するにあたって、向き合わざるを得ないテーマの1つです。今回このテーマにあらためて向き合い、目指す運用練度に近づけた手応えを持てたので詳細についてお伝えしたいと思います。取り組みの経緯メルペイをリリースしてから1年がたち、新しいmicroserviceの開発をしています。開発に取りかかるにあたって、新たに取り組むべきテーマを探していました。テーマを探すにあたって、まずはこれまでの、メルペイローンチ前の開発に目を向け、当時の課題を振り返ってみました。メルペイリリース前に直面していた最大の課題。それは「どうすれば決済サービスで必要となる最高レベルの運用練度を有することができるのか」という
masayoshinym 2020/07/13
開発の現場

サービス運用

いつか読む
リンク
マネーフォワード、サービスのリニューアルに失敗・わずか1日で無かったことに : 市況かぶ全力２階建
失言で静岡県知事を辞任の川勝平太さん、最後の最後にリニア新幹線に黄信号（制限速度45km/hで進め）を出す失言
masayoshinym 2020/07/09
サービス運用
リンク
3万同接で苦しんでたのに30万同接が楽勝になった話｜SUGAR株式会社｜note
こんにちは！SUGAR株式会社のCTOをしている杉谷と申します。SUGARという生放送システムを作っています。 “SUGAR is 何” については社長の鎌田(UUUM社長でもある)が https://note.com/sugarcorp/n/n2f3a0fe1a107 で解説していますので、よろしければご覧ください！はじめに昔(もう13年前)にも生放送システムを作ったことがあったんですが、当時は技量と知見が足りず今みたいに便利なサービスやツールも無かったので負荷に弱く、数万人のユーザーが殺到すると落ちる、なんてことが頻繁にありました。それから11年後、いろいろあって人生2度目の生システムであるSUGARを作ることになりました。今度こそはとガッチガチに負荷対策をしたところ某人気俳優の方の配信で三十数万人が一瞬で殺到してもなんとか死なない※システムを作ることができました。 ※正確には最初
masayoshinym 2020/06/02
開発の現場

サービス運用

負荷分散

いつか読む

いつか理解したい
リンク
Google Play Consoleでアップデートしたアプリがストアに公開されたことをSlackに投稿する自動化の紹介（Zapier）｜キンパツ / Shinobu Okano
Google Play Consoleでアップデートしたアプリがストアに公開されたことをSlackに投稿する自動化の紹介（Zapier）タイトルの件、Zapierを使えば簡単に自動化できます。ちなみに、今回紹介するワークフローはZapierでなくても実現する方法があると思います。 Zapier使ってないよ！って人もざっと見ていただけると嬉しいです！アップデートしたアプリがストアに公開されているかチェックするのだるいそう、とてもだるい。定期的にGoogle Play Consoleやストアを見にいって「公開されてるかな👀」と確認するのは無駄な作業ですよね... 私、、、この無駄な作業ちょっと前までやってました... でも「絶対にこの無駄な作業から開放される方法があるはず！」と思い、Google Play Consoleのとある設定を見たら、「これをトリガーにすればZapierで自
masayoshinym 2020/05/28
Android開発

サービス運用
リンク
1 2 3 4 5 6 7 8 9 次のページ