SREの人気記事 1601件 - はてなブックマーク

1 - 40 件 / 1601件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

SREの検索結果1 - 40 件 / 1601件

失敗を学びに変える「障害報告書」の書き方 ─ RettyのCTOがGoogleで学んだ「問題を隠さない文化」 - エンジニアHub｜Webエンジニアのキャリアを考える！
- 1591 users
- eh-career.com
- テクノロジー
- 2018/05/25
失敗を学びに変える「障害報告書」の書き方 ─ RettyのCTOがGoogleで学んだ「問題を隠さない文化」人間は失敗するものです。エンジニアもまたしかり。Retty株式会社の樽石CTOが考える、失敗を学びに変える考え方とノウハウを紹介します。はじめまして。Retty株式会社でCTOを務める樽石将人（ @taru0216）です。Rettyにおける技術の責任者として不確実性の高いシステム開発を成功に導くよう牽引したり、メンバーが働きやすくなるような仕組みづくりを行ったりしています。子供の頃からパソコンに親しみ、新卒一期生でレッドハットに就職して、Rettyに入社するまでGoogleや楽天を経てきました。エンジニアとして活動して約30年。日々失敗し続けていますし、過去には大規模サービスを止めてしまったこともあります。人間である以上、バグやエラーは必ず起こるもの。エンジニアは失敗を繰り返
- エンジニア
- あとで読む
- 障害
- google
- 仕事
- 失敗
- サーバ
- キャリア
- サービス
- SRE
総務省、きょうから「社会人のためのデータサイエンス入門」を無料開講 | Ledge.ai
- 1402 users
- ledge.ai
- テクノロジー
- 2022/06/07
サインインした状態で「いいね」を押すと、マイページの「いいね履歴」に一覧として保存されていくので、再度読みたくなった時や、あとでじっくり読みたいときに便利です。
- 統計
- あとで読む
- データ
- 入門
- AI
- 社会
- 分析
- 勉強
- 本
- 機械学習
DXとかDevOpsとかのなんかいい感じのやつ　富士通TechLive
- 1200 users
- www.slideshare.net/TokorotenNakayama
- テクノロジー
- 2020/03/05
2020/03/03 に富士通本社で行われた、富士通TechLiveに発表資料です。コロナウィルスの影響で、リモート発表になりましたが、当日は800人以上の方に同時視聴していただきました
- DevOps
- DX
- あとで読む
- 組織
- ソフトウェア
- 労働
- 仕事
- 心理
- コンピュータ
- slide
The Twelve-Factor App （日本語訳）
- 1170 users
- 12factor.net
- テクノロジー
- 2013/08/06
はじめに現代では、ソフトウェアは一般にサービスとして提供され、Webアプリケーションや Software as a Service と呼ばれる。Twelve-Factor Appは、次のようなSoftware as a Serviceを作り上げるための方法論である。セットアップ自動化のために宣言的なフォーマットを使い、プロジェクトに新しく加わった開発者が要する時間とコストを最小化する。下層のOSへの依存関係を明確化し、実行環境間での移植性を最大化する。モダンなクラウドプラットフォーム上へのデプロイに適しており、サーバー管理やシステム管理を不要なものにする。開発環境と本番環境の差異を最小限にし、アジリティを最大化する継続的デプロイを可能にする。ツール、アーキテクチャ、開発プラクティスを大幅に変更することなくスケールアップできる。 Twelve-F
AWS システム構築非機能要件ヒアリングシートを公開してみた | DevelopersIO
- 1152 users
- dev.classmethod.jp
- テクノロジー
- 2020/07/27
こんにちは。ご機嫌いかがでしょうか。 "No human labor is no human error" が大好きなネクストモード株式会社の吉井亮です。日本国内においても多くのシステムがクラウド上で稼働していることと思います。俊敏性、拡張性、従量課金、IaS、セキュリティなどクラウドのメリットを享受しやすい所謂 SoE で多くの実績があるように感じます。ここ1~2年は、社内基幹システム・情報システム、SoR 系のシステムのクラウド移行が本格化してきたというのが肌感覚であります。クラウドでのシステムインフラ構築は従来のようにゼロから非機能要件定義を行っていくものではなく、ベストプラクティスをまず実装して少しずつ微調整を行っていくものと考えています。とはいえ、システムごとの要件は予め明らかにしておくことがインフラ構築においても重要になります。クラウド上では出来ること出来ないこと
DevOps の能力 | Cloud アーキテクチャセンター | Google Cloud
- 1143 users
- cloud.google.com
- テクノロジー
- 2019/10/26
デジタルトランスフォーメーションを加速お客様がデジタルトランスフォーメーションに乗り出したばかりでも、あるいはすでに進めている場合でも、Google Cloud は困難な課題の解決を支援します。
- DevOps
- あとで読む
- google
- 開発
- cloud
- クラウド
- 組織
- GCP
- development
- ソフトウェア構成管理
Webパフォーマンス虎の巻
- 1116 users
- qiita.com/usagi-f
- テクノロジー
- 2018/10/25
Webパフォーマンス向上施策のために、今更ながら超速本1を読んだので、今までの自分の知見と合わせてまとめてみます。なるべく柔らかく、改善施策ってまず何をどうすればいいの？という疑問を持った人に向けて書いています。 ▪️格言そもそもWebは速い。遅くしているのは我々です。大抵は技術の問題ではなくて、人の問題。引用元：テクニックではなく、今、本気で取り組むべきWebパフォーマンス（html5jパフォーマンス部部長竹洞さん）心得パフォーマンス向上に対する施策は大別すると以下の２通り軽量化（単純にやりとりするデータ容量を小さくすること）圧縮削除最適化（その時に最も適している実装・実行をとること）経路・順番の変更非同期もっとも遅くしている原因を探して、それを対策するのが原則。「対効果」が絶対的正義である。手段から入るのは愚策。まず先に原因を知ることが重要。 ▪️1
- パフォーマンス
- web
- performance
- あとで読む
- chrome
- 高速化
- web制作
- network
- 開発
- development
3〜4時間でAWSの監視系のサービス一気に学べたらコスパ良いと思いませんか | DevelopersIO
- 1092 users
- dev.classmethod.jp
- テクノロジー
- 2020/09/17
突然ですが、以下の機能がそれぞれどういうものかすべてご存知でしょうか？ CloudWatch ServiceLens X-Ray CloudWatch Contributor Insights CloudWatch Synthetics CloudWatch Container Insights CloudWatch Logs Insights CloudWatch メトリクス Metric Math 検索式カスタムメトリクス CloudWatch ダッシュボード CloudWatch 異常検出（Anomaly Detection） CloudWatch 埋め込みメトリックフォーマット CloudWatch アラーム異常検出に基づいたアラーム複合アラーム私はわからなかったですね。ここ 1〜2年のCloudWatch系のアップデート量は凄まじいなと個人的には思っていて、Cloud
- aws
- あとで読む
- 監視
- 学習
- マネジメント
- 勉強
- サービス
- tutorial
- monitoring
- IT
インフラを意識してコードを書くということ - Hatena Developer Blog
- 1027 users
- developer.hatenastaff.com
- テクノロジー
- 2016/05/30
チーフエンジニアの id:Songmu です。 4月に新人エンジニア研修を行なったのですが、その際に、「インフラを意識したアプリケーションの書き方」という講義を担当しました。そこでおこなった講義の内容について整理しながら書き起こしていきたいと思います。インフラを意識すると何が良いか業務でWebアプリケーションを扱うと、個人ではなかなか扱えないトラフィックであったりデータ量を扱うことになります。小規模サービスでは考えなくてよかった多くのことを考慮する必要がでてきます。なかなか体験できないことでもあるので、楽しく、やりがいもあります。また、そういった経験を通して、インフラを意識しコードをかけるスキルを身につけることは、Webエンジニアとしては大きな強みとなります。ISUCONで優勝できるかもしれません*1。インフラを意識すると何が良いか〜中規模ベンチャーの場合そもそも、はてな
- インフラ
- エンジニア
- あとで読む
- development
- 開発
- engineer
- はてな
- hatena
- 仕事
- IT
闇のDevOps DevOpsと業績評価 – ところてん – Medium
- 1014 users
- tokoroten.medium.com
- テクノロジー
- 2017/02/01
ここから、DevとOpsが協力すればより効率的になる＝DevOps、という言葉が生まれました。当時は大企業においてはDevとOpsが分かれていることが当たり前だったのです。そして、大企業における当たり前が、当たり前ではないことに気付き始め、DevOpsを実現するためのツールができ始めたころでもあります。ではなぜ、大企業ではDevとOpsが分かれているのが当たり前だったのでしょうか？ハードウェアの時代その昔、産業の主役はハードウェアでした。そのため、多くの企業はハードウェアを作ることに対して最適化が行われました。ハードウェアには研究開発、製造、運用サポートといった大きな区分けが存在します。そして、それぞれの仕事において要求する人材レベルは異なります。加えて、大量生産された製品の運用サポート（設置作業員、サポートセンタ）には、大量の人員が必要になってきます。したがって、組織を研究
- devops
- SRE
- management
- 開発
- development
- あとで読む
- 運用
- 仕事
- エンジニア
- プログラミング
「次から気をつけます」に対抗する、反省文よりは効果が上がる再発防止、学びの機会 - Qiita
- 966 users
- qiita.com/e99h2121
- テクノロジー
- 2021/08/16
再発防止策を書くのは難しい。良い再発防止策良い再発防止策について、順位付けするとしたら、その種類の問題について二度と意識することがなくなる解決策その種類の問題を開発時に自動的に検知することができる解決策その種類の問題が発生しても自動的に復旧することができる解決策その種類の問題が発生しても影響が局所化される、フールプルーフ、フェールセーフになる解決策と言うのは意識したいと思いつつ、やはり難しい。再発防止はむずかしい障害の再発防止策は、メカニズムツールルールチェックリストの順番に検討せよ。と言われても、急いで書けなんて言われると「次回からは複数人でチェックします。」とか「チェック項目を追加します。」とかいう徹底できなそうな「反省文」になってしまう。まさにこの有名な猫...。 **「なぜミスを繰り返すのか」「どうすればミスを防げるのか」を真剣に考えていないことがミス
Google の面接を受けてみた - 科学と非科学の迷宮
- 925 users
- shiumachi.hatenablog.com
- 暮らし
- 2009/01/22
Google の面接について書かれたブログ記事が面白かったので翻訳してみました。原著者の許可取得済み。(Thank you, Petris!) 本文二週間ちょっと前、ぼくはカリフォルニアのマウンテンビューで Google の面接を受けてきたんだ！ Google の面接が面白い体験だったから、ぼくはそのことを話したいんだ。(Google からはこの記事を出すゴーサインをもらった) ぼくが面接を受けた職種は Google SRE だった。SRE というのはサイト信頼性エンジニアリング(Site Reliability Engineering)という意味だ。サイト信頼性エンジニア(SRE)はソフトウェアエンジニアでもあり、システム管理者でもあって、Google の製品サービスを端から端まで責任を持つんだ。合計8回の面接があった。最初の3つは電話越しで(電話面接)、残りの5つは現地での面接だ
- recruit
- google
- 就職
- 面接
- 読み物
- work
- programming
- 仕事
- job
- business
書評「入門　監視」雰囲気で監視をやっているすべての人にオススメ | DevelopersIO
- 864 users
- dev.classmethod.jp
- テクノロジー
- 2019/01/21
監視という一種マニアックな領域を真正面から解説した貴重な本です。監視で悩む人のみならずシステム開発に携わるすべての人にオススメ。「全然わからない。俺たちは雰囲気で監視をやっている」自分はAWS事業本部コンサルティング部所属ということもあって、いろんなお客様にAWSインフラのコンサルティングしてます。最初のインフラ構成設計時に監視の話をすることも非常に多いんですが、「どうしましょう。CloudWatchでいけますかね？」「MackerelとかDatadogとかもありますが、どうしましょ。マネージドとの違いは〜」「とりあえず、ディスク使用率80%でしきい値設定しておきましょうか。みんなそうしてますよ」とか言っていた昔の自分に見せつけたい本、それが今回紹介する「入門　監視」。監視設計の原則がよくわかんないメトリクスのしきい値決めるところから監視を考えてしまいがちよく考えずに、い
- 監視
- あとで読む
- 本
- エンジニア
- 書評
- 入門
- book
- monitoring
- デザイン
- 管理
なぜ「システムが無事に動いている」ことの価値は理解されないのか
- 842 users
- blog.tinect.jp
- テクノロジー
- 2017/02/08
最近はあまり技術的な仕事をしていないんですが、実は私は元々DBエンジニアです。 OがつくDBとか、PがつくDBとか、mがつくDBとかをいじくって、クエリを書いたり、テーブルの設計をしたり、パフォーマンスのボトルネックをあれこれ調べて解消したり、INDEXヒントを総とっかえして頑迷なオプティマイザをぶん殴ったりすることが主なお仕事でした。今でもたまーにそういうことをします。同業の方であればお分かりかと思うんですが、DBのパフォーマンスは凄く唐突に、かつ多くの場合極端に落ちます。そして、DBのパフォーマンスが落ちると物凄く広範囲に影響が及びます。アプリケーションサーバ、重くなります。クライアント、ろくに動かなくなります。お客様、切れます。カスタマーサポートにはわんさか電話がかかってきます。ただ「遅くなる」だけでも十分に影響は甚大なのですが、それ以上のトラブルが発生するとまあエラいこっちゃ
- インフラ
- システム
- 運用
- 仕事
- あとで読む
- DB
- サーバ
- 社会
- 技術
- 読み物
エンジニアなら知っておきたい障害報告&再発防止策の考え方 - Qiita
- 832 users
- qiita.com/hirokidaichi
- テクノロジー
- 2014/01/18
システムには障害がつきものです。どんなにしっかりと作られたサービスであっても思わぬところで、バグやミスが発覚して、トラブルになるものです。大事なのはこういった障害を次への糧にしていくこと。失敗というのは大事な資産なので、管理できるようにしましょうという話。あわせて読みたいあきらめるにはまだ早い！ソースコードの品質向上に効果的なアプローチメンタリングの方法について基礎をまとめました。内心でなく行動を変えることが障害報告とも共通します。新入社員が来てメンターになれって言われたけど、どうすればいいのかという対話テクニック半年で40kg痩せた！ダイエットでわかるリーンなプロジェクトマネジメント手法心理的安全性ガイドライン（あるいは権威勾配に関する一考察）障害の種類と障害報告について障害には、小さなもの、たとえば画面に表示されているテキストの乱れから、すべての画面で50xエラーが発生
- 障害
- 再発防止
- エンジニア
- 開発
- 仕事
- システム
- server
- error
- test
- 事例
最高のITエンジニアリングを支える守りと攻めの「設計技術」と「SRE」 - Speaker Deck
- 796 users
- speakerdeck.com/katsuhisa91
- テクノロジー
- 2018/07/29
最高のITエンジニアリングとは、ユーザーへの価値提供に最大限集中できる状態を維持し続ける技術だと私は考えます。では、その状態を阻害する要因は一体何であり、どうすれば取り除くことができるのでしょうか。このような具体的な問題と向き合い、近年注目されているSRE の考え方を取り入れ、実装しながら乗り越えてきた体験談についてお話します。（HashiCorp ツールの実装、運用自動化など）また、一歩進んだITエンジニアになるため、実装に留まらない組織的な施策実行の考え方や実際の進め方についてもお伝えします。July Tech Festa 2018 での発表資料です。
- SRE
- あとで読む
- エンジニア
- 設計
- 運用
- 技術
- IT
- 考え方
- エンジニアリング
- DevOps
Gmailのメール認証規制強化への対応って終わってますか？ - エムスリーテックブログ
- 777 users
- www.m3tech.blog
- テクノロジー
- 2023/10/24
こんにちは。エムスリー・QLife(エムスリーのグループ会社)・エムスリーヘルスデザイン(エムスリーのグループ会社)でエンジニアとして各種作業に関わっている山本です！以前もメール送信の話を書かせていただいたことがありますが、今回もまたメールネタとなります。今回のお題はメールセキュリティです。大量メール送信のための予備知識 - エムスリーテックブログすでにご覧になった方もいるかと思いますが、次のようなニュースが流れています。 www.proofpoint.com この「GoogleとYahooの新Eメール認証要件」ってつまりどういうことよ？というところを具体的にどのように進めているかについて書かせていただきたいと思います。 2023/12/18追記 : Googleからメール送信にTLSを使うことが追加要件として示されました。 TL;DR とりあえず何から始める？何はともあれ実際に
- gmail
- メール
- あとで読む
- mail
- セキュリティ
- 認証
- google
- DKIM
- SPF
- DMARC
Linuxのloadavgが約7時間ごとに上昇する現象の原因 - Mackerel お知らせ #mackerelio
- 772 users
- mackerel.io
- テクノロジー
- 2018/06/13
Mackerelチームのエンジニアのid:itchynyです。「mackerel-agentを入れるとloadavgが7時間ごとに上昇する」先日、このような問い合わせを複数のお客さまから受けました。私も実験してみたところ、確かに再現しました。EC2 t2.microにmackerel-agentを入れて簡単なログ監視とプロセス監視を設定し、数日放置しました。確かに、約7時間ごとにloadavgが上昇しています。この周期のcronの設定はしておらず、またmackerel-agent内部でも7時間ごとに行う処理はありません。しかし、プラグインを多く入れるほどloadavgのピーク値も上がります。本エントリーでは、この現象の原因について説明します。 loadavgが上昇する原因を調べるには、まずloadavg自体がどう計算されているかを知る必要があります。まずは、Linuxがloada
Google、書籍「Site Reliability Engineering」の無料公開を開始。インフラや運用をソフトウェアで改善していく新しいアプローチ
- 768 users
- www.publickey1.jp
- テクノロジー
- 2017/01/30
Google、書籍「Site Reliability Engineering」の無料公開を開始。インフラや運用をソフトウェアで改善していく新しいアプローチ「Site Reliability Engineering」（SRE）とは、GoogleのシニアVPであるBen Treynor氏が提唱した、高い信頼性や性能を発揮するシステムインフラを実現し、改善していくアプローチのひとつです。これまでの運用チームやインフラチームによる運用や改善とSREが異なるのは、SREでは積極的にコードを書き、ソフトウェアによって目的の達成を目指している点にあるといえます。 Googleが公開しているSREのWebサイトでは、SREを次のように説明しています。 Like traditional operations groups, we keep important, revenue-critical syst
- google
- SRE
- あとで読む
- インフラ
- book
- DevOps
- 書籍
- ソフトウェア
- 運用
- engineering
Amazon AWSでユーザ数1100万以上にスケーリングするためのビギナーズ・ガイド | POSTD
- 754 users
- postd.cc
- テクノロジー
- 2016/03/07
あるシステムを、1人のユーザから1100万人以上にスケーリングするにはどのようにすれば良いのでしょうか。Amazonのウェブサービスソリューションアーキテクトである Joel Williams が AWS re: Invent 2015 Scaling Up to Your First 10 Million Users でスケーリング方法について素晴らしいプレゼンをしています。 AWS上級者のユーザには適さないプレゼンですが、AWS初心者やクラウド初心者、Amazonが次々と送り出す新機能の流れについていけていない人が始めるには素晴らしい内容だと思います。おおよその見当は付いていると思いますが、このプレゼンはAmazonによって提供されているため、どの問題についても解決策として提案されているものは全てAmazonのサービスになります。amazonのプラットフォームの役割は、印象深く、分か
次世代監視の大本命！ Prometheus を実運用してみた - Qiita
- 752 users
- qiita.com/sugitak
- テクノロジー
- 2016/12/09
こんにちは！freeeでインフラゾンビをやっている @sugitak です。ゲームではレベルを上げて物理で殴る派です。 freee ではたまにインフラエンジニアの数が減るのですが、その減ったインフラエンジニアはインフラゾンビへと進化し、社内を闊歩します。インフラゾンビは主に開発チームに所属して、アプリっぽいインフラの仕事をインフラからアプリ側へと持っていきます。デプロイとか、Dockerとか、Jenkinsとかの、いわゆる DevOps 系のところですね。こうすることで開発者は手を出せるものの自由度が増えるし、インフラはより本来のインフラとして純度を上げていける、 so, win-win ってわけです。さて、そんなわけで監視です。freee Engineers Advent Calendar 2016の9日目の記事として、 Prometheus による監視が最高なのでみんなもっと使おうと
- prometheus
- 監視
- monitoring
- インフラ
- 運用
- あとで読む
- google
- docker
- server
- freee
「Jenkins X」発表。Git/Docker/Kubernetesに特化したことでCI/CD環境の構築運用を自動化
- 731 users
- www.publickey1.jp
- テクノロジー
- 2018/03/22
「Jenkins X」発表。Git/Docker/Kubernetesに特化したことでCI/CD環境の構築運用を自動化ソフトウェアの開発プロセスにおいて、「Jenkins」はビルドやテスト、デプロイなどを自動化してくれるツールとしてよく知られています。そのJenkinsの派生プロジェクトとして、「Jenkins X」が発表されました。Jenkins Xは、Git、Docker、Kubernetesの環境を前提とすることで、Jenkinsの設定、運用などを大幅に自動化し、より簡単な導入と運用を実現するものです。 Jenkins Xは、Git/Docker/Kubernetes環境に特化オリジナルのJenkinsは汎用的なビルドやテストの自動化ツールとして、さまざまな環境やツールと連係できるように作られています。そのため柔軟なコンフィグレーションが可能になっていますが、一方でそれが導入や
- jenkins
- docker
- Kubernetes
- ci
- git
- あとで読む
- Publickey
- App
- 自動化
- DevOps
プログラマーの三大美徳 | メルカリエンジニアリング
- 683 users
- engineering.mercari.com
- テクノロジー
- 2016/06/30
みなさんはプログラマーの三大美徳ってご存知ですか? プログラミング言語Perlの作者である Larry Wall が↓で述べたのが最初とされています。 http://www.perl.com/pub/1998/08/show/onion.html 三大美徳として怠惰(laziness) 短気(impatience) 傲慢(hubris) があげられています。今回はそのうち怠惰(laziness)についてお話します。怠惰(laziness) 怠惰といえば怠け者。怠け者といえば怠け者メガネ。怠け者メガネを使えば誰でも簡単に美徳を手にいれることができます。この怠け者メガネを使うと視線は前方に向けたまま下方を見ることができます。本来は寝転がってテレビを見るために開発されたようです。この怠け者メガネを使ったプログラム開発について説明します。レベル0 怠け者メガネを装着せずに作業します。
25K request/secをさばいた「LINEのお年玉」のアーキテクチャの裏側 - LINE ENGINEERING
- 648 users
- engineering.linecorp.com
- テクノロジー
- 2018/02/13
みなさんこんにちは、LINEのサーバーサイドエンジニアの長谷部です。普段は、最近でいうとLINE Login や LINE Customer Connect などの開発を担当しています。 2018年の年始に LINEのお年玉というイベントを実施し、その開発を担当しました。今回の記事では、LINEのお年玉のアーキテクチャの紹介や、当日実際に発生した問題(サービス過負荷起因のkafka consumer遅延)などの振り返りについて書こうと思います。 LINEのお年玉とはお年玉イベント期間中に、お年玉とLINEスタンプをセットで「お年玉つきスタンプ」として販売しました。対象スタンプを購入したユーザーさんは、スタンプ購入数 x 10個のお年玉が付与されます。こういったメッセージが受信されますユーザーは自分がもっているお年玉を友だちに直接送ったりグループに送信することができ、お年玉を受け取
ゼロから始める、データ分析と可視化 - Kyash Product Blog
- 637 users
- blog.kyash.co
- テクノロジー
- 2021/08/18
はじめまして。Kyashでデータエンジニアリングを担当しているKyashデータマンです。この記事では、Kyash社内のデータ分析の基礎に関するドキュメントを紹介します。 Kyashでは、データエンジニアリング・ガバナンス・セキュリティなど様々な角度から、公正なデータの取扱いと活用を推進しています。従来は、一部の訓練された技術者がデータ分析を一手に担っていましたが、社内でもデータ活用のニーズも多く、その担当者に分析や集計の業務が集中するという課題がありました。この課題に対して、データへの適切なアクセス管理を行い、そして適切なBIツールを導入することで、データを取り扱う人が自分でデータ分析・そして活用できるようになることを目指しています。アクセス管理には、個人情報やそれに準ずる機密データに対して、ポリシータグによるアクセス権のコントロール、そしてアクセス権のリネージなどのソリューションの導入
- 統計
- あとで読む
- データ分析
- データ
- 分析
- グラフ
- 仕事
- 可視化
- tableau
- tips
Kaizen Platform という会社について
- 613 users
- portalshit.net
- テクノロジー
- 2017/06/17
Qiita:Team エントリのレベルが高い CEO や CTO 、プロダクトマネージャーの書く Qiita Entry のレベルが高く、 Qiita:Team のタイムラインがはてブのホッテントリのようだった。ブックマークできるもんならしたいという感じ。お金を儲ける仕組みってこうやって作り出されていくんだなぁと思いながら眺めてた。技術顧問の伊藤直也さんが残していった名エントリも結構あった。 Kaizen エンジニア行動指針とか。 SRE （インフラチーム）のレベルが高いインフラが盤石だった。 SRE は二人しかいなかったがとても仕事が速く、困ったことがあって Slack のインフラ相談チャンネルで相談したらたいてい 3 分くらいで問題が解決してた。 yosudo さんは問題解決能力が高すぎていまは SRE ながら VP of GA （総務部門のドン）やってるし、 glidenote さ
10年モノのインフラを3年がかりでカイゼンした - Qiita
- 588 users
- qiita.com/sasasin
- テクノロジー
- 2018/09/18
CI いちおうJenkinsが立ってました。失敗して赤くなってるジョブが大半で、かといって誰が治すわけでもなく、よくわからないけど失敗したり成功したり、とにかく不安定でした。 CloudWatchのメトリクスで眺めて、EBSのIOPSクレジットの枯渇から激遅になって、Jenkinsジョブのタイムアウト設定で失敗になる、まで明らかにしました。その時の対処は、IOPSクレジット上限サイズの1TBのSSDのEBSを付けることと、同時並行で動けるJenkinsジョブ数に上限を設けることで、落ち着くようになりました。とはいえ「Jenkinsおじさん」問題があるので、CIをどうにか民主化する必要があります。SaaSから検討して、TravisCIとCircleCIが最終候補になって、トラブルシュートをSSHでできるのを決め手に、CircleCIを導入しました。 8月末にCircleCI1.0が死んだと
- インフラ
- あとで読む
- サーバ
- aws
- 監視
- infra
- server
- 技術
- Infrastructure
- 管理
システム運用アンチパターン
- 586 users
- www.oreilly.co.jp
- テクノロジー
- 2022/03/25
上層部がDevOpsに理解のない組織で働き、組織構造を変える権限を持っていない開発者であっても、チームにDevOpsを導入するための現実的な方法を紹介します。重厚な承認プロセス、可視化されていない運用、プロセスの最後でのみ行われるソフトウェアテスト、ノイズだらけのアラート、インシデントから学習しない習慣、時間外のデプロイ、情報のため込みなどを取り上げ、ソフトウェアシステムの開発運用が滞るチームや組織に共通してみられる陥りがちな状況や犯しがちな間違いをアンチパターンとして紹介します。そして管理職やマネージャでなく、エンジニアが実行し、繰り返すことで改善できる具体的な行動を解説します。組織で必要とされる変化を、エンジニアが行動することで実現する本書は、ソフトウェアシステムをよりよく開発運用したいエンジニア必携の一冊です。目　次序文本書について 1章　DevOpsを構成するもの 1.1
- 運用
- あとで読む
- DevOps
- book
- システム
- 本
- 書籍
- 仕事
- パターン
- 文化
時系列データベースに関する基礎知識と時系列データの符号化方式について - クックパッド開発者ブログ
- 574 users
- techlife.cookpad.com
- テクノロジー
- 2017/05/31
こんにちは。インフラストラクチャー部 SRE グループの吉川 ( @rrreeeyyy ) です。今期オススメのアニメはツインエンジェル BREAK です。普段の業務並びに趣味の一環として、サーバのモニタリング環境の調査や改善に取り組んでいます。そこで本稿では、モニタリングのコンポーネントの一つとして外すことが出来ない、時系列データベースの基礎知識に関して紹介します。そもそも時系列データ・時系列データベースとは？時系列データというのは、特定の時間ごとに何らかの値を取得した際の、取得した一連の値を指します。例えば、以下のようなフォーマットをしたデータなどは時系列データにあたるでしょう。 timestamp1,key,value1 timestamp2,key,value2 timestamp3,key,value3 : 時系列データベースとは、上記のような時系列データの保存・処理に
- TSDB
- DB
- database
- データベース
- あとで読む
- graphite
- cookpad
- monitoring
- timeseries
- time-series
運用を楽にするためのアプリケーションコードを書くということ : sonots:blog
- 571 users
- blog.livedoor.jp/sonots
- テクノロジー
- 2015/05/18
- 運用
- DevOps
- operation
- server
- インフラ
- デプロイ
- sonots
- ruby
- ツール
- あとで読む
cookpad.com 全 HTTPS 化の軌跡
- 565 users
- speakerdeck.com/kanny
- テクノロジー
- 2017/01/30
セキュリティ担当者から見た re:Invent と AWS Security Hub / Impression of re:Invent and AWS Security Hub
- https
- cookpad
- security
- SSL
- あとで読む
- セキュリティ
- slide
- Web
- tls
- sre
Nginxで、リクエストを複製するmirrorモジュールが標準搭載された - ASnoKaze blog
- 564 users
- asnokaze.hatenablog.com
- テクノロジー
- 2017/07/24
[20170809追記] nginx-1.13.4に ngx_http_mirror_module は含まれました Nginxで、リクエストを複製するmirrorモジュールがコミットされ、何もせずとも使用できるようになりそうです(現状最新コミットをビルドする必要あり)。例えば本番環境のproxyからリクエストを複製して開発環境に流すような事も出来ます。もちろん複製処理は本来のリクエスト処理をブロックしません。例えば以下のように、mirrorに来たリクエストを複製してバックエンドサーバに投げるようにしてみます conf server { listen 80 ; server_name localhost; mirror_request_body on; log_subrequest on; location /mirror { mirror /proxy; #/proxy宛にリクエストを
- nginx
- proxy
- mirror
- あとで読む
- HTTP
- サーバ
- server
- インフラ
- web
- access
Google の新しい専門職 : CRE が必要な理由
- 544 users
- cloudplatform-jp.googleblog.com
- テクノロジー
- 2016/10/19
Google Cloud Platform (Google App Engine, Compute Engine, BigQuery や Container Engine など）の情報の日本公式ブログ
- google
- CRE
- SRE
- あとで読む
- 仕事
- cloud
- ITインフラ
- 考え方
- Google Cloud Platform
- web
バッチプログラムの運用と監視について検討しよう | メルカリエンジニアリング
- 534 users
- engineering.mercari.com
- テクノロジー
- 2019/04/17
こんにちは。メルペイでバックエンドソフトウェアエンジニアをしている id:koemu です。バッチプログラムのお話、今回は運用・監視についてお話したいと思います。当社はすべての業務が24時間行われていますので、システムがオンラインのときに動作するバッチプログラムについてのみ議論します。過去の記事はこちらにあります。運用に備えてバッチプログラムの運用について、「プリモーテム」「実行管理」そして「ログ管理」の3点について述べていきます。プリモーテムポストモーテムという言葉を聞いたことがある方はいらっしゃるかと思います。ポストモーテムとは、GoogleのSRE本の15章*1によれば、障害などの失敗を振り返り、今後に活かすプロセスの総称と捉えることができます。さて、プリモーテム(プリモータム)とは何でしょうか。この言葉は、私が最近読んだThe Manager’s Path*2*3で使
- 運用
- 監視
- あとで読む
- batch
- monitoring
- 設計
- バッチ
- mercari
- プログラム
- sre
「絶対要らないハズだけど、なかなか削除できずにいるもの」を対応した小話 | メルカリエンジニアリング
- 533 users
- engineering.mercari.com
- テクノロジー
- 2017/05/26
はじめましてこんにちは。SREの@masartzです。私は最近joinしたのですが、今回は本番環境に古くからあるテーブルの掃除作業をした案件をご紹介します。 tl;dr; 本番の住所情報テーブルを消したけど問題なかった話絶対要らないハズだけど、なかなか削除できずにいるものを対処する話本番環境の住所情報テーブルをdropするまでの作業今回、本番環境の住所情報テーブルをdropしました。と言っても、事故でもうっかりでもなく、既に使われていなかったものの整理という作業でした。何故使われていなかったかというのは、メルカリの住所情報の保持の仕方の変遷が関係しています。初期にはuser情報と住所情報は1対1の関係でした。イメージとしては以下です。 CREATE TABLE IF NOT EXISTS users ( id INT UNSIGNED NOT NULL, name VARC
- DB
- 運用
- あとで読む
- database
- メルカリ
- development
- 開発
- create
- engineering
- mercari
大量メール送信のための予備知識 - エムスリーテックブログ
- 531 users
- www.m3tech.blog
- テクノロジー
- 2023/06/06
【SREチームブログリレー1回目】お疲れ様です。エンジニアリンググループ、コアSREの山本です。他の情報伝達手段が現れた今は「メール」は以前よりも比重は落ちたかもしれませんが、まだまだ多くの人に情報を一気に伝えるための重要なツールです。エムスリーでは自社サーバを利用してメールの大量送信を実施していますが、メール送信を実施するにあたって気にすべき基本的な事項についてシェアさせてください。大量メール送信に関連する基本的な設定基本的な設定(SPFと逆引き) DKIM IPの追加削除バウンスメール処理金で解決まとめ We are Hiring! 大量メール送信に関連する基本的な設定メール送信自体はそれほど難しいものではありません。エムスリーではpostfixを利用していますが、設定はほとんどオリジナルでもメール送信自体は可能です。せいぜいドメイン名を登録するくらいでもいけます
- メール
- あとで読む
- mail
- ネットワーク
- DNS
- サーバ
- ドメイン
- network
- 設定
- 開発
メルカリは開発組織を拡大するためにマイクロサービスアーキテクチャを採用した（前編）。Mercari Tech Conf 2018
- 531 users
- www.publickey1.jp
- テクノロジー
- 2018/10/09
2013年から2017年のあいだ、スタートアップを含む2000以上の組織に対して、いかに組織のパフォーマンスを加速するかという聞き取り調査を行い、その調査結果をまとめたものです。その調査結果のひとつにこのグラフがあります。これは組織のエンジニアの人数とそのパフォーマンスを、組織の違いによって示したものです。横軸がエンジニアの人数、縦軸はエンジニアあたりの1日のデプロイ数を指標としたパフォーマンスです。これによると、パフォーマンスの低い組織はエンジニアが増えるとデプロイ数も減少しています。普通のパフォーマンスの組織はエンジニアが増えてもデプロイ数に変化はありません。一方でパフォーマンスの高い組織はエンジニアが増えるほど指数関数的にデプロイ数が増えていきます。メルカリが目指しているのはここです。これは単純にアーキテクチャをモノリシックからマイクロサービスへ移行するだけでは実現できま
【AWS】ぼくのかんがえたさいきょうの運用・監視構成 - Qiita
- 517 users
- qiita.com/iStone
- テクノロジー
- 2023/02/22
AWSのインフラを運用・監視する上で使いやすいと思ったサービスを組み合わせて構成図を作成しました。それぞれのサービスの簡単な説明と類似サービスの紹介、また構成の詳細について説明していきます。 (開発で使用するようなサービスも紹介しますが、あくまでも運用・監視だけの構成です。) 各個人・企業によって環境は違うと思いますし、使いやすいと思うサービスは人それぞれだと思うので、これが正解という訳ではありませんが、参考にしてただければ幸いです。参考になった教材を紹介した記事も作成しました。是非読んでみてください！【AWS】さいきょうの運用・監視構成を作成するのに参考になった書籍インフラエンジニア1年生がプログラミングを勉強するのに使った教材全体図こちらがAWSにおける"ぼくのかんがえたさいきょうの"運用・監視構成です。複雑で分かりづらいかと思うので、詳細に説明していきます。最後まで読めばこ
- aws
- 監視
- あとで読む
- 運用
- サービス
- cloud
- grafana
- Amazon
- terraform
- qiita
GitHubが障害を総括、43秒間のネットワーク断が1日のサービス障害につながった：データベースの不整合解消に時間 - ＠IT
- 495 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2018/10/31
GitHubが障害を総括、43秒間のネットワーク断が1日のサービス障害につながった：データベースの不整合解消に時間 GitHubは2018年10月30日（米国時間）、2018年10月21日16時頃（米国太平洋時）から約24時間にわたって発生した障害に関する分析報告を、同社のブログに掲載した。これによると、ネットワーク機器の部品交換で生じた43秒のネットワーク接続断が、GitHubのメタデータ管理データベースの不整合を引き起こし、復旧に時間を要したという。 GitHubは2018年10月30日（米国時間）、2018年10月21日16時頃（米国太平洋時）から約24時間にわたって発生した障害に関する分析報告を、同社のブログに掲載した。これによると、ネットワーク機器の部品交換で生じた43秒のネットワーク接続断が、GitHubのメタデータを管理するデータベースの不整合を引き起こし、復旧に時間を要した
良いドキュメントを書きたくなる本を読んだらドキュメンタリアンになりたくなった - じゃあ、おうちで学べる
- 489 users
- syu-m-5151.hatenablog.com
- テクノロジー
- 2023/03/14
ドキュメンタリアンとは、役職に関係なく、ソフトウェア業界でドキュメントとコミュニケーションに関心を持つ人のことです。 www.writethedocs.org はじめにこれは主に『ユーザーの問題解決とプロダクトの成功を導くエンジニアのためのドキュメントライティング』の書評です。私はSreakeにてSREという役職についています。SREはサービス概要、アーキテクチャの解説や図、各種構成図、各種手順書、ポストモーテム、ポリシー、SLA(SLO) … その他の様々な場面でドキュメントを書く必要があります。しかし、ドキュメントは価値が見えにくく時間と労力がかかり品質担保の面で重要度がとても高いのにその場での価値が見えにくいので浸透しにくいです。そのため、エンジニアとしてモチベーションが保ちづらいです。2021年 State of DevOps 2021 にもドキュメントに関する言及があり今後、
- ドキュメント
- あとで読む
- 本
- エンジニア
- 開発
- document
- SRE
- ライティング
- book
- development