並び順

ブックマーク数

期間指定

  • から
  • まで

281 - 320 件 / 424件

新着順 人気順

SREの検索結果281 - 320 件 / 424件

  • Pyroscopeを使ったContinuous Profilingの活用事例

    LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog LINE株式会社OA SREチームのhasebeです。 先日、私の担当するプロダクトにてPyroscopeというツールを導入しました。このブログではなぜPyroscopeを導入したのか、導入した結果どういった利点があったのかなどについてご紹介したいと思います。 Pyroscopeとは Pyroscopeとは、Continuous Profilingを実施することができるOSSのツールです。 Profilingについては特に説明は不要でしょう。ざっくりいうと、CPUやメモリ等のリソースをプログラム中のどこが多く消費しているのか(= ボトルネック)を突き止める手法のことを意味します。 一般的には、なにか問題が起きたときに手動でPr

      Pyroscopeを使ったContinuous Profilingの活用事例
    • 技術的負債と向き合うための取り組みでよかったもの例 - ytake blog

      技術的負債はどこにでもある タイトルにあるように、 いくつかの開発チームと一緒に技術的負債を改善する開発や、それらに関する活動を行うことが多く いろんな取り組みをしていく中で、よかったことがいくつかありました。 もちろん技術的負債を返すのは数ヶ月で終わるレベルのモノは多くなく、 何年から十数年もかかるものの方が多いはずですので、 すべて完了しているわけではないですが、その活動の中であくまで「今のところよさそう」というレベルのものです。 何番煎じかわからないくらいのものですが、 これを読んだ方が取り組んでいくにあたってヒントになればと思います。 普通の話しかありません。 会社全体で合意とSRE これは当たり前ですが、念の為・・ 以前もイベントでお話しさせてもらったりしましたが、 技術的負債は開発体験が悪くなり、モチベーションが上がらなくなるものでもあり、 そこから招く生産性の低下や色々なネガ

        技術的負債と向き合うための取り組みでよかったもの例 - ytake blog
      • Slab キャッシュの使用量が増加した原因を SystemTap で調査した [DeNA インフラ SRE] | BLOG - DeNA Engineering

        2022.07.28 技術記事 Slab キャッシュの使用量が増加した原因を SystemTap で調査した [DeNA インフラ SRE] by Hidetaka Masuda #infrastructure #sre #troubleshooting #stateless-server #iaas #game-infrastructure #infra-quality IT 基盤部の増田です。新卒2年目で業務では主にモバゲーや社内向け SaaS のインフラ運用を行っています。 本記事ではサーバーのメモリ使用量増加の原因を SystemTap で調査したときの話を紹介します。 この記事を通して、手掛かりを元に少しずつ核心に近づいていく、謎解きゲームのような楽しさを感じていただければと思います。 問題発生 調査を開始したきっかけは、サーバーのメモリ使用量増加のアラートが頻繁に鳴るようになっ

          Slab キャッシュの使用量が増加した原因を SystemTap で調査した [DeNA インフラ SRE] | BLOG - DeNA Engineering
        • LINEが注力している「銀行事業」「LINE証券」「LINE Pay」のフロントエンドエンジニアと裏方・SREは何をしているのか

          LINEではさまざまなFintechサービスを展開しています。今回のイベントでは、LINEの注力事業のひとつであるFintechサービスのうち、「銀行事業」「LINE証券」「LINE Pay」のSREとフロントエンド側の開発に携わるエンジニアが登壇し、LINEが金融領域で目指す将来、それぞれの業務内容や働く体制・環境などを説明しました。 LINE FintechサービスのSRE 国兼周平氏(以下、国兼): SREチームの国兼と申します。前職はSierにいまして、金融とか公共の大小さまざまな案件を中心にいろいろ経験しました。実は前職でも証券も銀行もやったことがあります。 2018年にLINEに入社しまして、当初はLINEマンガとか、どちらかというとエンターテインメント寄りのサービスをやってみたいなと思っていました。しかし、前職で金融分野の経験がそれなりにあったということもあり、入社承諾後に熱

            LINEが注力している「銀行事業」「LINE証券」「LINE Pay」のフロントエンドエンジニアと裏方・SREは何をしているのか
          • あるWeb系エンジニアの転職活動 - やんばるテック

            はじめに 3月ごろまで転職活動をしており、この5月から新しい会社で働くことになりました。本エントリはその転職活動の振り返りです。 目次 はじめに 目次 数字での振り返り 転職活動開始のきっかけ 過去の振り返りから自分のこれからを考える 今回の転職の軸を決める 選考とその結果 転職先とその理由 終わりに 数字での振り返り 今回の転職活動の具体的内容に触れる前に、先に数字で結果をお知らせすると以下のようになりました。 項目 数 利用した転職サイト数 4 転職サイトで受信したスカウトメール数 80通程度 カジュアル面談を受けた社数 16社 選考へ進んだ社数 3社 内定 3社 転職活動開始のきっかけ もともと過去何回か転職活動を経験しており、その際に利用した各転職サイトは登録済みのまま放置していました。 ある時、TwitterのDMで他社のエンジニア(SRE)の方から「転職の予定は無くても構わない

              あるWeb系エンジニアの転職活動 - やんばるテック
            • たった2ヶ月半でSLOを導入して事業判断に影響を与えた話 - Adwaysエンジニアブログ

              こんにちは、広告サービスを担当している飛田です。 今回は "SLO導入で悩んでいる方" に向けて、弊社リワード広告サービスでのSLO策定の取り組みについてお話したいと思います。 そもそもSLOを策定するに至った経緯は二つあります。 ユーザへの影響度合いが分かりづらいパフォーマンス問題などの対応が後回しにされがちで、品質改善がなかなか進まない アラート通知があってもユーザに影響があるか即座に判断できず、静観や一部アラートを無視する状況もあり、モニタリングが形骸化しつつある 両方とも共通してユーザに与える影響を正しく把握できていないことが課題のようです。 そこでSLOを策定する過程でオブザーバビリティを高め、モニタリングの最適化とエラーバジェット運用で開発リソース配分の状況改善を図りました。 一挙両得作戦です。 細かな取り組みは順を追って紹介します。 プロジェクト初期 ワークメトリクスからSL

                たった2ヶ月半でSLOを導入して事業判断に影響を与えた話 - Adwaysエンジニアブログ
              • "Enterprise Roadmap to SRE"の日本語訳が出ました - YAMAGUCHI::weblog

                はじめに こんにちは、Google CloudでオブザーバビリティとSREの担当をしているものです。今日は去年仕事でやってたものがようやっと表にでたのでその紹介をします。 「SREエンタープライズロードマップ」がでました Enterprise Roadmap to SREの日本語訳が公開されました。本レポートはSREに関して、その技術的立ち位置、導入する理由、必要なプロセス、文化、事例など、幅広く大局観を与えるコンパクトなレポートとなっています。ぜひご一読ください。#SRE #DevOps #GoogleCloudhttps://t.co/Lo1yY40CF4— Google Site Reliability Engineering (@googlesre) 2023年1月25日 「SREエンタープライズロードマップ」はかねてより "Enterprise Roadmap to SRE" と

                  "Enterprise Roadmap to SRE"の日本語訳が出ました - YAMAGUCHI::weblog
                • AIOps研究録―SREのための
システム障害の自動原因診断 / SRE NEXT 2022

                  SRE NEXT 2022講演。 https://sre-next.dev/2022/schedule/#jp37

                    AIOps研究録―SREのための
システム障害の自動原因診断 / SRE NEXT 2022
                  • よりよい開発体験を求めて─ OSSと本業であるインフラエンジニアの二軸を生かし、自らの力で組織の開発力を向上させる - Findy Engineer Lab

                    ファッション通販サイト「ZOZOTOWN」の開発・運用を担うZOZOテクノロジーズでは、2004年の設立から使われ続けてきたモノリスなアプリケーションをマイクロサービス化するとともに、オンプレミスからマルチクラウドへと大きなシステムのリプレースを進めています。 その中心でMLOpsやSREといった基盤の構築を担う瀬尾直利(@sonots、そのっつ)さんは、インフラエンジニアとして事業にコミットしているだけでなく、CRubyやFluentd、Chainerといったさまざまなオープンソースソフトウェア(OSS)のコミッターという顔も持っています。 一貫して「開発体験の良さ」を追い求めてきた瀬尾さんの中で、プロジェクトの課題を解決する業務と、OSSコミュニティにおけるプライベートの活動はどのようにシンクロしているのでしょうか。キャリアの軌跡を振り返りながら、2つの軸を生かしたソフトウェアエンジニ

                      よりよい開発体験を求めて─ OSSと本業であるインフラエンジニアの二軸を生かし、自らの力で組織の開発力を向上させる - Findy Engineer Lab
                    • 開発者とSREの役割、責任/SRE Lounge 13 LT

                      SRE Lounge #13 LT 2021.11.19

                        開発者とSREの役割、責任/SRE Lounge 13 LT
                      • ようこそ、Kubernetes沼へ。商用サービスSREの現場から | IIJ Engineers Blog

                        社会人生活の半分をフリーランス、半分をIIJで過ごすエンジニア。元々はアプリケーション屋だったはずが、クラウドと出会ったばかりに半身をインフラ屋に売り渡す羽目に。現在はコンテナ技術に傾倒中だが語りだすと長いので割愛。タグをつけるならコンテナ、クラウド、ロードバイク、うどん。 筆者がIIJでパブリッククラウドビジネスを率いていた2010〜2015年頃、今後のITインフラはしばらくIaaSを中心に回っていくのだと考えていたものですが、Docker, Kubernetesという爆弾が投下されました。10年、20年は続くと思われたIaaSの時代がまさか早々に色あせて見えるとは。相変わらずIT業界にも思いもよらないことが突然起こるものです。これだからIT業界はおもしろい。 本連載は、現在IIJでSREを率いている筆者がどのようにしてSREチームを立ち上げ、Kubernetes沼へ飛び込み、悪戦苦闘し

                          ようこそ、Kubernetes沼へ。商用サービスSREの現場から | IIJ Engineers Blog
                        • Site Reliability を向上するためにやったことすべて

                          ペパボ・はてな技術大会で発表した内容になります

                            Site Reliability を向上するためにやったことすべて
                          • 2019 年に SRE をしながら考えが変わったこと - 無印吉澤

                            今回の記事は年末スペシャルです。 僕が SRE をしながらやってきた取り組みについては、今年も会社のテックブログに色々書かせてもらいました(職場の理解のおかげです。いつも感謝してます)。 ただ、それぞれのブログ記事の間を埋めるストーリーというか、その背景にあることについてはなかなか書く機会がありませんでした。なので、今回はそれらの記事を引っ張りながら、今年 SRE をしながら考えていたことをつらつらと書いていこうと思います。 この1年で考えが大きく変わったこと SRE のあるべき組織体制について、1年前はこう考えていました。 複数の開発チームをまたぐ形で SRE をマトリックス的に配置して、SRE はアプリの開発状況を細かく把握しながら監視・運用すべき ただ、この1年で考えが変わり、いまはこう考えています。 SRE をマトリックス的に配置するのは、確かに、開発速度を一時的に上げるのには効果

                              2019 年に SRE をしながら考えが変わったこと - 無印吉澤
                            • 入門EOL対応

                              入門EOL対応 ~SREが鉄板の流れ全部見せます編~ https://fortee.jp/yapc-hiroshima-2024/proposal/8b778ed2-df11-4bee-a4b7-81e2b85b51c4 ソフトウェアは進化する一方で、全てのバージョンをサポートし保守し続けるのはリソースを効果的に割り当てる観点から現実的ではありません。 セキュリティリスクや管理コストを考慮し、サポート終了期間を設けるEOLを用いた運用が一般的に採用されています。 サービスを運営する中で、EOLに対して時間に余裕を持って対応できればよいですが機能開発が優先されることでリソース不足となってしまうなどでソフトウェアのEOL対応に対して後手に回ってしまうという課題がありました。 このセッションでは、GMOペパボのSREがソフトウェアのEOL対応をベースとした、ソフトウェアをただアップデートするだけ

                                入門EOL対応
                              • 「ダブルチェックを頑張る」でごまかさない、スクウェア・エニックスのサーバ設定漏れ防止策

                                「ダブルチェックを頑張る」でごまかさない、スクウェア・エニックスのサーバ設定漏れ防止策:たくさんのサーバを一気に構築できる“自律構築の仕組み”とは(1/3 ページ) スクウェア・エニックスは膨大な数のゲームを提供している。当然、それらを支えるインフラも大量で、運用管理にかかる手間も大きい。「Cloud Operator Days Tokyo 2023」のセミナーを基に、大量サーバの最適な管理法を紹介する。 変化の激しい現在のビジネス環境において、アプリケーションやサービスもその変化に素早く対応する必要がある。もちろん、それを支えるインフラについても同様だ。クラウドサービスやIaC(Infrastructure as Code)などを活用し、効率的にインフラを管理している企業も多いだろう。 ただ、ある意味でインフラは生き物だ。作った当初は問題なくても、管理する対象が増えたり、長期間運用してい

                                  「ダブルチェックを頑張る」でごまかさない、スクウェア・エニックスのサーバ設定漏れ防止策
                                • 「オンコール対応するエンジニアの睡眠時間を確保せよ」 GMOペパボSREチームの6つの取り組み

                                  サービスの信頼性を守るため、オンコール対応は重要な仕事だ。だが、夜中に何度も呼び出されるような状況ではエンジニアの肉体的、精神的な疲労は計り知れない。Cloud Operator Days Tokyo 2022のセッション「信頼性を落とさず効果的にオンコールを減らす取り組みを目指して エンジニアの睡眠時間を守ろう」では、こうしたオンコール対応におけるエンジニアへの負担を軽減させる取り組みを紹介した。 「常に何らかのアラート情報が流れている」 GMOペパボの渡部龍一氏(技術部プラットフォームグループ)の役割は、GMOペパボの各種サービスの可用性を確保しビジネスの成長に合わせて適切な環境を提供することだ。そのためのさまざまな業務をこなす中で、オンコール対応は悩みの種になっていた。 「私のチームで対応するサービスだけでも100を超えており、平均すると2、3日に1回のペースで何らかのアラートが発生

                                    「オンコール対応するエンジニアの睡眠時間を確保せよ」 GMOペパボSREチームの6つの取り組み
                                  • SRE連載が始まります! - KAYAC engineers' blog

                                    あけましておめでとうございます。SREチーム(新卒)の市川恭佑です。 カヤック技術ブログでは本記事が2023年初エントリですが、Happy Lunar New Year!の方が違和感のない時期になってしまいました。 本年、新たにカヤックSRE連載と題した企画を始めるので、概要についてご報告します。 連載企画を始める経緯 カヤックの技術ブログといえば毎年恒例のアドベントカレンダー企画が人気ですが、これは12月限定のため、それ以外の時期にブログの更新が激減する傾向がありました。 ブログ過疎化の対策として、カヤックでは去年からSREチームで毎月1本のペースでブログ記事を出していました。 実のところ、内部的にはこれを「SRE連載」と読んでいました。 「とりあえずやってみよう」というノリで始まった連載でしたが、結果的には「12月を除くすべての期間において記事を出す」という実績を作れたので、本年は正式

                                      SRE連載が始まります! - KAYAC engineers' blog
                                    • 自動生成を活用した、運用保守コストを抑える Error/Alert/Runbook の一元集約管理 / Centralized management of Error/Alert/Runbook to minimize operational costs using automated code generation

                                      DevOpsDays TOKYO 2024 の登壇資料です。 https://confengine.com/conferences/devopsdays-tokyo-2024/proposal/19703/erroralertrunbook-centralized-management-of-erroralertrunbook-to-minimize-operational-costs-using-automated-code-generation

                                        自動生成を活用した、運用保守コストを抑える Error/Alert/Runbook の一元集約管理 / Centralized management of Error/Alert/Runbook to minimize operational costs using automated code generation
                                      • GMOペパボのインフラ担当が感じた“Kubernetes”化の不安 “GitOps”でアプリケーション稼働は快適になる

                                        GMOペパボが主催の「Pepabo Tech Conference #14」では、GMOペパボのプラットフォームテクノロジーをテーマに、技術基盤チーム・データ基盤チーム・プラットフォームグループ(SRE)・セキュリティ対策室のメンバーが登壇し、各チームの取り組みについて発表しました。菅原氏は、「カラーミーショップ」へのKubernetes導入について話しました。 SREを取り入れて事業成果の最大化に貢献する 菅原千晶氏:「SREが取り組むカラーミーショップへのk8s(Kubernetes)導入」というタイトルで発表します。 まず自己紹介です。菅原千晶といいます。社内では「アキちゃん」というあだ名で呼ばれています。現在は技術部プラットフォームグループに所属しています。新卒で入社したシステム運用系の会社を経て、2018年3月からペパボカレッジ(未経験者向けの研修付きの採用)の6期生として中途入

                                          GMOペパボのインフラ担当が感じた“Kubernetes”化の不安 “GitOps”でアプリケーション稼働は快適になる
                                        • Amazon ECSのタスクを常に新鮮に保つ仕組みをStep Functionsで - KAYAC engineers' blog

                                          SREチームの藤原です。今回はAmazon ECSのサービス内のタスクを定期的に再起動することで、日々のメンテナンスコストを削減する話です。SRE連載 3月号になります。 3行でまとめ ECS Fargateのタスクは時々再起動が必要 人間が対応するのは面倒 Step Functionsを定期実行して常に新鮮なタスクに入れ換えて予防しよう ECS Fargateのタスクは時々再起動する必要がある ECS Fargateでサービスを運用していると、数ヶ月に一度ほどの頻度でこのようなお知らせがやってきます。 [要対応] サービス更新のお知らせ - AWS Fargate で実行されている Amazon ECS サービスの更新が必要です [Action Required] Service Update Notification - Your Amazon ECS Service Running

                                            Amazon ECSのタスクを常に新鮮に保つ仕組みをStep Functionsで - KAYAC engineers' blog
                                          • SREってなんだ?哲学と習慣、そしてツール。

                                            1.SREの哲学と原則 SREは”DevOpsを純粋な形にしたもの”なのか SRE担当VPとして、Matthew FlamingはNew RelicのSREプラクティスを監督しています。SREはおそらく”DevOpsの原則を単一の役割に最も純粋に蒸留したものだ”と彼は考えています。 昨年の FutureStack New YorkでGoogleのSREであるLiz Fong-Jones氏はこの考えを広げました。Googleのソフトウェアエンジニアは、運用システムのコードと信頼性に常に責任を負っていますが”SREはさまざまなシステムがどのように連携するか、どのように機能するか、そしてどのように改善されるべきかについて、専門的な理解を深めることに責任がある”と彼女は言いました。SREはソフトウェアエンジニアリングのタスクを引き受ける可能性がありますが、エンジニアリングチームが提供するサービスの

                                              SREってなんだ?哲学と習慣、そしてツール。
                                            • 技術的負債と向き合う取り組みでよかったもの / positive_efforts_to_tackle_technical_debt

                                              こんなことをやって改善していっているよ、という話

                                                技術的負債と向き合う取り組みでよかったもの / positive_efforts_to_tackle_technical_debt
                                              • ポストモーテムの基礎知識と最新事例 / Fundamentals of Postmortem

                                                2023/10/20 ゆるSRE勉強会 #2 https://yuru-sre.connpass.com/event/293783/

                                                  ポストモーテムの基礎知識と最新事例 / Fundamentals of Postmortem
                                                • SRE Doesn’t Scale

                                                  We encounter a lot of organizations talking about or attempting to implement SRE as part of our consulting at Real Kinetic. We’ve even discussed and debated ourselves, ad nauseam, how we can apply it at our own product company, Witful. There’s a brief, unassuming section in the SRE book tucked away towards the tail end of chapter 32, “The Evolving SRE Engagement Model.” Between the SLIs and SLOs,

                                                    SRE Doesn’t Scale
                                                  • 野良社内ツールと開発生産性、プラットフォーム・エンジニアリング - Runner in the High

                                                    よくある野良の社内ツールは、開発生産性を向上させるための手段としてスポットで生まれることが多い。 たとえば、定期的に依頼されて手作業でキックしているバッチ処理を誰かがAPI化したり、それがCLIで実行できるようになったり、あるいは不特定多数の人々が手でやっている作業が有志で自動化されツールになるなど。そして社内の口コミや告知で伝搬され、使われていく。 出来の良い社内ツールは、野良だとしても開発チームが普段の開発プロセスのなかで意識したくない複雑性や実装の詳細をうまく抽象化し、認知負荷を下げる役割を果たしている。見方を変えれば、社内ツールはチーム・トポロジー*1でいうところのX-as-a-serviceインタラクション・モードの具象化のひとつだと言える。開発チームと社内ツールを開発する人間を社内ツールがインターフェイスとなって接続している。広い目線で見ると、これはプラットフォーム・エンジニア

                                                      野良社内ツールと開発生産性、プラットフォーム・エンジニアリング - Runner in the High
                                                    • SREがカバー株式会社に入社して3ヶ月でおこなったこと|カバー株式会社 公式note

                                                      こんやっぴー👾 カバー株式会社 技術開発本部のSです。カバー株式会社では組織横断的にSRE(Site Reliability Engineering)やサーバーサイドのエンジニアをしています。 2023年5月に入社し3ヶ月ほどホロプラスのパフォーマンスチューニングや開発環境の整備をしてきましたので、今回はそちらについてご説明します。 ホロプラスとは?ホロプラスは「推しをもっと好きになる!」がコンセプトの、ホロライブプロダクション公式アプリです。先日8月29日に正式リリースされました。主に、以下の二つの体験を提供します。 ホロライブプロダクションの最新情報が公式アプリならではの機能で手軽に逃さずチェックできる 共感でつながるファンコミュニティで投稿やいいねを通じたコミュニケーションが楽しめる ※画面は開発中のイメージですホロプラスのシステム構成ホロプラスは図のようなシンプルな構成でGo言語

                                                        SREがカバー株式会社に入社して3ヶ月でおこなったこと|カバー株式会社 公式note
                                                      • Professional Cloud DevOps Engineer は SRE を目指すエンジニアにお勧めしたい資格でした | DevelopersIO

                                                        本記事は 2021/07/06 時点の情報になります。そのため時期によって異なる情報になる可能性があります。ご留意の上、お読みください。 はじめに こんにちは、 CX事業本部 MAD事業部 の 田中孝明 です。 つい先日、 Google Cloud 認定資格 の Professional Cloud DevOps Engineer を苦労の末合格しました。 試験の内容に関しては NDA になるため記載することはできませが、勉強した内容をお伝えすることで、挑戦する方の励みになるような記事になればと思い公開いたします。 Professional Cloud DevOps Engineer について Professional Cloud DevOps Engineer は Google Cloud 認定資格 のプロフェッショナル資格に該当する資格です。 一度不合格になりましたが、二度目の挑戦で合

                                                          Professional Cloud DevOps Engineer は SRE を目指すエンジニアにお勧めしたい資格でした | DevelopersIO
                                                        • SREチームに入ってからの2年間にチームでやってきたこと - クラウドワークス エンジニアブログ

                                                          この記事はクラウドワークス アドベントカレンダー6日目の記事です。 前日の記事は@bugfireのgithub-script は便利でした。GitHub Actionsでのちょっとした作業が捗りますね! SREチームの@kangaechuです。 気がつくと入社から2年が経ちました。2年前のAdvent Calendarでは ぴよぴよSREという記事を書くくらい何もわかっていませんでしたが、ようやく自分なりに動けるようになってきました。 この記事ではcrowdworks.jpのSREチームで、この2年間でどのようなことをやっていたのかを振り返ります。 SREチームの範囲は幅広く、いろいろなことをやっていました。今回はDocker化とTerraformの2つの取り組みについてご紹介します。 なんで1年じゃなく2年かって?去年はaws-vault についてのあれこれを書いたからだよ。 Docke

                                                            SREチームに入ってからの2年間にチームでやってきたこと - クラウドワークス エンジニアブログ
                                                          • EKS環境下でコストが増大する事例とfreeeのアプローチ - freee Developers Hub

                                                            はじめまして。freee の SRE チームに所属している nkgw (Twitter) です。 普段はエンジニアリングマネージャーをしつつ、開発チームの新規プロダクトリリースサポートをやっています。 我々のチームは大部分のプロダクトのコンピューティングリソース (CPU / Memory など) を Amazon Elastic Kubernetes Service (EKS) で実行できるようにインフラ基盤移行 (EC2 → EKS) を進めてきました。 移行プロジェクトの大部分は 2021 年 7 月に無事終わったのですが、移行スケジュールを最優先としたため割り当てている各リソースはかなり保守的 & 過剰でした。 (移行後の性能劣化が怖かったため、EC2 時代と比較し、1.5 倍のバッファを積むなど... etc) コスト増大したグラフ その結果、 去年と比較して、コストが倍以上に跳

                                                              EKS環境下でコストが増大する事例とfreeeのアプローチ - freee Developers Hub
                                                            • 分散アプリケーションの信頼性観測技術に関する研究 / A study of SRE

                                                              SRE NEXT 2020 IN TOKYO https://sre-next.dev/

                                                                分散アプリケーションの信頼性観測技術に関する研究 / A study of SRE
                                                              • Waypointとは何か

                                                                Hashicorpの2020年冬の新作 Waypoint (リリースブログ)に関してドキュメントなどをざっと眺めてみたので最初の印象をちょっと書いてみる.ちゃんとしたレビューは @copyconstruct の記事 Waypoint とか読むのが良い.毎度のことながらドキュメントやガイドはかなりちゃんとしたのがあるので使い方とかはそっちを読んだ方がいい.以下に書くのはざっくりした個人の感想(ちなみにもう一つのBoundaryに関してはZero Touch Productionとは何か に軽く書いた). What is Waypoint Waypointは,KubernetesやNomad,Amazon ECS,Google Cloud RunといったPlatformの上にBuild,DeployとReleaseの一貫したWorkflowを実現するツール.使ってる言語やそのパッケージ方法や,

                                                                • OpenSLOについて | フューチャー技術ブログ

                                                                  はじめにはじめまして、原木と申します。 皆さまはSRE NEXTをご覧になりましたでしょうか? SRE NEXTは 先日実施された『信頼性に関するプラクティスに深い関心を持つエンジニアのためのカンファレンス』です。国内外のエンジニアが日々SRE(サイト信頼性エンジニアリング/Site Reliability Engineering)の実践手法を共有することで、Webサービスが今後運用、成長していくための次世代の信頼性を担おうとしています。 もしもWebサービスの運用を安定的に行う手法やそのためのチームビルディングに興味がある場合、SRE NEXTの動画セッションやスライドが公開されると思うのでご覧ください1。 さて本ブログではそんなSREとも関係の深い、OpenSLOに関して取り上げたいと思います。 OpenSLOとは最近、SLOモニタリングという言葉が注目を集めつつあります。例えば、Go

                                                                    OpenSLOについて | フューチャー技術ブログ
                                                                  • SREの活動事例紹介 〜 Backlogのマイクロサービス化に向けた課題検索機能のリプレイス

                                                                    BacklogのSREを担当しているmuziです。 今回の記事では、ヌーラボにおけるSREの活動事例として、Backlogの課題検索機能のリプレイスプロジェクトについてご紹介します。 このプロジェクトでは、SREと開発者がチームを組んで、要件定義からリリースまで行いました。その結果、Backlogを構成するサーバ同士が疎結合になり、将来的なマイクロサービス化に向けた足がかりを作ることができました。 歴史の長いプロダクトにありがちな技術的負債への取り組みの一例として、みなさんの参考になれば幸いです。 リプレイスプロジェクトの背景 Backlogの課題検索機能 最初に、このリプレイスプロジェクトの背景として、Backlogの課題検索機能についてご紹介します。 課題検索機能とは、Backlogの「課題」ページで利用できる検索機能のことです。件名や詳細に対するキーワード検索に加えて、プレミアムプラ

                                                                      SREの活動事例紹介 〜 Backlogのマイクロサービス化に向けた課題検索機能のリプレイス
                                                                    • 2023年のSREチームのAWSコスト削減を振り返る - Uzabase for Engineers

                                                                      概要 全般 何はともあれコストタグ Cost Explorer でリソース別にコストを見よう IaC化しよう QuickSight も使おう 稼働時間対応する際はマスタカレンダを用意したい コンピューティング、コンテナ関連 EC2 定時バッチはマネージド化しよう EBS, Snapshot, AMI, EIP を消す ECS Container Insights の有効/無効を使い分けよう 何でも Fargate を選択すれば良いわけではない Fargate スポットを活用しよう Lambda Graviton対応しよう ECR イメージサイズを抑えよう ライフサイクルポリシーを設定しよう ネットワーキング VPC VPCエンドポイント入れ忘れに注意 VPC Flow Logs のS3バケット設定に注意しよう ストレージ系 RDS スロークエリ出てないかAPMを使って確認 DynamoDB

                                                                        2023年のSREチームのAWSコスト削減を振り返る - Uzabase for Engineers
                                                                      • メルペイ社内ツールのお話 | メルカリエンジニアリング

                                                                        Merpay Advent Calendar 2019の5日目です。 メルペイ社内ツールのお話をしようと思います。 “個人事業主の集まりかよ”と評されることもある、メルペイソリューションチームの一員である、vvakameさんが開発・管理しているツールやシステムの紹介をします。今まであんまり外に出したことがなかったので。 mercari/datastoreなどのオープンになっているものや、OSSへのPRなどの社外からも観測可能なものは今回は割愛します。 そもそも、ソリューションチームとは? vvakame(TypeScript, Go, GraphQLなど)、sinmetal(GCPほぼ全部 最近Spanner)、orfeon(Dataflowなど)の3名で構成される、何かを適当にいい感じにするチームです。 メンバー募集中なので興味がある方は適当にアポイントを取ってください。Job Desc

                                                                          メルペイ社内ツールのお話 | メルカリエンジニアリング
                                                                        • 複業SREとして広げる課題解決の幅と深さ。期待値以上の成果を上げるまでに何をしたか | Offers Magazine

                                                                          技術発信やその他の研鑽ではなく、業務という形式にこだわったのは、座学に偏りがちな私自身の性格を踏まえてのことです。 また、業務形態を問わず、ひとりのエンジニアとして何ができるのかを認知され、裏付ける実績があり、いい形でコラボレーションできる状態でありたいと思うこともあり、Offersに登録して、複業を探し始めました。 詳しい経緯は私のブログ記事「旗を立てる2021年」にまとめています。 > まずは「Offers」で副業オファーを受けてみる 小さいスコープで技術選定 最初に取り組んだのは、ツールやコンポーネントの導入でした。最初のタスクということもあって、「xxxというツールを導入してほしい」というタスクベースのものが主でした。 コンテナ管理にKubernetesを選択しており、運用をいかに信頼性高く効率的に行っていくかという課題がありました。それまでの基盤へのコンポーネント導入や移行の設計

                                                                            複業SREとして広げる課題解決の幅と深さ。期待値以上の成果を上げるまでに何をしたか | Offers Magazine
                                                                          • Hatena Engineer Seminar #20 「AWS Renovation 編」を6月7日にオンライン開催します #hatenatech - Hatena Developer Blog

                                                                            こんにちは。はてなWebアプリケーションエンジニアの id:papix です。 2022年6月7日(火)に Hatena Engineer Seminar #20 「AWS Renovation 編」を開催します。 はてなのSRE 4名が登壇し、Amazon Web Services 上におけるそれぞれの取り組みについてご紹介します。 開催はオンラインです. (詳しくはconnpassのイベントページをご確認ください). 皆様のご参加をお待ちしております! イベント概要 日時: 2022年6月7日(火) 19:00-20:25 参加費: 無料 開催形式: オンライン配信 YouTube Live YouTube Live HatenaTech チャンネルにて https://www.youtube.com/channel/UCwqsFJGxzAZQdcT1xYZhhbw 開催当日に con

                                                                              Hatena Engineer Seminar #20 「AWS Renovation 編」を6月7日にオンライン開催します #hatenatech - Hatena Developer Blog
                                                                            • 社内勉強会にて監視に関して発表した資料を公開します - inductor's blog

                                                                              はじめに こんにちは。inductorです。 今回は、社内のSRE技術共有会にて、MLOpsチームにおける監視の考え方や取り組みについて発表したので、その資料を展開します。 speakerdeck.com ご意見ご感想お待ちしております!

                                                                                社内勉強会にて監視に関して発表した資料を公開します - inductor's blog
                                                                              • Ubie 株式会社に入社していた

                                                                                Ubie 株式会社に SRE として転職して一ヶ月経ったので、転職動機から転職後どうかまで書いてみる。まだ一ヶ月、ではあるが楽しく働けている。 転職動機前職では SRE として活動し、中心的な業務は基盤的アプローチだった。周囲にいた人は能力が高く、技術に関して尊敬できる人ばかりだった。あるとき、冷静に周りを見ると、自分は技術そのものへの興味は相対的に薄い方だと気づいた。どうすればまず周りの人を良くできるか、そして会社や事業として良くできるか、というような動機や欲求があった上でそれを解決する技術的コミットに打ち込む、のような動き方をしていた。 一方で、どんな状況でも自分の信念により物事を変えてしまう技術力と突破力を備えたエンジニアがいた。技術的な力量や、信頼と実績で周りを圧倒しているように自分には見えていた。それは同じエンジニアの立場の自分から見て、純粋に羨ましかった。自分もそうなりたかった

                                                                                • カヤックのSREチームについて - KAYAC engineers' blog

                                                                                  SREチームの長田です。 今回は私が所属している「カヤックのSREチーム」について紹介します。 SREとは Site Reliability Engineering の略です。 「サイト信頼性エンジニアリング」と訳されることが多いようです。 同名の書籍(いわゆるSRE本)が出版されたことから、SREという言葉が一般的に使われるようになったようです。 www.oreilly.co.jp この記事ではSREそのものについての説明は省きます。 ざっくり一言で説明すると、「サイト(サービス)の信頼性を技術の力で担保すること」のようになるでしょうか。 SREの何たるかのより詳しい説明については上記のSRE本や、提唱元であるGoogleのサイト(英語)を参照してください。 sre.google カヤックのSREチーム カヤックのSREチームは2018年に発足しました。 当初は3名体制でしたが、メンバー

                                                                                    カヤックのSREチームについて - KAYAC engineers' blog