タグ

運用に関するjuve534のブックマーク (13)

  • WEARにおけるKubernetes導入と改善の歩み - ZOZO TECH BLOG

    はじめに こんにちは。ブランドソリューション開発部 WEAR部 SREの和田(@wadason)です。普段は「ファッションコーディネートアプリ WEAR」のSREとしてクラウドの運用やリプレイスをおこなっています。 WEARはサービス開始から10年が経ち、クラウドやオンプレミスを含む大小様々なシステムが稼働しています。アプリケーションを動かすための基盤にはAmazon ECSのようなコンテナを前提としたものから、オンプレミスのAPIやBatchを動かすIISまで幅広く扱っています。そうした中で、約1年前にSREチームが結成され、技術負債の脱却やクラウドを中心としたインフラの運用を行なってきました。当初取り組んでいた大規模なリプレイス案件も落ち着き、チームメンバーが増えてきたので、現在では分散した技術スタックをKubernetesへ統一するリプレイスプロジェクトを開始しています。 記事で

    WEARにおけるKubernetes導入と改善の歩み - ZOZO TECH BLOG
    juve534
    juve534 2022/07/22
    ZOZO は Amazon EKS をがっつり使っているからメリットも大きいんだろうな
  • SRE伝道師としてMicroservices SRE チームが取り組んでいる事例 | メルカリエンジニアリング

    ※この記事は、"Blog Series of Introduction of Developer Productivity Engineering at Mercari" の一環で書かれています。 著者: Microservices SREチーム @k-oguma(ktykogm) 記事の内容は、前日の記事である "Embedded SRE at Mercari "の具体的な事例等の紹介となります。私自身が実際にEmbedded SREsとしてプロダクトチームに参加し、その中で発見したプロダクトチームの課題とそれに対して行った取り組みをいくつか紹介したいと思います。最後に具体的な活動を通して見えてきたEmbedded SREsのメリットなどについてまとめます。 記事内の用語 SRE Site Reliability Engineering の略 信頼性における方法論、概念、ベストプラク

    SRE伝道師としてMicroservices SRE チームが取り組んでいる事例 | メルカリエンジニアリング
    juve534
    juve534 2022/03/07
    オンコール体制の整備は放っておくと辛いから、手を入れてくれるのは嬉しいよな。
  • メルカリShopsでのDesign Docs運用について | メルカリエンジニアリング

    こんにちは! ソウゾウのSoftware Engineerの@ogataka50です。連載:メルカリShops 開発の裏側 Vol.2の9日目を担当させていただきます。 9日目はメルカリShopsを開発する中でのDesign Docsの運用について紹介させて頂きます。 Design Docsとは Design DocsとはGoogleなどで取り入れられているシステム設計ドキュメント手法です。開発をする前にプロジェクトの背景や目的、設計、検討した代案などをdocument化します。そしてそれを持って関係者との共有、議論を行うことによって事前に全体を考察し、精度を高め開発後の手戻りを減らすなどが主な目的になります。 例として、GoogleでのDesign Docsについては下記にまとめられています。 Design Docs at Google メルカリShopsでのDesign Docsのte

    メルカリShopsでのDesign Docs運用について | メルカリエンジニアリング
    juve534
    juve534 2022/02/25
    記載にある通り、どのレベルになったらDesign Docsにするか迷う。本能に従う。
  • 「はてラボ」のサービスも利用しているEKSクラスタの構成と運用について - Hatena Developer Blog

    プラットフォームチームでSREをしている id:masayosu です。 プラットフォームチームでは、はてなのサービスの基盤となるサービスを開発・運用しています。 さらに、はてラボ(はてなアンテナ、はてな匿名ダイアリーなど)も担当しています。 これらはAmazon EKS(Elastic Kubernetes Service)というマネージドコンテナサービス上で、マルチテナントなクラスタとして運用されています。 EKSは2年前から運用を始め、現在は30近いサービスがクラスタ上で動作しています。 この記事ではEKS周辺の構成と、EKSを維持する運用について紹介します。 EKSクラスタの全体構成 EKS全体の構成は、以下の図のようになっています。 図の登場人物について簡単に説明します。 AWS EKS AWSAmazon EKSは、マネージドなKubernetesサービスです。 Kubern

    「はてラボ」のサービスも利用しているEKSクラスタの構成と運用について - Hatena Developer Blog
    juve534
    juve534 2022/02/07
    コンパクトでかつわかりやすい。
  • SQLを使った監視でデータ基盤の品質を向上させる - MonotaRO Tech Blog

    こんにちは、データ基盤グループの吉田(id:syou6162)です。データ基盤グループでは安定してデータを利用できるように様々な取り組みを行なっています。エントリでは、データ品質に問題がある場合にすぐに気付けるようにしたSQLによる監視の仕組みを紹介します。 背景 SQLを使った監視基盤の構築 実際の監視項目例 他チームがdailyで転送しているデータがバッチの失敗により遅れていないか BigQueryのエラーレートが急激に増加していないか 承認済みビューの設定が意図せず消えていないか 今後の展望 背景 データ基盤の運用をしていると、日々様々なトラブルと向き合う必要があります。例えば、以下のようなものがあります。 他チームがdailyで転送しているデータがバッチの失敗により遅れている TerraformなどのIaCで承認済みビューの権限管理を行なっているが、コードの設定ミスで意図せぬ状態

    SQLを使った監視でデータ基盤の品質を向上させる - MonotaRO Tech Blog
    juve534
    juve534 2021/08/26
    "モノタロウでは社員の約6割がBigQueryでクエリを実行し、日々意思決定を行なっているデータドリブンな会社" すてき
  • バックエンドのテストの実行時間を1/3にしました - TORANA TECH BLOG

    はじめまして。4月より株式会社トラーナに入社した、 バックエンドチームのクラシマです。(@watarukura) deploy周りの改善が好きなので、バックエンドのテスト実行時間を短縮した話をします。 テストケースを分割して、parallelで実行するようにしました。 バックエンドのテストの状況 ↑こちらのスライドから更に半年、テストは1300件に近づき、アサーションも5900件近くになりました。 テスト実行結果 バックエンドは機能追加したらテストを書くルールになっていて大変治安が良いのですが、副作用としてテストの実行に30分くらいかかっていました。 テストが終わらないとプルリクエストをマージできないので、レビュー依頼する前に30分待って、指摘を受けて修正して30分待って・・・、と開発サイクルが滞ってしまいます。 コレはいかん、ということで高速化することにしました。 GitHub Acti

    バックエンドのテストの実行時間を1/3にしました - TORANA TECH BLOG
    juve534
    juve534 2021/05/26
    CI待ちの時間は短ければ短いほどよいので、こういう試みは大事ですよね〜
  • 【PHP】PSR-12 のチェックを PHP_CodeSniffer で行う - 猫でもわかるWebプログラミングと副業

    はじめに PSR-12 とは PSR-2 と PSR-12 の違い PHP_CodeSniffer とは IntelliJ / PHPStorm でスタイルチェックする Jenkins でコーディングスタイルチェック まとめ はじめに この記事は PHP アドベントカレンダー 4日目の記事です。 qiita.com 昨日は @taro-hida さんでした。 qiita.com 僕は新卒から5年間ずっとPHPを触っているので、PHPのアドベントカレンダーにはなるべく参加しようと思っています。 PSR-12 とは PSR-12 とは、 PHP のコーディング規約です。 PHP のコーディング規約には PSR-1 と PSR-12 があり、 PSR-1 は Basic Coding Standard https://www.php-fig.org/psr/psr-1/ PSR-12 は Ext

    【PHP】PSR-12 のチェックを PHP_CodeSniffer で行う - 猫でもわかるWebプログラミングと副業
    juve534
    juve534 2020/12/04
    CIとかでチェックできるので記事ありがたい
  • STORESを支える「運用週」という仕組み - STORES Product Blog

    みなさんは「保守・運用」と聞くとどのようなイメージをお持ちでしょうか? もしかしたら良いイメージをお持ちでない方もいらっしゃるかもしれません。 しかし、売り上げを生み出している既存コードの保守運用はビジネス上、新規機能開発と同等かそれ以上に重要な存在です。 保守運用は歴史あるサービスでは欠かせない作業ですが、STORESもその例外ではありません。 STORESの最初のコードが書かれてから、8年の歳月が経ちました。 今となってはコードの量も多く、今年(2020年)の8月に入社した私(@zakky)も全体を把握しきれてはいません。 STORESにジョインした最初の1ヶ月間、「商品の在庫数を一括で更新する機能」の開発に私は専念しており、その他の機能のコードを触る機会がほとんどありませんでした。 目の前のチケットを消化していくのに必死で、周りを見る余裕が無かったとも言えます。 「運用週」との出会い

    STORESを支える「運用週」という仕組み - STORES Product Blog
    juve534
    juve534 2020/12/01
    運用週って仕組みは面白いな。我々 feature factory 気味なので、こういった形でそれをカバーするのはありあり
  • インフラ自動化ツールのAnsibleでKubernetesクラスタの構成や運用管理を実現。Red HatがAdvanced Cluster Managementとの統合機能を発表

    インフラ自動化ツールのAnsibleでKubernetesクラスタの構成や運用管理を実現。Red HatがAdvanced Cluster Managementとの統合機能を発表 Red Hatは、構成管理ツールの「Ansible Automation Platform」と、Kubernetesの運用管理ツールである「Advanced Cluster Management」の統合機能を、オンラインで開催したイベント「AnsibleFest2020」で発表しました。 これにより、AnsibleからAdvanced Cluster Managementを通じてKubernetesのクラスタの構成や運用管理などを容易に実現できるようになります。 Ansibleは、多数のサーバに対するソフトウェアのインストールや設定、ネットワーク機器の構成変更などを含むさまざまなインフラの設定を、スクリプトを記述

    インフラ自動化ツールのAnsibleでKubernetesクラスタの構成や運用管理を実現。Red HatがAdvanced Cluster Managementとの統合機能を発表
    juve534
    juve534 2020/10/15
    Ansible勉強していて得な未来があるかも?
  • BASEのチーム開発における設計レビューの取り組み - BASEプロダクトチームブログ

    Service Dev所属、サーバサイドエンジニアの宮村です。 現在私は、Service Devのチームに所属し、ネットショップ作成サービス「BASE」及びショッピングアプリ「BASE」の機能開発を担当しています。 BASEでは最近、機能開発の際に設計レビューを行うようにしています。その取り組みについて紹介したいと思います。 開発チームについて BASEの開発チームは、メンバーが増えるに従って専門化する形でチームを分割してきました。 現在、サービスの機能開発を主に担当しているService Dev Sectionは、バックエンドが担当領域を分担して2Group、フロントエンド、ネイティブアプリを担当するそれぞれ1Groupの計4つのGroupから成り、Service Devのエンジニアはいずれかのチームに所属する形となっています。 (組織図について興味を持たれた方は、こちらの会社説明資料を

    BASEのチーム開発における設計レビューの取り組み - BASEプロダクトチームブログ
    juve534
    juve534 2020/10/13
    設計レビューをやりたいなと思っていたので参考になるな👀
  • はてなブログのキャッシュ周りをきちんと改善したら、アプリケーションサーバの台数を半分にできた話 - Hatena Developer Blog

    はてなブログでSREをやっているid:cohalzです。 2019年12月頃からid:utgwkkやid:onkとともに、はてなブログにおけるキャッシュ周りの改善を行いました。その結果、次のような成果が得られました。 ブログ記事のキャッシュヒット率が、1日平均で8%から58%に向上 アプリケーションサーバの台数を、以前の半数以下に削減 DBに届くリクエスト数が、以前の3分の2まで減少 レスポンスタイムの平均が、以前の8割まで減少 この記事では、実際にどういった改善を行ったのか、その際に気をつけたことや大変だったことを紹介します。 はてなブログがVarnishを導入した経緯と課題 開発合宿をきっかけに問題が明らかになる 進め方をまず考える ホストのメモリをできるだけたくさん利用する メモリを積んだホストでなぜかレイテンシが悪化 キャッシュが分散しないようVaryヘッダを使う デバイス情報を適

    はてなブログのキャッシュ周りをきちんと改善したら、アプリケーションサーバの台数を半分にできた話 - Hatena Developer Blog
    juve534
    juve534 2020/10/08
    見様見真似でモニタリング会を始めており、こういうことまでやっていきたい
  • 「もうさばき切れない」アクセスが激増したECプラットフォームにおける負荷対策 - BASEプロダクトチームブログ

    はじめに CTOの川口 (id:dmnlk) です。 5月にオンラインmeetupをさせて頂きその中で「具体的な負荷対策に関しては開発ブログで!」と言っていた件ですが気づいたらもう9月になりかけていました。 コロナ禍においてネットショップ作成サービス「BASE」の利用者様が急増しました。 www.nikkei.com 5 月には 100 万ショップを超えるショップオーナー様にご利用していただいております。 今まで EC 事業を行っていなかった飲店様や様々な業種の方が利用をはじめていただき、ショップオーナー様も購入者様共に短期の見通しでは想定をしていないアクセスが発生しました。 その途中でシステムとして対応しきれない面もあり、アクセス負荷によるサービスの不安定を招き皆様にはご不便や販売時間を変更していただくお願いなどをしてしまい大変申し訳ありませんでした。 現在では安定しておりますが、その

    「もうさばき切れない」アクセスが激増したECプラットフォームにおける負荷対策 - BASEプロダクトチームブログ
    juve534
    juve534 2020/08/27
    トラブル対応は低レイヤーの知識と筋力が求められるよね(ヽ´ω`)
  • レガシーとの向き合い方 〜cron から Rundeck へ〜 - DMM inside

    |DMM inside

    レガシーとの向き合い方 〜cron から Rundeck へ〜 - DMM inside
    juve534
    juve534 2020/08/13
    crontabからは脱却したいよね…
  • 1