[7ページ] sreの人気記事 1293件 - はてなブックマーク

241 - 280 件 / 1293件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

sreの検索結果241 - 280 件 / 1293件

ごく普通のエンジニアリング運用チームを強力な SRE チームに変える | Google Cloud 公式ブログ
- 92 users
- cloud.google.com
- テクノロジー
- 2019/10/23
※この投稿は米国時間 2019 年 10 月 4 日に Google Cloud blog に投稿されたものの抄訳です。運用チームにエンジニアを絶えず増員しても、お客様の拡大には対処しきれません。Google のサイト信頼性エンジニアリング（SRE）の原則を適用すれば、運用上の問題にソフトウェアエンジニアリングによる解決手法を取り入れることで、うまく対処できます。本稿では、従来のネットワークエンジニアリングの通例にとらわれず、SRE に転換することで、Google がグローバルネットワーク運用チームを変革した方法をご紹介します。Google の本番環境ネットワーキングチームがこの問題にどのように取り組んだのかをお読みいただき、ご自分の組織に SRE の原則をどのように取り入れることができるのかを検討してみてください。スケーリングの限界2011 年、Google の本番環境ネット
- SRE
- google
- あとで読む
- gcp
- DevOps
- 運用
- cloud
AWS障害で本当に知っておくべきことと考慮すべきこと
- 92 users
- hisa-tech.site
- 政治と経済
- 2019/08/24
おはようございます、hisayukiです。盛大なお祭りもだいぶ収束に向かってきました。ソシャゲ大好きな人達のTwitterでの反応すごかったですね〜(；´∀｀) さて、それでは昨日のAWS障害のお祭りについて書いていきたいと思います。
本当にサービスの運用できてますか！？運用監視を学べるAWS Observability Workshopを開催しました！
- 92 users
- developers.cyberagent.co.jp
- テクノロジー
- 2021/04/16
本当にサービスの運用できてますか！？運用監視を学べるAWS Observability Workshopを開催しました！技術本部サービスリライアビリティグループ（SRG）の柘植（@shotaTsuge）です。 #SRG（Service Reliability Group）は、主に弊社メディアサービスのインフラ周りを横断的にサポートしており、既存サービスの改善や新規立ち上げ、OSS貢献などを行っているグループです。本記事は、サイバーエージェントグループと他複数社向けに特別開催したAWS Observability Workshopの開催レポートになります。本記事を通して、運用とは何なのかを改めて考えるきっかけとなれば幸いです。 Day1 Day1では、「サービスを動かし続けるために何が必要か」というタイトルで、運用とは何なのか Amazonでの運用例 AWS環境では、どのように運用す
- aws
- 運用
- あとで読む
- 監視
- observability
- SRE
- サービス
SRE実践の形：7種類の SRE 実践パターン - 株式会社X-Tech5
- 92 users
- x-tech5.co.jp
- テクノロジー
- 2022/03/03
SRE （Site Reliability Engineering）の実践パターンの話をします。わたしたちが自身の経験をもとに書いたものですが、参考資料の影響を多大に受けています。参考資料がどれも厚すぎて参考にしきれていない感はあります。これらの実践パターンはどれかが優れているというものではなく、組織やプロダクトの状況によって選択するものだと考えています。なお次のエントリでSREを成していく道のりの話をしています。 SRE実践への道：ボトムアップの場合 SRE実践への道：トップダウンの場合 7種類のSRE実践パターンこれらは順番に発生していくものではありません。またこれらの実践パターンは排他的ではなく、複数を並行実施することがあります。わたしたちが知る限りSREのミッション（あるいはSREに対する期待値）は両極端で、全体を俯瞰し全体最適を図る方向性の場合と、可用性・パフォーマ
さくらインターネットで活躍中の id:y_uukiを訪問 | はてな卒業生訪問企画 [#9] - Hatena Developer Blog
- 91 users
- developer.hatenastaff.com
- テクノロジー
- 2024/05/10
こんにちは、エンジニアリングマネージャーの id:onk です。 Hatena Developer Blogの連載企画「卒業生訪問インタビュー」では、創業からはてなの開発に関わってきた取締役の id:onishi、CTOの id:motemen、エンジニアリングマネージャーの id:onkが、いま会いたい元はてなスタッフを訪問してお話を伺っていきます。 id:onkが担当する第9回のゲストは、さくらインターネット株式会社の組織内研究所であるさくらインターネット研究所の上級研究員で、SRE （Site Reliability Engineering）の研究者としても活躍する id:y_uuki さんこと、坪内佑樹さんです。 2013年にはてなに新卒でWebオペレーションエンジニアとして入社後、サーバー監視サービス「Mackerel」をはじめとするサービス開発やはてなのインフラ開発・運用にSR
Why Twitter Didn’t Go Down: From a Real Twitter SRE
- 91 users
- matthewtejo.substack.com
- テクノロジー
- 2022/11/22
Twitter supposedly lost around 80% of its work force. What ever the real number is, there are whole teams with out engineers on it now. Yet, the website goes on and the tweets keep coming. This left a lot wondering what exactly was going on with all those engineers and made it seem like it was all just bloat. I’d like to explain my little corner of Twitter (though it wasn’t so little) and some of
- SRE
- Twitter
- あとで読む
- cache
- 運用
- 解説
- *あとで読む
- architecture
今年読んだ技術書籍（2019年）
- 91 users
- deeeet.com
- テクノロジー
- 2019/12/06
今年読んだ技術書籍やレポートなどをざっくりまとめてる．Infrastructure Engineer・Platfomerとして日々の業務に直結するものから1年くらいかけてやっていきたいと思っていることなどを中心に． Kubernetes 業務ではメインにKubernetesを使っているのでKubernetesに関わる書籍は発売されれば大体目を通すようにしている．今年発売されたので良かったのはProgramming Kubernetes．この本はCRDやOperatorによってKubernetes nativeなアプリケーションを構築することにフォーカスしている．昨年のJapanContainerDaysでのMicroservices Platform on Kubernetes at Mercariでも話したようにKubernetesを使う大きな理由の1つはその拡張性にある．Kubebu
- kubernetes
- SRE
- book
- microservices
- infrastructure
- あとで読む
- 本
- 技術
- engineering
Google Cloudの主要サービスが10時間ものあいだ障害発生。原因は分散アクセスコントロールへの大量の変更要求が引き起こしたメモリ不足
- 90 users
- www.publickey1.jp
- テクノロジー
- 2020/04/10
Google Cloudの主要サービスが10時間ものあいだ障害発生。原因は分散アクセスコントロールへの大量の変更要求が引き起こしたメモリ不足 Google Cloudは、米国太平洋時間の3月26日木曜日16時50分（日本時間27日金曜日午前8時50分）頃から約10時間ほどのあいだ、Google Compute EngineやCloud Storage、Cloud SQLなどをはじめとする主要なサービスで障害を起こしていました。受けた影響はリージョンごとに異なりますが、ほぼすべてのリージョンで何らかの影響を受けたようです。 Googleはその原因についての調査結果を発表。原因はGoogle Cloud内部でアクセスコントロールを司る部分に障害が発生したことだったと説明しました。アイデンティティマネジメントへの大量の更新要求がキャッシュサーバの障害にクラウド内部では、APIへのアクセス
- GCP
- 障害
- publickey
- GoogleCloudPlatform
- google
- incident
- あとで読む
- サービス
SREは大規模なリプレイスプロジェクトで発生した様々な問題にどう取り組んだか【Backlog Play 化プロジェクト】 | Backlogブログ
- 90 users
- backlog.com
- テクノロジー
- 2019/10/31
Backlog SREチームのmuziです。2018年4月から2019年7月まで、BacklogをJavaからScala / Play Frameworkに移行する大規模なリプレイスプロジェクトに参加していました。 SREとして、このリプレイスにはかなりの困難が伴いました。特にBacklogのサービス安定性は大きな問題でした。本記事では、こうした問題に対して、SREである私がどういうアプローチを取ったのか、そしてこのプロジェクトで得られた教訓を今後チームや組織全体でどのように活かそうとしているかをご紹介します。正直言って、泥臭い話だらけの内容です。それでも、技術的負債を抱えたプロジェクトでSREが取れるアプローチの事例の一つとして、読者の参考になれば幸いです。はじめにヌーラボでは2015年11月から2019年7月まで、BacklogをJavaからScala / Play Frame
SREチームがスクラムを導入し1年でタスクの可視化と脱属人化を実現した話
- 90 users
- engineering.visional.inc
- テクノロジー
- 2021/06/29
ビズリーチ事業部のSREチームは、スクラムを導入して1年が経ち、タスクの可視化と脱属人化を実現しました。導入にあたって何をしたのか、開発チームとは異なる工夫が必要だったところはどこか、導入後何が変わったのかを振り返ってみました。ビズリーチ事業部のSREチームについて「ビズリーチ」を担当していて、SRE(Site Reliability Engineer)としてアプリケーションエンジニアと共にプロダクトの継続的な成長のため信頼性・可用性の向上、自動化、効率化などに取り組んでいます。なお、チームの構成は以下のようになっています。開発者: SREチームのメンバー(5人) PO: SREチームのマネージャースクラムマスター: 社内横断組織に所属している専任のスクラムマスター SREチームが抱えていた課題とスクラムの導入目的まず、SREチームがスクラムを導入した背景を説明します。 PO
- スクラム
- SRE
- あとで読む
- アジャイル
- チーム
- 開発
- engineer
- management
- techfeed
【OpenTelemetry】オブザーバビリティバックエンド8種食べ比べ
- 89 users
- zenn.dev/sumiren
- テクノロジー
- 2024/03/05
sumirenです。技術顧問やSREをしています。背景 2024年現在、OpenTelemetryが盛り上がっており、ベンダへの依存度を下げてテレメトリを収集・送信することがトレンドになってきているように思います。多くの企業様で、OpenTelemetry対応のオブザーバビリティバックエンドを選定されているのではないでしょうか。一方で、E2E自動テストツールなどもそうですが、デベロッパーツールは画面やUXの情報がパブリックな情報として出回ることが少ないように思います。オブザーバビリティバックエンドの場合、シグナル3種に関してOpenTelemetryベースでもフルに機能が活用できるのかという疑問もあります。そうしたこともあり、オブザーバビリティバックエンドは実際にトライアルしてみないと選定しづらいです。監視など狭義のオブザーバビリティ外の機能や、OpenTelemetryの範囲外の
メルペイのマイクロサービスとCloud Native / CloudNative Days Kansai2019
- 88 users
- speakerdeck.com/tjun
- テクノロジー
- 2019/11/28
CloudNative Days Kansai 2019のキーノートの資料です
- microservice
- kubernetes
- microservices
- slide
- CloudNative
- mercari
- あとで読む
- cloud
- architecture
- SRE
セキュリティインシデント疑似体験調査ワークショップに参加すべき３つの理由 - Techtouch Developers Blog
- 88 users
- tech.techtouch.jp
- テクノロジー
- 2023/08/17
はじめにこんにちは。最近はテックタッチの同僚とボルダリング同好会のようなものを作ってワイワイしてます！SRE の izzii です。 7月27日、社内の有志を集めて AWS ジャパン主催のセキュリティインシデント疑似体験調査ワークショップに参加しました。このイベントは、AWS 環境上の典型的なセキュリティインシデントを再現したログを用いて、CTF (Capture The Flag、旗取りゲーム) 形式で AWS のセキュリティで気をつけるべきことを学べるイベントです。テックタッチからは、izzii (SRE), roki (SRE), canalun (フロントエンド), kacchan (コーポレートセキュリティ) が参加し、その4名で構成されたチーム「gokigen」は約40チーム中で3位に入賞することができました！（記事のトップ画像はその時のキャプチャです ※AWS 様に
ITエンジニアから研究者へ。社会人博士として大学院にも再挑戦し、自分の「代表的プロダクト」を追求するわけ - Findy Engineer Lab
- 88 users
- findy-code.io
- テクノロジー
- 2020/05/13
こんにちは、坪内佑樹です。Web上では、ゆううき（@yuuk1t）と呼ばれています。僕は現在、さくらインターネット研究所で研究員を務めています。専門領域は、ITエンジニアが情報システムに対して常に変化をもたらしながら、同時に情報システムの信頼性を高めていくための技術である、Site Reliability Engineering（SRE）です。これまで、大学院を中途退学したのち、Webサービス企業でWebオペレーションエンジニアおよびSREを5年間務めました。そして昨年（2019年）の2月から現職で研究開発に取り組んでおり、今年はさらに情報系の大学院の博士課程に社会人博士として進学します。本記事では、昨今注目を浴びているSRE分野において「代表的プロダクト」を作ることに憧れ、それを目標の軸に据えて、なぜエンジニアから研究者になる「選択」をしたのかをご紹介します。大学で研究するより、
- エンジニア
- あとで読む
- 研究
- 人生
- はてな
- 考え方
- ビジネス
- 仕事
SRE NEXT 2022を開催します - SRE NEXT Staff Blog
- 86 users
- blog.sre-next.dev
- テクノロジー
- 2022/02/06
SRE NEXT Logo はじめにこんにちは！SRE NEXT 2022実行委員会委員長のnari です。先日、SRE NEXT公式Twitter アカウントにてSRE NEXT 2022の5/14,15の日程でのオンライン開催が発表され、オフィシャルサイトも公開されました！この投稿では、なぜ我々はSRE NEXT 2022を開催するのか・どんなカンファレンスにしたいかを書いていきます。*1 2022/2/7追記: スポンサー募集開始しました SRE NEXT 2022 スポンサー応募フォーム 2022/2/7追記: CFP Openしました SRE NEXT 2022 の CFP についてのご案内 - SRE NEXT Staff Blog SRE NEXTとは信頼性に関するプラクティスに深い関心を持つエンジニアのためのカンファレンスであり、同じくコミュニティベースのSRE勉強
- SRE
- あとで読む
- イベント
- Note
- google
- blog
- srenext
ふるさとチョイスのSREとしてこの1年やってきたこと - Qiita
- 86 users
- qiita.com/Tocyuki
- テクノロジー
- 2021/12/21
この記事は、トラストバンク Advent Calendar 2021の20日目ですトラストバンクでSREをしている@Tocyuki（としゆき）です！トラストバンクへ入社してちょうど1年となるので本記事ではこの1年SREとしてやってきたことを書きたいと思います！一人目のSREとして私は去年の12月に一人目のSREとしてトラストバンクへ入社しました。入社の経緯やキャリア等については弊社Wantedlyのストーリーにインタービュー記事があるので是非見てみて下さいー！ https://www.wantedly.com/companies/trustbank/post_articles/305115 トラストバンクの運営しているサービスにふるさとチョイスというふるさと納税サイトがあります。ふるさと納税サイトの先駆けであり、入社前から知っているサイトでもありました。入社前までは社内にイン
- devops
- あとで読む
- qiita
- インフラ
- 組織
- cloudflare
- aws
- 仕事
75億ドキュメント以上のデータを保持するMongoDBを、Amazon EC2からMongoDB Atlasへ約3ヶ月で移設した方法 | CyberAgent Developers Blog
- 86 users
- developers.cyberagent.co.jp
- テクノロジー
- 2021/06/17
75億ドキュメント以上のデータを保持するMongoDBを、Amazon EC2からMongoDB Atlasへ約3ヶ月で移設した方法はじめにタップル SREの赤野、CAM SREの庭木です。タップルは2021年3月頃にMongoDB on Amazon EC2(以下EC2 MongoDB)からMongoDB Atlas(以下Atlas)への移設を行いました。今回はこの移設での取り組みについて紹介します。 Atlasへ移設することになった経緯・目的タップルでは定期的にキャパシティプランニングを目的とした負荷試験を実施しており、今後のDAU増加のシミュレーションに対してシステムのキャパシティが確保できるかを定期的に確認しています。タップルSREのキャパシティプランニングの取り組みについては、以前発表させていただいた資料があるのでこちらにも目を通していただけると幸いです。 2020年
- MongoDB
- db
- aws
- あとで読む
- Developers
- データ
- SRE
- ドキュメント
- JSON
- コマンド
SRE四大行 | 外道父の匠
- 85 users
- blog.father.gedow.net
- テクノロジー
- 2021/08/12
元々なんでも屋ってたけど、我が部署名もSREになったし、インフラエンジニアって書くと『IT』警察が寄ってくるからSREでいきましょう。短いのはイィ。 SREがやることは書籍『O’Reilly Japan – サイトリライアビリティワークブック』がほぼ語っていますが、もうちょっと噛み砕いて自分的にはこの四大行を軸に活動すれば、いっぱしのSREになれんじゃねっていう戯れであります。 SREのお仕事を大雑把に表現すると、サービス開発者が作成したアプリケーションを、動かす環境を用意し、安全・効率的に動かし続けることだと思っています。 IT業界の事情変化につれて、SREの重要性は高まる傾向にあり、それに伴いSREとして活動を希望する人材も増えたような、そうでもないような。気がするけど、SREとして食ってく気ならこれら四大行が基本であり奥義になるよって話です。『構築』アプリケーションを動かすための
- SRE
- 運用
- あとで読む
- インフラ
- サーバ
- techfeed
- 技術
- IT
- Site Reliability Engineering
検索基盤チームのElasticsearch×Sudachi移行戦略と実践 - エムスリーテックブログ
- 84 users
- www.m3tech.blog
- テクノロジー
- 2021/08/13
エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。最近、AI・機械学習チーム配下の検索基盤チームでElasticsearchのAnalyzerをKuromojiからSudachiに移行しました。今回はSudachi移行の背景と、Sudachiの概要、実際に移行するにあたってのプロセスや注意事項をお話しします。対象読者なぜSudahchiに移行したのか検索基盤チームが抱えていた検索の課題 Sudachiとは Sudachiへの移行戦略と実践今使っているKuromojiユーザー辞書をSudachiユーザー辞書に移行する今使っているシノニム辞書からSudachi正規化機能でまかなえるものを削除する平仮名/カタカナの正規化辞書を作る移行時のSudachi切り替え戦略移行後の影響の事前確認 Sudachi移行時のハ
踏み台サーバー、SSMセッションマネージャー、EC2 Instance Connect Endpoint サービスを使用したEC2インスタンスへの接続方法と特徴を比較してみた - NRIネットコムBlog
- 84 users
- tech.nri-net.com
- テクノロジー
- 2024/03/01
はじめに踏み台サーバー経由で接続する方法 ①セキュリティグループを作成する ②パブリックサブネットに踏み台サーバを作成する ③プライベートサブネットにEC2インスタンスを作成する ④踏み台サーバーにプライベートサブネットに配置されたEC2インスタンスのキーペアをコピーする ⑤踏み台サーバーにアクセスする ⑥踏み台サーバーからプライベートサブネットにあるEC2インスタンスにアクセスする SSMセッションマネージャー経由で接続する方法 VPCエンドポイントを使用した方法 ①セキュリティグループとIAMロールを作成する ②プライベートサブネットにEC2インスタンスを作成する ③VPCエンドポイントを作成する ④SSMセッションマネージャー経由でEC2インスタンスに接続する NATゲートウェイを使用した方法 ①IAMロールを作成する ②プライベートサブネットにEC2インスタンスを作成する ③NA
- aws
- あとで読む
- ssm
- ssh
- セキュリティ
- security
GitHub Flow with GitOpsの導入 - ZOZO TECH BLOG
- 84 users
- techblog.zozo.com
- テクノロジー
- 2023/03/22
はじめにこんにちは、計測プラットフォーム開発本部SREブロックの近藤です。普段はZOZOMATやZOZOGLASS、ZOZOFITなどの計測技術に関わるシステムの開発、運用に携わっています。計測プラットフォーム開発本部では、複数のプロダクトを開発運用していますが、リリース作業はプロダクト単位で行っています。プロダクトによってローンチから数年経過し安定傾向のものもあれば、ローンチしたばかりで機能開発が盛んなものもある状態です。複数のプロダクトを管理する上では当然の状況ですが、プロダクト単位でリリース作業手順が異なり、手順そのものにも課題がある状態でした。本記事では、リリース作業で課題となっていた部分の紹介と、それぞれの課題に対する対応策についてご紹介します。目次はじめに目次現状課題と対応方針リリース作業の自動化リリース作業の自動化をする上での必須条件の確認自動化が必要
- github
- git
- あとで読む
- DevOps
- ZOZO
データ系エンジニアの職種の違い - satoshihirose.log
- 84 users
- satoshihirose.hateblo.jp
- テクノロジー
- 2020/08/12
はじめに自分は Martin Kleppmann が言うデータ指向アプリケーションやそれを実現する周辺の技術領域が好きで、業務としてそのような領域のエンジニアリングを引き続きやっていけたらなと思っています。世の中には関連する職種の求人が多々ありますが、同じ名前のロールでも職務内容がコンテキストによって異なることが多かったりします。ここではそれぞれの職種の違いについて自分の観点からまとめます。 1. データエンジニア求人を眺めていると、データエンジニアは企業によって割と役割がぶれるので分けて説明します。 1-1. 小さめの事業会社のデータエンジニアまずは、小さめの事業会社のデータ分析基盤の構築・運用をするロールです。ここでは ETL 処理の実装・運用のほかに、各種ツールを使ったデータ基盤の構築・運用知識やクラウド上のアプリケーション構築の知識などが求められることが多いです。さら
ZOZOTOWNのProduction Readiness Checklistと信頼性向上の取り組み / Improvement the reliability of ZOZOTOWN with Production Readiness Checklist
- 84 users
- speakerdeck.com/akitok_
- テクノロジー
- 2022/05/15
ZOZOTOWNのProduction Readiness Checklistと信頼性向上の取り組み / Improvement the reliability of ZOZOTOWN with Production Readiness Checklist
『家族アルバムみてね』を支えるオンコールエンジニア制度 | gihyo.jp
- 83 users
- gihyo.jp
- テクノロジー
- 2023/01/30
株式会社MIXIで『家族アルバムみてね』（⁠以下みてね）のSREグループに所属している本間です。みてねは現在、1,500万人を超えるユーザに175の国と地域でサービスを提供しています(2022年8月現在)。そこで、より高い信頼性と可用性を担保するためにみてねのSREグループではオンコールエンジニア制度を設けています。今回はこの「みてねのSREグループにおけるオンコールエンジニア制度の取り組み」についてご紹介させて頂きます。オンコールの定義まず、どのような条件でアラートを設定しオンコールを実施するかの定義について簡単に触れておきます。現在はさまざまなソースから多種多様な情報を収集することができます。たとえば、みてねではKubernetes（Amazon EKS）を採用しています。Kubernetesだけでも非常に多くのメトリクスが収集できますが、それだけではなくアプリケーション
- sre
- あとで読む
- 障害
- 運用
- エンジニア
- article
【開催報告】プラットフォームエンジニアリングって何？〜基本から AWS での実現方法について〜 | Amazon Web Services
- 82 users
- aws.amazon.com
- テクノロジー
- 2024/03/06
Amazon Web Services ブログ【開催報告】プラットフォームエンジニアリングって何？〜基本から AWS での実現方法について〜みなさんこんにちは！アマゾンウェブサービスジャパン合同会社ソリューションアーキテクトの後藤です。 2024 年 2 月 29 日に AWS オンラインセミナー「プラットフォームエンジニアリングって何？〜基本から AWS での実現方法について〜」を開催しました。本イベントは、プラットフォームエンジニアリングの基本的な概要と現状について解説した上で、SRE や DevOps との関連性、どんな課題をどう解決するのか、実装するとなれば、AWS でどう実現するのかといった点についてご紹介させていただきました。400 名を超える多くの方々にご参加いただきました。ご参加いただいた皆様、誠にありがとうございました！アジェンダ AWS メンバーから、プラット
- aws
- あとで読む
- DevOps
- 運用
- インフラ
- 組織
- サービス
- 開発
ユニットテストをGitHub ActionsからCodeBuildに移行し、実行時間を35%削減した - Uzabase for Engineers
- 81 users
- tech.uzabase.com
- テクノロジー
- 2022/11/04
こんにちは。NewsPicks SREチームの海老澤です。今回はGithub Actionsで実行していたテストを高速化したので紹介したいと思います。課題取り組みテストの並列化 AWS CodeBuildへの移行 CodeBuildの設定コンピューティングタイプトリガー buildspec.yml 結果課題 NewsPicksでは Junitのテスト等をGithub Actions から実行しているのですが、2013年のサービス開始当初から存在する、一番コードベースが大きいリポジトリのビルド・テストの実行時間に 20~30分ほどかかっていました。テスト自体はバグを産まないためにも必要なものですが、時間がかかるため開発効率が下がってしまいます。そのためテスト高速化の取り組みを行いました。取り組みテストの高速化をする上でやったことは大きく下の二つですテストの並列化 G
- テスト
- github
- あとで読む
- CI
- AWS
- 開発
- ツール
社内のKubernetesクラスタ運用を効率化する基盤について | さくらのナレッジ
- 81 users
- knowledge.sakura.ad.jp
- テクノロジー
- 2022/11/08
はじめにこんにちは。 2022年の4月から、さくらインターネット株式会社に新卒入社し、7月よりSRE室という部署に配属されました、菅原大和(@drumato)と申します。本記事では、7月の配属から今日(記事執筆時点では2022/10/31)にかけての3ヶ月間、社内のKubernetesクラスタ運用状況を調査し、現状の課題を明確にした上で、社内のKubernetesクラスタ運用状況を改善する基盤の設計と開発に取り組んできましたので、その内容をご紹介します。その過程で得られた知見や、今後必要になってくるであろう、不足している機能についても合わせて共有します。また、本プロジェクトの背景として、SRE室という部門の目的や今後実現したい世界観についてもお話しできればと思います。本記事の全体を通して、技術的な側面よりもプロジェクトの背景や目的を重点的にお伝えします。本プロジェクトの概要本
- kubernetes
- あとで読む
- コンテナ技術
- SRE
- 運用
- techfeed
- 開発
ざっくり理解するSRE - Qiita
- 81 users
- qiita.com/shin7446
- テクノロジー
- 2021/12/16
昨今では自社のプロダクトやシステムのエンゲージメント向上のために、「DevOps」や「アジャイル」といったキーワードのもと、大小さまざまな企業がシステムやアプリの開発手法の改善を試みています。その中において、最近だと「SRE」というキーワードを聞く頻度も多くなってきたかと思います。しかしアジャイルやCICDなどと比べ、SREについては「言葉は知ってるけど具体的になんなのかはよくわからない」という方もいるのではないでしょうか？ここではそんな方々向けに、SREの最初の一歩となる概要について、独自の解釈を交えつつまとめていきます。ここで話すこと SREって何？なぜSREが必要？ SREってどんなことするの？ここで話さないこと SREの技術の具体的なところ（k8sやAPMの導入手順、設定方法など）プラクティスの実践例・具体例（アーキテクチャ、各種設定値、モニタリング指標など） TL;DR
- SRE
- 運用
- devops
- あとで読む
- 開発
- 監視
- システム
新サービス Aurora Serverless v2 の検証とその評価 [DeNA インフラ SRE] | BLOG - DeNA Engineering
- 81 users
- engineering.dena.com
- テクノロジー
- 2022/06/16
2022.06.16 技術記事新サービス Aurora Serverless v2 の検証とその評価 [DeNA インフラ SRE] by Keijun Kumagai #infrastructure #aurora #aws #database #technical-verification #game-infrastructure #infra-quality こんにちは！IT基盤部の k-jun です。IT基盤部にて大規模ゲームのインフラを見ているインフラエンジニアです。この記事では、2022/04/21 に GA となった AWS の新サービス Aurora Serverless v2 に対して行った技術検証とその調査結果をご紹介させて頂きます。 Aurora Serverless v2 とは Aurora Serverless v2 は Amazon Aurora のオンデマン
- aurora
- aws
- Serverless
- あとで読む
- database
- DB
- mysql
ZOZOにおけるID基盤のk8sへのリプレイスとセキュリティの取り組み / Authentication service replacement and security efforts of zozotown(CNDT2020)
- 81 users
- speakerdeck.com/kameikki
- テクノロジー
- 2020/09/09
ZOZOにおけるID基盤のk8sへのリプレイスとセキュリティの取り組み / Authentication service replacement and security efforts of zozotown(CNDT2020)
- ZOZO
- kubernetes
- あとで読む
- SRE
- k8s
- セキュリティ
- security
- api
- aws
OpenTelemetryのここ4年の流れ / OpenTelemetry in last 4+ years
- 80 users
- speakerdeck.com/ymotongpoo
- テクノロジー
- 2023/10/19
https://opentelemetry.connpass.com/event/296353/
2022年版 OpenTelemetryを知れば世界が平和に - じゃあ、おうちで学べる
- 80 users
- syu-m-5151.hatenablog.com
- テクノロジー
- 2022/07/12
はじめに OpenTelemetryとは Opentelemetry のコンポーネント Opentelemetry のプロジェクトの仕様とStatus Tracing Metrics Logging(Specification にドキュメントがない) Baggage OpenTelemetry のSpanとTrace OpenTelemetry Collectorとは Collector のメリット OpenTelemetry Collector Architecture とは OpenTelemetry とSDKとパッケージ OpenTelemetry と自動計装今後のOpentelemetry について次回予告:OpenTelemetry とOpenTelemetry Collectorを使ったTracingとMetricsをアプリケーションで利用する方法参照リンクはじめに最
その監視、必要ですか？ - Qiita
- 79 users
- qiita.com/ryota_hnk
- テクノロジー
- 2023/12/25
この記事は検索エンジンプロダクトを一緒に開発してた同窓会のカレンダーの24日目の記事です。この記事の想定読者夜中にメモリ使用率超過のアラートを受け取ってるけど、特に何もする必要がない人アラートの通知内容だけではよく分からないので、監視ツールの画面や本番環境の状態を目視で確認して影響確認してる人この記事で想定していない読者 MSP事業者のようなITインフラの監視・安定化、それ自体を目的とされている方労働の疎外まずはカール・マルクスの話をしましょう。マルクスの理論における「労働の疎外」には主に次の四つの側面があります製品の疎外: 労働者は自分が生産する製品との関係を失います。彼らは自分の労働で作り出した物を所有せず、それが単なる商品として扱われます。生産活動の疎外: 労働者は自分の労働過程との関係を失います。単調な作業により創造性が抑制され、仕事に対する個人的な充足感が欠けま
- 監視
- あとで読む
- SRE
- monitoring
- インフラ
- サービス
- qiita
テックタッチにおけるSREの役割・課題感を紹介します - Techtouch Developers Blog
- 79 users
- tech.techtouch.jp
- テクノロジー
- 2023/10/19
テックタッチという会社・サービステックタッチの SRE チーム何をやっているのインフラエンジニアというよりもソフトウェアエンジニア課題感 SREチームの活動 - 大きなサイクル・小さなサイクルコミュニケーション技術スタック・ツール終わりにこんにちは。SRE の roki です。暑い日はまだあるものの、朝はすっかり秋を感じるようになり子どもたちが登校しやすくなってホッとしている今日このごろです。この記事では、テックタッチという会社・サービスに触れつつ、SRE チームの働く環境や課題感を共有しながらチームの紹介をしていきます。興味を持っていただけたらぜひお声がけください。カジュアルに話し合う場を設けさせてもらっており、採用情報ページにて受け付けています。テックタッチという会社・サービステックタッチでは、社名と同じ「テックタッチ」という名前のサービスを運営しています。どのよ
開発チームとともに歩むSREチームが成し遂げたいこと | メルカリエンジニアリング
- 79 users
- engineering.mercari.com
- テクノロジー
- 2021/01/29
こんにちは、メルカリMicroservices SREチームでEngineering Managerをしている@m4buyaこと渋谷です。メルカリでは、昨年6月にSREチームの一部をマイナーアップデートし、プロダクトチームに寄り添いSREとしての専門性を活かし信頼性に貢献していくMicroservices SREチームを発足しました。本記事では、そうするに至った背景、何を目指しているのか、これまでに出来たこととまだ出来ていないことを振り返り、今後の展望についてご紹介します。背景メルカリでは、2015年よりSREチームを立ち上げ、お客様が安心・安全にメルカリサービスを利用していただくためのシステムの信頼性の維持向上に取り組んできました。年々プロダクトとして成長を続け、トラフィックも増加する一方のメルカリサービスに求められるスケーラビリティ向上において、メルカリSREチームは大きな役割を
なれる!SRE - Becoming SREで学んだこと - じゃあ、おうちで学べる
- 78 users
- syu-m-5151.hatenablog.com
- テクノロジー
- 2024/04/08
はじめにエンジニアとして就職する前に読んだ「なれる!SE 2週間でわかる?SE入門」の内容があまりにも厳しく、業界に就職するのが怖くなったことを覚えています。本の中に登場する中学生の少女にしか見えない凄腕のSE、室見立華さんのような人物は現実には存在しないでしょうが、実際の業界には彼女のような凄腕エンジニアや年齢不相応な技術力を持つ人間も確かに存在します。なれる！SE ２週間でわかる？ＳＥ入門 (電撃文庫) 作者:夏海公司,IxyKADOKAWAAmazon SREの探求『Becoming SRE』の内容紹介私は「なれる!SE」が好きすぎるあまり、「なれる!SRE」というタイトルのクソみたいな文章を吐き出したこともありましたが、そのクオリティがあまりにも低かったため、外には公開せずに留めておきました。そんな中、SREの探求の原著者であるDavid Blank-Edelman(ott
- SRE
- DevOps
- チーム
- あとで読む
- 運用
- *あとで読む
- システム
- book
SRE を成功させるには、まず計画を立てることが大事 | Google Cloud 公式ブログ
- 78 users
- cloud.google.com
- テクノロジー
- 2021/03/12
※この投稿は米国時間 2021 年 2 月 27 日に、Google Cloud blog に投稿されたものの抄訳です。サイト信頼性エンジニアリング（または DevOps）を実装すると、魔法のようにすべてが改善されると思う人もいるでしょう。組織に SRE のおまじないをかけるだけで、サービスの信頼性と収益性が向上し、IT やプロダクト、エンジニアリングの各チームの誰もが満足すると。このような勘違いが起こる理由は明らかです。世界屈指の信頼性と拡張性を誇るサービスのいくつかは、SRE チームの支援を得て稼働しているからです。Google がその代表的な例です。私は、大規模な本番環境システムの稼働に明け暮れる生活を 20 年近く続けてきました。トレードオフ、信頼性、コスト、制約や要件が異なる多様なアーキテクチャの実装といったことで頭を悩ませ、深夜に呼び出されることもよくありました。最近では
- SRE
- あとで読む
- google
- cloud
Engineering Managerをやっていた間の振り返りとまとめ - masartz->log(type=>'hatenablog')
- 78 users
- masartz.hatenablog.jp
- 政治と経済
- 2019/08/19
TL;DR; Engineering Managerを降りることになりましたので、振り返りとまとめです。 ※会社は辞めませんので、退職エントリではございません（別チームへの異動です）時系列 2017/10頃: SREのチーム内において会社のReport Line上にはプロットされないリーダー的なポジションをやりはじめるこの時はまだManagerではない。採用や評価に対するResponsibilityがないのがマネージャとリーダーの簡単な違い 2018/04: SREのEngineering Managerに登用される当時 Microservices PlatformはReport Line上はまだSRE内に包含されていた気がするどこかのタイミングで Report Lineとしても独立して、2チームを兼任する形で引き続き担当していた 2018/10: 2チーム兼任からMicroser
Linux Crisis Tools
- 77 users
- www.brendangregg.com
- テクノロジー
- 2024/03/24
(This is based on Table 4.1 "Linux Crisis Tools" in SysPerf 2.) Some longer notes: [1] bcc and bpftrace have many overlapping tools: the bcc ones are more capable (e.g., CLI options), and the bpftrace ones can be edited on the fly. But that's not to say that one is better or faster than the other: They emit the same BPF bytecode and are equally fast once running. Also note that bcc is evolving and
- linux
- SRE
- あとで読む
- tool
- server
RDS Proxyを用いたオンラインスイッチオーバーによるMySQLのアップグレードについて - freee Developers Hub
- 77 users
- developers.freee.co.jp
- テクノロジー
- 2023/08/01
おはこんばんちは、DBREの橋本です。今回は、Amazon RDS Proxy（以降RDS Proxyとよぶ）を用いたRDS for MySQLインスタンスおよびAurora MySQLクラスタのオンラインスイッチオーバーの手法について、ある程度社内での運用が確立してきましたので解説いたします。従来のアップデート手法 AWS上でRDS for MySQLインスタンスやAurora MySQLクラスタ（以降これらをデータベースとしてまとめてよぶ）を運用している場合、それらのエンジンバージョンの更新を行ったり、OSバージョンの更新に伴う再起動を実施する必要があります。これらの更新を行う場合、以下のような方法が考えられます。対象のデータベースに直接更新を適用するスナップショットを作成し、更新済みのデータベースとして復元する更新済みの空のデータベースを新規作成し、そちらにデータを移行し、
- MySQL
- aws
- aurora
- RDS
- あとで読む
- freee
- DB
- database
- データベース
- techfeed