[B! 運用] braitomのブックマーク

GitHubセキュリティ Organization運用のベストプラクティス

本書ではGitHub Organizationをセキュアに運用する方法について解説します。 GitHubは大変便利なサービスで、個人利用のみならず組織で活用されるケースも多いです。しかしGitHubの初期設定は利便性重視であり、セキュリティ対策は利用者による明示的な設定が必要です。本書では意外と日本語でまとまった情報がない、Organizationレベルのベストプラクティスを体系化しています。GitHub Organization管理者はもちろんのこと、ソフトウェア開発者にも有益な情報を提供します。

braitom 2022/03/05

リンク

セキュアなBigQueryの運用方法

JulyTechFesta2021 登壇資料 https://techfesta.connpass.com/event/213069/ IAM,VPC Service Controls, Logging, 承認済みviewなどBigQuery周りのセキュリティサービスはいくつもあります。セキュリティを担保するためのサービスとしてどのようなものがあるのか、またそれを使った運用方法はどのようなやり方があるのかを実例を交えて紹介します。 #JTF2021 #JTF2020_C

braitom 2021/07/23

リンク

知っておきたかったLinuxサーバ設計、構築、運用知識まとめ - hiroportation

サーバ業務周りの管理、運用について役に立ちそうなナレッジをまとめました。長期的に書いているため用語に統一性がなかったり、不足分など随時修正したいと思います。 1. サーバ設計サーバスペックはどうするべき？使用するOSは？ CentOS開発終了について MWは何を使うべきか Webサーバ構築にはどちらを使うべき？Apache？Nginx？サーバセキュリティで最低限押さえておきたいことは？ listenするポートは最小限にしましょうファイアウォール設定で送受信IPアドレス、ポートの通信制御はしておきましょう外部に出る際にはプロキシサーバを経由するようにする随時パッチを当てるようにする linuxでのアンチウイルスソフトの検討個人アカウントで変更系コマンドは実行させないようにするログについて考えることストレージ容量には気をつけるデータベースはどう決めたら良いか MySQLか

braitom 2021/05/08

Linux
運用

リンク

「無人化システム」を駆逐する組織マネジメントとエンジニアリング

弊社では2019年3月ごろから「無人化システム」の駆逐を進めています。本記事ではこの取り組みを、組織マネジメントとエンジニアリングの側面から紹介します。恐怖の無人化システム「無人化システム」は社内の独自用語なので、まずは言葉の意味から説明します。無人化とはなにか無人化の前に属人化について触れておきましょう。weblio辞書から属人化について引用します[1]。ある業務を特定の人が担当し、その人にしかやり方が分からない状態になることを意味する表現。無人化は属人化の進化系です。無人化とは「属人化していた業務の担当者がいなくなってしまい、誰にもやり方が分からない状態になること」と定義できます。誰がどう見てもダメな状態ですね。無人化システムとはなにかシステム運用が属人化し、かつその運用者が退職するとシステムが無人化します。我々の会社ではこのようなシステムを『無人化システム』と呼んでい

braitom 2020/12/18

メンテする人がいなくなってもなお動いているシステムの対応について。読み物としても面白かった。

運用

リンク

The ETTO Principle（効率-徹底性トレードオフ原則）とITシステムの運用

こんにちは、滝澤です。今回は"The ETTO Principle"（効率-徹底性トレードオフ原則）について紹介します。ここでは「ETTO原則」と呼ぶことにしましょう。 ETTO原則はレジリエンス・エンジニアリングで著名なエリック・ホルナゲル氏（Erik Hollnagel）が提唱したもので、効率性（Efficiency）と徹底性（Thoroughness）はトレードオフの関係にあるというものです。これは、元々は安全に関する分野での話ではあるのですが、IT分野においても無縁というわけではありません。そのあたりの話を紹介します。本記事を3行でまとめると次のようになります。 ETTO原則により効率性と徹底性はトレードオフの関係にある。 ITシステムの運用の例として作業手順書作成の例を示し、効率性と徹底性のバランスを考える必要があることを示した。システム障害と根本原因分析について紹介し、

braitom 2020/12/02

"The ETTO Principle"（効率-徹底性トレードオフ原則）について。ETTO Principleとは何か、ITシステムの運用に当てはめた例について書かれている。この考え方面白いなー。

運用
IT

リンク

SLO策定とアラート設定までの長い道のり - Cybozu Inside Out | サイボウズエンジニアのブログ

こんにちは、@ueokandeです。早速ですが、皆さんが運用しているサービスには、SLO (Service-level objective: サービスレベル目標) がありますか？アラートの監視項目はどのように設定して、基準値をどのように決めていますか？社外とのコミュニケーションだけでなく、社内向けのSLOを決めておくことで、サービスの健康状態を知るための手がかりや、普段の開発・運用タスクの優先度を決める上での指標にもなります。またSLOがあると、サービスを監視するアラートに、理にかなった閾値を設定できます。この記事ではAWS版kintoneの、SLOとアラートを設定するまでの記録について紹介します。 cybozu.com版kintoneのSLOとアラート国内のcybozu.comで運用しているkintoneにも、もちろんSLOやアラートはあります。しかし現状のSLOはkinton

braitom 2020/11/15

リンク

Mackerelでは計画メンテナンスをどう実施しているか？ RedisをElastiCacheに移行した裏側をご紹介 - Hatena Developer Blog

こんにちは。MackerelチームSREのid:heleeenです。 Mackerelでは、2020年10月14日に計画メンテナンスを実施しました。今回は告知ブログに記載の通り、Mackerelが利用しているRedisをAmazon ElastiCache for Redis（以下、ElastiCache）へ移行しました。本記事では、この10月の計画停止の裏側を紹介します。どのようにElastiCacheへ移行するか大半のRedisを無停止で移行最後はElastiCacheへのオンライン移行を使用メンテナンスに向けたさまざまな準備メンテナンス手順書のチーム内レビューメンテンス実施中の役割分担なぜタイムキーパーが必要になったのかリモートで停止メンテナンスを実施する方法検証環境を利用して事前にリハーサルも実施 Redisを安全に効率よく切り替えるために参照するRedisを

braitom 2020/11/07

運用

リンク

Git管理 + CLI運用によるWindowsタスクスケジューラーの運用改善 - ZOZO TECH BLOG

こんにちは、WEAR部運用改善チームの三浦です。私たちのチームでは、WEARの日々の運用業務を安全かつ効率的に行えるよう改善を行っています。今回はバッチの定期実行に使用しているWindowsのタスクスケジューラーの運用改善について紹介します。背景 WEARではバッチをWindowsサーバー上で定期実行させており、定期実行するためにタスクスケジューラーを使用しています。WEARではバッチ実行用のサーバー(バッチサーバー)を用意しており、バッチサーバーへのアクセス権限を持つ人がタスクスケジューラーの設定を下記のような画面から変更していました。しかしこの運用方法では次のような課題がありました。バッチサーバーへのアクセス権限がある人しかタスクの設定を見ることができないタスクスケジューラー上ではタスクの変更履歴や変更した経緯が残らない GUI上での手動変更では操作ミスが起こる引継ぎが手

braitom 2020/09/15

Windowsサーバーのタスクスケジューラーの運用について。タスクの設定をXML出力してGitHubで管理、schtasksコマンドで反映させる。

リンク

レガシーとの向き合い方　〜cron から Rundeck へ〜 - DMM inside

｜DMM inside

braitom 2020/08/11

バッチ処理をcronからRundeckへおきかえた話。どのような運用をしているか、cronのときと比べどのようなことが改善されたかが書かれている。

リンク

AWS システム構築非機能要件ヒアリングシートを公開してみた | DevelopersIO

こんにちは。ご機嫌いかがでしょうか。 "No human labor is no human error" が大好きなネクストモード株式会社の吉井亮です。日本国内においても多くのシステムがクラウド上で稼働していることと思います。俊敏性、拡張性、従量課金、IaS、セキュリティなどクラウドのメリットを享受しやすい所謂 SoE で多くの実績があるように感じます。ここ1~2年は、社内基幹システム・情報システム、SoR 系のシステムのクラウド移行が本格化してきたというのが肌感覚であります。クラウドでのシステムインフラ構築は従来のようにゼロから非機能要件定義を行っていくものではなく、ベストプラクティスをまず実装して少しずつ微調整を行っていくものと考えています。とはいえ、システムごとの要件は予め明らかにしておくことがインフラ構築においても重要になります。クラウド上では出来ること出来ないこと

braitom 2020/07/28

AWSでシステムを作るときの非機能要件ヒアリングシート。可用性、運用などのカテゴリごとに確認項目が書かれている。これはよい。

リンク

Maintain SLO 〜俺たちのSLOはこれからだ!〜

Merpay Advent Calendar 2019 の14日目は、メルペイSREチームの@Tがお送りします。本記事では、メルペイSREチームのSLO運用状況について、紹介いたします。メルペイリリース前去年のAdventCalendar 2018で、メルカリのWeb MicroservicesにおけるSLI/SLOについて紹介がありました。メルペイでは新規のMicroserviceをリリースする前に、各MicroserviceチームがSLOを定義し、品質保持の一指標を決めるルールがあります。メルペイSREチームでは、Microserviceチームと一緒にSLOを考え、各MicroserviceにSLOを定義していますが、一からSLOを定義するのはとても難しいです。幸いなことにGoogle社からSLOの説明や定義方法などSREに関する素晴らしい記事がたくさん共有されており、SL

braitom 2019/12/16

メルペイのSREチームでのSLO運用方法について。フォーマットの統一化、Datadogダッシュボードのテンプレ化、最低でも3ヶ月ごとに見直すなどの運用ルールについて書かれている。

リンク

インシデント指揮官トレーニングの手引き | Yakst

[SRE]原文 An Incident Command Training Handbook – Dan Slimmon (English) 原文著者 Dan Slimmon 原文公開日 2019-06-24 翻訳依頼者翻訳者 meiq 翻訳レビュアー doubl emarket 原著者への翻訳報告 1496日前 Twitterで報告済み編集私が Hashicorp で担った最初の仕事のひとつは、社内向けのインシデント指揮官のトレーニング資料を作ることでした。これは私自身がインシデントへの対処にあたりながら何年ものあいだ肌身に感じてきた、あらゆる類の考えをまとめ上げる良い機会となり、最高に面白いタスクでした。以下は私の書いたトレーニング資料、ほぼそのままです。あなたがインシデントレスポンスのポリシーを定義するにせよ、即興でインシデントレスポンスを行うにせよ、お役に立てたら幸いです。

braitom 2019/09/06

インシデント発生時に指揮をとる人のためのガイド。どのような役割でどのように振る舞うのか、インシデントレスポンスが横道にそれそうになったときの対応方法についてなどが書かれている。

リンク

運用ドキュメント2019/20190824-odc-operation-document

Open Developer Conferenceでの登壇資料です。 https://www.ospn.jp/odc2019/modules/eguide/event.php?eid=31 (運用設計ラボ合同会社波田野裕一)

braitom 2019/08/26

運用ドキュメントとはそもそも何か、運用ドキュメントのゴール像、きちんと書くための方法や考え方、論理的な正しさをどう設計/実装するかなどがまとめられている。何度も読みたい内容。

リンク

コンテナ運用のベストプラクティス | Cloud アーキテクチャセンター | Google Cloud

デジタルトランスフォーメーションを加速お客様がデジタルトランスフォーメーションに乗り出したばかりでも、あるいはすでに進めている場合でも、Google Cloud は困難な課題の解決を支援します。

braitom 2019/06/02

リンク

バッチプログラムの運用と監視について検討しよう | メルカリエンジニアリング

こんにちは。メルペイでバックエンドソフトウェアエンジニアをしている id:koemu です。バッチプログラムのお話、今回は運用・監視についてお話したいと思います。当社はすべての業務が24時間行われていますので、システムがオンラインのときに動作するバッチプログラムについてのみ議論します。過去の記事はこちらにあります。運用に備えてバッチプログラムの運用について、「プリモーテム」「実行管理」そして「ログ管理」の3点について述べていきます。プリモーテムポストモーテムという言葉を聞いたことがある方はいらっしゃるかと思います。ポストモーテムとは、GoogleのSRE本の15章*1によれば、障害などの失敗を振り返り、今後に活かすプロセスの総称と捉えることができます。さて、プリモーテム(プリモータム)とは何でしょうか。この言葉は、私が最近読んだThe Manager’s Path*2*3で使

braitom 2019/04/17

バッチプログラムの運用について。実行管理、ログ管理、監視のしかた、通知のしかたなどの検討事項についての考察がまとめられている。

リンク

企業のためのオープンソースガイド – The Linux Foundation

オープンソースプログラムオフィスの運用や、オープンソースプロジェクトの開始に役立つベストプラクティスをご紹介します。The Linux FoundationとTODOグループの協力で開発されたこれらのリソースには、わたしたちのスタッフ、プロジェクト、およびメンバーの豊富な経験が生かされています。日本語版を順次掲載中です。

braitom 2019/03/28

オープンソースの運用や立ち上げ、終了方法などのガイドがまとまっている。

リンク

オブザーバビリティ（可観測性）がなぜ必要だと考えるのか - YAMAGUCHI::weblog

はじめにこんにちは、Stackdriver担当者です。本記事は完全に個人の意見です。（念押し） GCP的に担当製品がわかりやすいのでStackdriverの担当と書いてますが、仕事での担当領域的には「オブザーバビリティ (Observability、可観測性)」です。この「オブザーバビリティ」という言葉が近年SREの文脈で語られることが増え、また今年に入って「入門監視 ("Practical Monitoring" の日本語訳)」が刊行されたことで、日本でもより多く耳にするようになりました。 SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム発売日: 2017/08/12メディア: 単行本（ソフトカバー）入門監視 ―モダンなモニタリングのためのデザインパターン作者:Mike Julian発売日: 2019/01/17メディア:

braitom 2019/03/27

オブザーバビリティ（可観測性）について。オブザーバビリティの定義、オブザーバビリティとモニタリングの関係性、オブザーバビリティが今必要な理由などが書かれている。

リンク

想定外な規模へと成長し続けるサービスを支えるサーバ開発・運用の軌跡 ~ DBの縦横分割スケーリング ~ / History of a large-scale Web API service development and operation with vertical and horizontal database partitioning.

TECH Night #1 by DELiGHTWORKS 〜FGO・モンストから学ぶ大規模ゲーム運用のためのサーバ・インフラの話〜( https://techplay.jp/event/717816 ) にて発表したスライドです。

braitom 2019/03/09

これはすごい。

リンク

2019-03-06 ダメな「運用自動化」の3類型 + α /operation-automation-3-bad-model

ssmjp 2019/03での発表資料です。「運用自動化の基本原則」シリーズの番外編と位置付けています。 # 運用自動化の基本原則シリーズ - 2019-03-06 「運用自動化」とは: https://speakerdeck.com/opelab/20190306-operation-what-automation - 2019-05-24 運用業務の「構造化」: https://speakerdeck.com/opelab/20190524-structured-operation - 2019-04-18 運用自動化の基本原則1 「引継ぎの原則」: https://speakerdeck.com/opelab/20190418-operation-automation-basis-principle-1 - 2019-05-24 運用自動化の基本原則2「平易化の原則」: https

braitom 2019/03/07

よくない運用自動化のパターンについて。事業継続性が向上しない自動化、サービス価値が向上しない自動化、デリバリ価値が向上しない自動化というアンチパターンの説明が書かれている。

リンク

鳴子（NARUKO）AWS監視・運用自動化ツールOSS

鳴子とは AWS監視のコスト・運用負荷を軽減 “鳴子 NARUKO”とは、数多くのクラウドサービス提供やプロジェクトの実績から生まれたAWS運用自動化ツールです。自動監視することにより、AWS環境を快適に運用することが可能になります。尚、「AWS運用担当者の負担を軽減したい」「AWSを利用する企業のコストカットにつなげたい」「AWSのメリットを最大限に利用して欲しい」との理由から、自社開発である“鳴子 NARUKO”をOSSにて公開することに致しました。 ”鳴子 NARUKO”が、一人でも多くの方に利用されることにより、AWSユーザーと企業のAWS運用コストカット、運用負荷の軽減につながることを願っています。鳴子は穀物を野鳥の食害から守るため、鳥を追い払う目的で使われてきた音を出す道具。 AWS上の障害をいち早く察知し、警報をならし対応をすることから、鳴子 NARUKOと命名

braitom 2019/01/24

AWS運用自動化ツール。アラート通知、EC2インスタンスの停止・再起動、定期バックアップ機能などがある。

リンク

はてなブックマーク

タグ

関連タグで絞り込む (57)

運用に関するbraitomのブックマーク (69)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

今週のはてなブックマーク数ランキング（2024年4月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス