タグ

運用に関するbraitomのブックマーク (69)

  • GitHubセキュリティ Organization運用のベストプラクティス

    書ではGitHub Organizationをセキュアに運用する方法について解説します。 GitHubは大変便利なサービスで、個人利用のみならず組織で活用されるケースも多いです。しかしGitHubの初期設定は利便性重視であり、セキュリティ対策は利用者による明示的な設定が必要です。 書では意外と日語でまとまった情報がない、Organizationレベルのベストプラクティスを体系化しています。GitHub Organization管理者はもちろんのこと、ソフトウェア開発者にも有益な情報を提供します。

    GitHubセキュリティ Organization運用のベストプラクティス
  • セキュアなBigQueryの運用方法

    JulyTechFesta2021 登壇資料 https://techfesta.connpass.com/event/213069/ IAM,VPC Service Controls, Logging, 承認済みviewなどBigQuery周りのセキュリティサービスはいくつもあります。セキュリティを担保するためのサービスとしてどのようなものがあるのか、またそれを使った運用方法はどのようなやり方があるのかを実例を交えて紹介します。 #JTF2021 #JTF2020_C

    セキュアなBigQueryの運用方法
  • 知っておきたかったLinuxサーバ設計、構築、運用知識まとめ - hiroportation

    サーバ業務周りの管理、運用について役に立ちそうなナレッジをまとめました。 長期的に書いているため用語に統一性がなかったり、不足分など随時修正したいと思います。 1. サーバ設計 サーバスペックはどうするべき? 使用するOSは? CentOS開発終了について MWは何を使うべきか Webサーバ構築にはどちらを使うべき?Apache?Nginx? サーバセキュリティで最低限押さえておきたいことは? listenするポートは最小限にしましょう ファイアウォール設定で送受信IPアドレス、ポートの通信制御はしておきましょう 外部に出る際にはプロキシサーバを経由するようにする 随時パッチを当てるようにする linuxでのアンチウイルスソフトの検討 個人アカウントで変更系コマンドは実行させないようにする ログについて考えること ストレージ容量には気をつける データベースはどう決めたら良いか MySQL

    知っておきたかったLinuxサーバ設計、構築、運用知識まとめ - hiroportation
  • 「無人化システム」を駆逐する組織マネジメントとエンジニアリング

    弊社では2019年3月ごろから「無人化システム」の駆逐を進めています。記事ではこの取り組みを、組織マネジメントとエンジニアリングの側面から紹介します。 恐怖の無人化システム 「無人化システム」は社内の独自用語なので、まずは言葉の意味から説明します。 無人化とはなにか 無人化の前に属人化について触れておきましょう。weblio辞書から属人化について引用します[1]。 ある業務を特定の人が担当し、その人にしかやり方が分からない状態になることを意味する表現。 無人化は属人化の進化系です。無人化とは「属人化していた業務の担当者がいなくなってしまい、誰にもやり方が分からない状態になること」と定義できます。誰がどう見てもダメな状態ですね。 無人化システムとはなにか システム運用が属人化し、かつその運用者が退職するとシステムが無人化します。我々の会社ではこのようなシステムを『無人化システム』と呼んでい

    「無人化システム」を駆逐する組織マネジメントとエンジニアリング
    braitom
    braitom 2020/12/18
    メンテする人がいなくなってもなお動いているシステムの対応について。読み物としても面白かった。
  • The ETTO Principle(効率-徹底性トレードオフ原則)とITシステムの運用

    こんにちは、滝澤です。 今回は"The ETTO Principle"(効率-徹底性トレードオフ原則)について紹介します。ここでは「ETTO原則」と呼ぶことにしましょう。 ETTO原則はレジリエンス・エンジニアリングで著名なエリック・ホルナゲル氏(Erik Hollnagel)が提唱したもので、効率性(Efficiency)と徹底性(Thoroughness)はトレードオフの関係にあるというものです。 これは、元々は安全に関する分野での話ではあるのですが、IT分野においても無縁というわけではありません。そのあたりの話を紹介します。 記事を3行でまとめると次のようになります。 ETTO原則により効率性と徹底性はトレードオフの関係にある。 ITシステムの運用の例として作業手順書作成の例を示し、効率性と徹底性のバランスを考える必要があることを示した。 システム障害と根原因分析について紹介し、

    braitom
    braitom 2020/12/02
    "The ETTO Principle"(効率-徹底性トレードオフ原則)について。ETTO Principleとは何か、ITシステムの運用に当てはめた例について書かれている。この考え方面白いなー。
  • SLO策定とアラート設定までの長い道のり - Cybozu Inside Out | サイボウズエンジニアのブログ

    こんにちは、@ueokandeです。早速ですが、皆さんが運用しているサービスには、SLO (Service-level objective: サービスレベル目標) がありますか?アラートの監視項目はどのように設定して、基準値をどのように決めていますか? 社外とのコミュニケーションだけでなく、社内向けのSLOを決めておくことで、サービスの健康状態を知るための手がかりや、普段の開発・運用タスクの優先度を決める上での指標にもなります。 またSLOがあると、サービスを監視するアラートに、理にかなった閾値を設定できます。 この記事ではAWSkintoneの、SLOとアラートを設定するまでの記録について紹介します。 cybozu.com版kintoneのSLOとアラート 国内のcybozu.comで運用しているkintoneにも、もちろんSLOやアラートはあります。 しかし現状のSLOはkinton

    SLO策定とアラート設定までの長い道のり - Cybozu Inside Out | サイボウズエンジニアのブログ
  • Mackerelでは計画メンテナンスをどう実施しているか? RedisをElastiCacheに移行した裏側をご紹介 - Hatena Developer Blog

    こんにちは。MackerelチームSREのid:heleeenです。 Mackerelでは、2020年10月14日に計画メンテナンスを実施しました。今回は告知ブログに記載の通り、Mackerelが利用しているRedisをAmazon ElastiCache for Redis(以下、ElastiCache)へ移行しました。 記事では、この10月の計画停止の裏側を紹介します。 どのようにElastiCacheへ移行するか 大半のRedisを無停止で移行 最後はElastiCacheへのオンライン移行を使用 メンテナンスに向けたさまざまな準備 メンテナンス手順書のチーム内レビュー メンテンス実施中の役割分担 なぜタイムキーパーが必要になったのか リモートで停止メンテナンスを実施する方法 検証環境を利用して事前にリハーサルも実施 Redisを安全に効率よく切り替えるために 参照するRedisを

    Mackerelでは計画メンテナンスをどう実施しているか? RedisをElastiCacheに移行した裏側をご紹介 - Hatena Developer Blog
  • Git管理 + CLI運用によるWindowsタスクスケジューラーの運用改善 - ZOZO TECH BLOG

    こんにちは、WEAR部運用改善チームの三浦です。私たちのチームでは、WEARの日々の運用業務を安全かつ効率的に行えるよう改善を行っています。今回はバッチの定期実行に使用しているWindowsのタスクスケジューラーの運用改善について紹介します。 背景 WEARではバッチをWindowsサーバー上で定期実行させており、定期実行するために タスクスケジューラー を使用しています。WEARではバッチ実行用のサーバー(バッチサーバー)を用意しており、バッチサーバーへのアクセス権限を持つ人がタスクスケジューラーの設定を下記のような画面から変更していました。 しかしこの運用方法では次のような課題がありました。 バッチサーバーへのアクセス権限がある人しかタスクの設定を見ることができない タスクスケジューラー上ではタスクの変更履歴や変更した経緯が残らない GUI上での手動変更では操作ミスが起こる 引継ぎが手

    Git管理 + CLI運用によるWindowsタスクスケジューラーの運用改善 - ZOZO TECH BLOG
    braitom
    braitom 2020/09/15
    Windowsサーバーのタスクスケジューラーの運用について。タスクの設定をXML出力してGitHubで管理、schtasksコマンドで反映させる。
  • レガシーとの向き合い方 〜cron から Rundeck へ〜 - DMM inside

    |DMM inside

    レガシーとの向き合い方 〜cron から Rundeck へ〜 - DMM inside
    braitom
    braitom 2020/08/11
    バッチ処理をcronからRundeckへおきかえた話。どのような運用をしているか、cronのときと比べどのようなことが改善されたかが書かれている。
  • AWS システム構築 非機能要件ヒアリングシートを公開してみた | DevelopersIO

    こんにちは。 ご機嫌いかがでしょうか。 "No human labor is no human error" が大好きなネクストモード株式会社の吉井 亮です。 日国内においても多くのシステムがクラウド上で稼働していることと思います。 俊敏性、拡張性、従量課金、IaS、セキュリティなどクラウドのメリットを享受しやすい所謂 SoE で多くの実績があるように感じます。 ここ1~2年は、社内基幹システム・情報システム、SoR 系のシステムのクラウド移行が格化してきたというのが肌感覚であります。 クラウドでのシステムインフラ構築は従来のようにゼロから非機能要件定義を行っていくものではなく、ベストプラクティスをまず実装して少しずつ微調整を行っていくものと考えています。とはいえ、システムごとの要件は予め明らかにしておくことがインフラ構築においても重要になります。 クラウド上では出来ること出来ないこと

    AWS システム構築 非機能要件ヒアリングシートを公開してみた | DevelopersIO
    braitom
    braitom 2020/07/28
    AWSでシステムを作るときの非機能要件ヒアリングシート。可用性、運用などのカテゴリごとに確認項目が書かれている。これはよい。
  • Maintain SLO 〜俺たちのSLOはこれからだ!〜

    Merpay Advent Calendar 2019 の14日目は、メルペイSREチームの@Tがお送りします。 記事では、メルペイSREチームのSLO運用状況について、紹介いたします。 メルペイリリース前 去年のAdventCalendar 2018で、メルカリのWeb MicroservicesにおけるSLI/SLOについて紹介がありました。 メルペイでは新規のMicroserviceをリリースする前に、各MicroserviceチームがSLOを定義し、品質保持の一指標を決めるルールがあります。 メルペイSREチームでは、Microserviceチームと一緒にSLOを考え、各MicroserviceにSLOを定義していますが、一からSLOを定義するのはとても難しいです。 幸いなことにGoogle社からSLOの説明や定義方法などSREに関する素晴らしい記事がたくさん共有されており、SL

    Maintain SLO 〜俺たちのSLOはこれからだ!〜
    braitom
    braitom 2019/12/16
    メルペイのSREチームでのSLO運用方法について。フォーマットの統一化、Datadogダッシュボードのテンプレ化、最低でも3ヶ月ごとに見直すなどの運用ルールについて書かれている。
  • インシデント指揮官トレーニングの手引き | Yakst

    [SRE]原文 An Incident Command Training Handbook – Dan Slimmon (English) 原文著者 Dan Slimmon 原文公開日 2019-06-24 翻訳依頼者 翻訳者 meiq 翻訳レビュアー doublemarket 原著者への翻訳報告 1496日前 Twitterで報告済み 編集 私が Hashicorp で担った最初の仕事のひとつは、社内向けのインシデント指揮官のトレーニング資料を作ることでした。 これは私自身がインシデントへの対処にあたりながら何年ものあいだ肌身に感じてきた、あらゆる類の考えをまとめ上げる良い機会となり、最高に面白いタスクでした。 以下は私の書いたトレーニング資料、ほぼそのままです。 あなたがインシデントレスポンスのポリシーを定義するにせよ、即興でインシデントレスポンスを行うにせよ、お役に立てたら幸いです。

    braitom
    braitom 2019/09/06
    インシデント発生時に指揮をとる人のためのガイド。どのような役割でどのように振る舞うのか、インシデントレスポンスが横道にそれそうになったときの対応方法についてなどが書かれている。
  • 運用ドキュメント2019/20190824-odc-operation-document

    Open Developer Conferenceでの登壇資料です。 https://www.ospn.jp/odc2019/modules/eguide/event.php?eid=31 (運用設計ラボ合同会社 波田野裕一)

    運用ドキュメント2019/20190824-odc-operation-document
    braitom
    braitom 2019/08/26
    運用ドキュメントとはそもそも何か、運用ドキュメントのゴール像、きちんと書くための方法や考え方、論理的な正しさをどう設計/実装するかなどがまとめられている。何度も読みたい内容。
  • コンテナ運用のベスト プラクティス  |  Cloud アーキテクチャ センター  |  Google Cloud

    デジタル トランスフォーメーションを加速 お客様がデジタル トランスフォーメーションに乗り出したばかりでも、あるいはすでに進めている場合でも、Google Cloud は困難な課題の解決を支援します。

    コンテナ運用のベスト プラクティス  |  Cloud アーキテクチャ センター  |  Google Cloud
  • バッチプログラムの運用と監視について検討しよう | メルカリエンジニアリング

    こんにちは。メルペイでバックエンドソフトウェアエンジニアをしている id:koemu です。 バッチプログラムのお話、今回は運用・監視についてお話したいと思います。当社はすべての業務が24時間行われていますので、システムがオンラインのときに動作するバッチプログラムについてのみ議論します。 過去の記事はこちらにあります。 運用に備えて バッチプログラムの運用について、「プリモーテム」「実行管理」そして「ログ管理」の3点について述べていきます。 プリモーテム ポストモーテムという言葉を聞いたことがある方はいらっしゃるかと思います。ポストモーテムとは、GoogleのSREの15章*1によれば、障害などの失敗を振り返り、今後に活かすプロセスの総称と捉えることができます。 さて、プリモーテム(プリモータム)とは何でしょうか。この言葉は、私が最近読んだThe Manager’s Path*2*3で使

    バッチプログラムの運用と監視について検討しよう | メルカリエンジニアリング
    braitom
    braitom 2019/04/17
    バッチプログラムの運用について。実行管理、ログ管理、監視のしかた、通知のしかたなどの検討事項についての考察がまとめられている。
  • 企業のためのオープンソース ガイド – The Linux Foundation

    オープンソース プログラム オフィスの運用や、オープンソース プロジェクトの開始に役立つベスト プラクティスをご紹介します。The Linux FoundationとTODOグループの協力で開発されたこれらのリソースには、わたしたちのスタッフ、プロジェクト、およびメンバーの豊富な経験が生かされています。日語版を順次掲載中です。

    企業のためのオープンソース ガイド – The Linux Foundation
    braitom
    braitom 2019/03/28
    オープンソースの運用や立ち上げ、終了方法などのガイドがまとまっている。
  • オブザーバビリティ(可観測性)がなぜ必要だと考えるのか - YAMAGUCHI::weblog

    はじめに こんにちは、Stackdriver担当者です。記事は完全に個人の意見です。(念押し) GCP的に担当製品がわかりやすいのでStackdriverの担当と書いてますが、仕事での担当領域的には「オブザーバビリティ (Observability、可観測性)」 です。この「オブザーバビリティ」という言葉が近年SREの文脈で語られることが増え、また今年に入って「入門 監視 ("Practical Monitoring" の日語訳)」が刊行されたことで、日でもより多く耳にするようになりました。 SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム 発売日: 2017/08/12メディア: 単行(ソフトカバー) 入門 監視 ―モダンなモニタリングのためのデザインパターン 作者:Mike Julian発売日: 2019/01/17メディア:

    オブザーバビリティ(可観測性)がなぜ必要だと考えるのか - YAMAGUCHI::weblog
    braitom
    braitom 2019/03/27
    オブザーバビリティ(可観測性)について。オブザーバビリティの定義、オブザーバビリティとモニタリングの関係性、オブザーバビリティが今必要な理由などが書かれている。
  • 想定外な規模へと成長し続けるサービスを 支えるサーバ開発・運用の軌跡 ~ DBの縦横分割スケーリング ~ / History of a large-scale Web API service development and operation with vertical and horizontal database partitioning.

    TECH Night #1 by DELiGHTWORKS 〜FGO・モンストから学ぶ大規模ゲーム運用のためのサーバ・インフラの話〜( https://techplay.jp/event/717816 ) にて発表したスライドです。

    想定外な規模へと成長し続けるサービスを 支えるサーバ開発・運用の軌跡 ~ DBの縦横分割スケーリング ~ / History of a large-scale Web API service development and operation with vertical and horizontal database partitioning.
    braitom
    braitom 2019/03/09
    これはすごい。
  • 2019-03-06 ダメな「運用自動化」の3類型 + α /operation-automation-3-bad-model

    ssmjp 2019/03での発表資料です。 「運用自動化の基原則」シリーズの番外編と位置付けています。 # 運用自動化の基原則シリーズ - 2019-03-06 「運用自動化」とは: https://speakerdeck.com/opelab/20190306-operation-what-automation - 2019-05-24 運用業務の「構造化」: https://speakerdeck.com/opelab/20190524-structured-operation - 2019-04-18 運用自動化の基原則1 「引継ぎの原則」: https://speakerdeck.com/opelab/20190418-operation-automation-basis-principle-1 - 2019-05-24 運用自動化の基原則2「平易化の原則」: https

    2019-03-06 ダメな「運用自動化」の3類型 + α /operation-automation-3-bad-model
    braitom
    braitom 2019/03/07
    よくない運用自動化のパターンについて。事業継続性が向上しない自動化、サービス価値が向上しない自動化、デリバリ価値が向上しない自動化というアンチパターンの説明が書かれている。
  • 鳴子(NARUKO)AWS監視・運用自動化ツールOSS

    鳴子とは AWS監視のコスト・運用負荷を軽減 “鳴子 NARUKO”とは、数多くのクラウドサービス提供やプロジェクトの実績から生まれたAWS運用自動化ツールです。 自動監視することにより、AWS環境を快適に運用することが可能になります。 尚、 「AWS運用担当者の負担を軽減したい」 「AWSを利用する企業のコストカットにつなげたい」 「AWSのメリットを最大限に利用して欲しい」 との理由から、自社開発である“鳴子 NARUKO”をOSSにて公開することに致しました。 ”鳴子 NARUKO”が、一人でも多くの方に利用されることにより、AWSユーザーと企業のAWS運用コストカット、運用負荷の軽減につながることを願っています。 鳴子は穀物を野鳥の害から守るため、鳥を追い払う目的で使われてきた音を出す道具。 AWS上の障害をいち早く察知し、警報をならし対応をすることから、鳴子 NARUKOと命名

    braitom
    braitom 2019/01/24
    AWS運用自動化ツール。アラート通知、EC2インスタンスの停止・再起動、定期バックアップ機能などがある。