タグ

運用に関するkkrrのブックマーク (26)

  • 近年のデータ分析基盤構築における失敗はBigQueryを採用しなかったことに全て起因している - データエンジニアの酩酊日記

    久しぶりにペラペラな思いつきを書き捨てて、寝ます。 2、3年前ぐらいにSIerコンサルでTreasure Dataとか使ってマネージドDWH作ろうぜっていう風潮が流行って、今は運用フェーズに入ってどこも結構苦しんでるってのが僕のすごく狭い観測範囲での印象。 AWSのReadshiftしかり。 なぜ苦しんでるかっていうと、言うほどスケールしないからであり、言うほどマネージドじゃないから。 Treasure Dataは基的に割当メモリが固定でオートスケールしないので、ピーク時に合わせて必要なメモリを確保しておかないといけない。そうなるとメモリ使用量とか負荷とかをモニタリングしないといけないわけだけど、Saasだから内部のアーキテクチャが隠蔽されていていちいちサポートに問い合わせないといけなかったりする。 Redshiftの場合はそもそも自前でクラスタ管理しなくちゃいけないのでそれが大変って

    近年のデータ分析基盤構築における失敗はBigQueryを採用しなかったことに全て起因している - データエンジニアの酩酊日記
    kkrr
    kkrr 2019/10/24
  • Re: ゼロから始める監視設計

    世間では、情報システムの運用・監視の「自動化」というキーワードがもてはやされがちで、各種のツール・プロダクト等が出てくる昨今です。しかし、「自動化」の実態は深い霧のベールに包まれていると感じていませんか。今回は、以下の現場視点でこのベールを脱がしてみたいと思います。 July Tech Festa 2016 発表資料 #jtf2016 平成28年7月24日(日)

    Re: ゼロから始める監視設計
  • 【社内資料公開】運用手順書を作る時のポイントについて書いてみた | DevelopersIO

    はじめに こんにちは植木和樹@上越妙高オフィスです。日は私がここ10年くらい意識している運用手順書を書くときのポイントについてまとめてみました。 対象読者 開発・構築したシステムを別の人に引き継ぐ予定のある人 他の人が作ったシステムを引き継ぐ担当の人 半年後の自分でも分かる手順書の書き方に困っている人 (この記事を読むのにかかる時間の目安:5分) 1. ドキュメントの冒頭に書くこと まず個々の詳細手順の前に、ドキュメント自体について記載してもらいたいことです。 1.1. ドキュメントに書かれていることを3行で書く ドキュメントの最初には、このドキュメントに何が書かれているのかを100文字くらいで書いておくと良いでしょう。 システムが増えれば増えるほど手順書も増えていくものです。見つけたドキュメントに自分の期待するものが書かれているのか、冒頭数行でわかるようになっているとうれしいです。 1

    【社内資料公開】運用手順書を作る時のポイントについて書いてみた | DevelopersIO
    kkrr
    kkrr 2016/06/30
  • Sensu と Graphite による大規模インフラの監視

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog サイトオペレーション部の渡邉です。 サイトオペレーション部はデータセンタ・ネットワーク・サーバー・OS・ストレージといった全社的なインフラの管理運用や調査検証などを担当しています。 今回は、2013年に全社のプライベートクラウドとして導入した OpenStack の監視基盤として、OSS の Sensu と Graphite を採用した事例についてご紹介したいと思います。 採用に至るまで サイトオペレーション部では、もともと 2011 年から内製のプライベートクラウドを開発運用していました。 プライベートクラウドでは VM のホストとなるハイパーバイザを大量に運用する必要がありますが、その監視基盤として社内で一般的に利用され

    Sensu と Graphite による大規模インフラの監視
  • Facebook, Twitter, Instagram等がどうやってIDを生成しているのか まとめ - Qiita

    まえがき データにIDを持たせたいとき、単純な方法としては、DBの提供するauto incrementを使う場合やUUIDを利用することがある。それぞれの方法の利点欠点は以下の通り。 データベースのauto incrementを使う場合 利点: 特別な実装が必要ない 欠点: DBを1台で運用するとデータベースがパフォーマンス・障害のボトルネックになる DBを二台にするとIDのユニークさや順序の保証が困難 UUID(v4)※1を利用する場合 利点: 分散環境で各々がIDを生成しても衝突しない IDを公開したくない場合に、推測されにくいIDを生成できる 欠点: 128ビット必要、DBのインデクシングやプログラミング言語で扱うときに不利なことがある IDから時間の情報が失われる、例えば2つのIDを比べてどちらが古い投稿か判断できない 世界の大企業がどうしてるか 調べてみると多くの企業がブログなど

    Facebook, Twitter, Instagram等がどうやってIDを生成しているのか まとめ - Qiita
  • 運用エンジニアから開発エンジニアになるためにやったこと · As a Futurist...

    Web の会社でエンジニアを始めて 4 年、ずっと運用エンジニアをやってました。運用とは端的に言うと、社内外の他人が作ったソフトウェアを期待通りに動作させるためのエンジニアリングだと思ってます。アプリケーションはもちろん開発者が作ったものですし、MySQL や Apache や Linux も全部他人が作り上げたソフトウェアであり、それらの設定を変更したりパッチを当てたり運用ツールを駆使することで、協調動作させることに磨きをかけてきました。 ただ、いつまでたっても他人の作ったものの面倒を見てることには変わりないし、運用ツールを開発したところでそれはあくまで誰かが生み出す価値のサポートにすぎないのが自分的には満足できなくて、ずっとアプリケーション(ビジネスロジック)が作りたいと思ってました。 で、今年の始めからたまたまタイミングよく新規開発の部署に入ることになって、いきなり開発者をやることに

    運用エンジニアから開発エンジニアになるためにやったこと · As a Futurist...
  • 運用担当者、激減中

    ユーザー企業の情報システム部門で今、運用担当者の人数が大きく減り始めていることをご存じだろうか。 運用業務には、「アプリケーション保守」や「OS/ミドルウエア運用」、「ITインフラ運用」などがあるが、あらゆる業務に関わる運用担当者が減少しているのだ。まずは4社の事例を紹介しよう。 サイバーエージェント 運用担当者の人数 20人→0人(予定) サイバーエージェントで消費者向けWebサービスを手がけるアメーバ事業部では、現時点で20人いるOS/ミドルウエアの運用担当者を、2年後の2015年までにゼロにする計画だ。 彼らは現在、OS/ミドルウエアをサーバーにインストールしたり、パッチを適用したり、アプリケーションの負荷に応じてサーバー台数を増減したりする業務を行っている。これらの業務を、オープンソースソフトウエアの運用管理ツール「Chef」を導入することで、自動化する計画だ(図1)。

    運用担当者、激減中
  • サーバ運用の現場でひたすら監視し続けるエンジニアの手の内のすべて

    2013年3月19日 Tokyo Linux Study #5 #tlstudy の発表スライドです。 ZABBIX(赤) × Munin(緑) 。どうして両方を使う事になったのか?という話しがメイン。 サブタイトル「@zembutsuがホスティングサービスの監視パワーを強化しようとするけどとんでもないことになる話」

    サーバ運用の現場でひたすら監視し続けるエンジニアの手の内のすべて
  • @ITイベントカレンダー

    平素よりイベントカレンダー+ログをご利用いただき、誠にありがとうございます。 イベントカレンダー+ログは「IT・製造業・ビジネス関係のイベント(セミナー・展示会・勉強会・コンテスト・Webイベントなど)を開催する企業・コミュニティが登録したイベント情報のポータルサイト」として約7年間運営をしてきました。これまでサービスを続けることができたのは、イベントカレンダー+ログのコンセプトに共感をいただき、適切なイベント情報をお寄せいただいた皆さまのご支援があったからこそと考えております。重ねて御礼申し上げます。 しかしながら、イベント情報の入手方法の多様化やイベント紹介サービス市場の状況、@ITの今後のメディア運営方針などを検討した結果、2020年6月30日(火)15:00をもちましてイベントカレンダー+ログのサービスを終了することにしました。 これまでご利用をいただきました皆さまには残念なお知ら

    @ITイベントカレンダー
    kkrr
    kkrr 2013/02/06
  • Labeled Tab Separated Values (LTSV) ノススメ - stanaka's blog

    追記(2/8 11:30) id:naoyaによる一連のまとめが【今北産業】3分で分かるLTSV業界のまとめ【LTSV】 - naoyaのはてなダイアリーにあります。 また、仕様などをまとめるために http://ltsv.org/ を立ち上げました。 追記ここまで Labeled Tab Separated Values (LTSV) というのは、はてなで使っているログフォーマットのことで、広く使われているTSV(Tab Separated Value)フォーマットにラベルを付けて扱い易くしたものです。はてなでは、もう3年以上、このフォーマットでログを残していて、one-linerからfluentd、Apache Hiveまで幅広く便利に使えています。 ログフォーマットに期待されることは、 フォーマットが統一されている → 共通のツールで集計し易い 新しいフィールドの追加が容易 → サー

    Labeled Tab Separated Values (LTSV) ノススメ - stanaka's blog
    kkrr
    kkrr 2013/02/06
  • 設計と実装の狭間で - 急がば回れ、選ぶなら近道

    ・現状 ・・・相変わらず溝は埋まっていません。希望の星と目されたDSLは現時点ではかなりの不発弾に近い感じで、設計系クラスターはあまり元気がないですね。翻って見れば、設計と実装が最も近かった時代は、なんのことはなくて、自分も含めて(懐古趣味の老人を除いた)皆さんが毛嫌いするCOBOL+汎用機の時代だったかもしれないという意見すら出る惨状です。あの時代以降、 UMLが登場し、まさに銀の弾丸状態で、それ以降Unified Processやら何やらが、インフルエンザの如く流行りました。ま、その延長上に今のアジャイルまでの流れがあるわけですが、気がついてみれば、これほど設計と実装が離れてしまった時代もないという状態になってしまっています。・・・設計と実装の狭間は、相変わらず埋まっていない気がします。 ここへ来て、実装技術の多様化は、カンブリア紀を思わせる拡大の一途になっています。開発環境のみならず

    設計と実装の狭間で - 急がば回れ、選ぶなら近道
  • RAIDレベルの話: 1+0と6はどっちが安全か? - たごもりすメモ

    仕事でちょっくら12台のHDDを使ったRAIDアレイを組むんだけど、その折にちょうどTwitterで「RAID-1+0にしないとRAID-6とか怖くて使えませんよ!」というウソ八百な内容のWebページのURLを見掛けたので、いいかげんそのような迷信が消え去ってもよかろうと思って書くことにした。 1重ミラー設定のRAID-1+0は安全性においてRAID-6に劣る。ただし、正しく運用されている場合に限る。*1 知っている人はずっと前から知っている事実ではあるんだけど、某巨大SIerなんかでも高い方が安全に決まってる的な残念な脳味噌の持ち主がいっぱいいて「いやあデータの安全性を考えるとRAID-1+0」とか考えもなしにクチにし、そっちの方がディスクがいっぱい売れて嬉しいストレージベンダーもニコニコしながら否定せず売りつけて去っていくといううわなにをす(ry まあそんな感じで。ちなみに正しくない運

    RAIDレベルの話: 1+0と6はどっちが安全か? - たごもりすメモ
    kkrr
    kkrr 2011/04/20
  • Ywcafe.net

    Ywcafe.net This Page Is Under Construction - Coming Soon! Why am I seeing this 'Under Construction' page? Related Searches: Free Credit Report music videos Migraine Pain Relief Best Mortgage Rates Credit Card Application Trademark Free Notice Review our Privacy Policy Service Agreement Legal Notice Privacy Policy

  • 一定規模以上のWebサイトを運営しているエンジニアの方、業務時間外の障害対応ってどういう風にやっていますか? - 人力検索はてな

    一定規模以上のWebサイトを運営しているエンジニアの方、業務時間外の障害対応ってどういう風にやっていますか? ルールとか体制とかを中心に教えてほしいです。 ちなみにぼくの会社では、監視ツールや自作監視スクリプトでアラートをエンジニア社員全員に送って、誰かが対応することになっています。(たまに誰も対応やレスをしなくて上司に怒られます) これはぼくら社員にとって正直ストレスになるので、なにかよいルールや体制を上司に提案したいなと考えています。 ぜひみなさんの会社のやり方を教えてください。 よろしくお願いします。

    kkrr
    kkrr 2009/02/22
  • [速報]楽天証券が取引停止中、「バッチ突き抜け」で見通し立たず

    楽天証券でシステムトラブルが発生し、早朝のサービス開始から米国株式を除く全商品の新規発注と訂正注文、取消注文ができない状態となっている。同社によると11月11日午前10時時点で「原因の究明とサービス再開に全力を尽くしているが、復旧の見通しが立っていない」としている。 トラブルを起こしているのは、前日までのデータを処理する夜間バッチのシステムとみられる。通常夜間から未明にかけて処理が終了し、午前6時にサービスを再開する。これが何らかの原因で大幅に遅れ、いわゆる「バッチ処理の突き抜け」が起きている。 復旧に向けて一部サーバーを再起動するため、11日の午前中はサービスへのログインができなくなったり接続が切れる場合があるという。

    [速報]楽天証券が取引停止中、「バッチ突き抜け」で見通し立たず
    kkrr
    kkrr 2008/11/11
    「バッチ突き抜け」ググってもこの記事関連以外出てこないね/バッチでつきぬけろ!
  • スラッシュドット・ジャパン | サーバ監視、何使ってる?

    SF.JP Magazineで「Webインタフェースでマシンを監視する4つの方法」という記事が掲載されています。Webインタフェースを持つ4つのサーバ監視ツール(collectd、Cacti、Monitorix、Munin)の特徴をそれぞれ解説した記事で、筆者は記事の末尾で以下のように述べています。 データをじっくりと分析する場合や、管理者以外のユーザからもシステムの統計情報を参照できるようにする場合は、最初にCactiをあたるのがよさそうだ。すでに十分な負荷がかかっているシステムで情報収集を行うなら、システムに与える影響の小さいcollectdを試せばよい。また、多数のノードで個別のアプリケーションパッケージを使って情報を集めるMuninは、同じようなマシンで構成される小規模なグループの監視に向いており、1台しかないサーバの状態を手っとり早く把握したければ、とりあえずCactiかMoni

    kkrr
    kkrr 2008/11/09
    イモート監視システム on 仮想環境
  • とあるはてな社員の日記 - まっさらなサーバを30分で本番投入できるようにする

    すこし前にはてなスターのリリースがされたのですが、サービス開始直後にありがちなことに、時々負荷で遅くなったり、アクセスしにくくなったりしてしまいました*1。これではいけない、ということで、すぐ次の日に、バックエンドのサーバを一気に10台近くまで増やして、おおむね快適に使える状態になっていると思います。この時に、新しいサーバをまっさらな状態から、だいたい30分程度で番投入することができていました。これを、どのように実現したのかを軽く紹介したいと思います。 ちなみに、サービスの重さは、サーバ増強だけで済むものではなく、それ以降も、Javascriptが重い!とか、アプリケーションロジックで重いSQL を走らせてしまって遅いという問題は何回かありました。が、そこはインフラではなく、アプリケーションの問題で、アプリケーションの改善は、継続的に進んでいると思います。ので、今回は、インフラの話に限定

    とあるはてな社員の日記 - まっさらなサーバを30分で本番投入できるようにする
  • NTT東のフレッツ・トラブル,「ルート再計算により・・・」の真相:ITpro

    NTT東日/西日のひかり電話サービスやフレッツ・サービスはトラブルが続く。その都度、原因を明らかにしてきたが、5月15日に発生したNTT東日のBフレッツのトラブルについてはその原因の説明に納得できなかった。「IP伝送装置のパッケージ交換をきっかけに、ルート再計算の負荷が増え、14都道県のフレッツ網がダウン」。装置が故障するのはよくあること。それに伴うルート再計算で大半のフレッツ網がダウンするとは・・・。やはり、その真相は単純ではなかった。 14都道府県のフレッツ・サービスなどがダウン 5月15日20時、NTT東日は18時44分ごろから「フレッツ・サービス」および「ひかり電話」の一部ユーザーがサービスを利用できなくなっていると発表した。神奈川、千葉、埼玉を除く東日のサービス・エリア14都道県でサービスが利用できなくなった。東京は23区以外の一部のユーザーに影響が出た。 その後、IP

    NTT東のフレッツ・トラブル,「ルート再計算により・・・」の真相:ITpro
  • 「R25」サイトをPostgreSQLで構築、リクルートはOSSをこう考える ― @IT

    2007/06/05 リクルートのFIT システム基盤推進室 フェデレーションオフィサーの米谷修氏は6月5日、「PostgreSQLカンファレンス2007」で講演し、同社が展開するネットサービスへのPostgreSQLの採用状況を説明した。フリーペーパー「R25」「L25」のWebサイトなどで実験的にPostgreSQLを使っているが、「負荷が高いサービスではまだ怖くて使えない」という。ユーザー側からみたPostgreSQLの課題とは何だろうか。 R25、L25のWebサイトは月約1億2000万のページビューを誇る。リクルートはほかにもローカルサーチサイトの「スゴイ地図」や地域検索情報サイト「ドコイク?」などでPostgreSQLを採用している。リクルートは4年前にもPostgreSQLの採用を検討したが、当時の機能ではアーカイブログが取れず、「もしサービスが落ちたときに戻せない可能性があ

    kkrr
    kkrr 2007/06/06
  • HDD交換ミス&バグで4時間ダウンしてしまう「ひかり電話」 ― @IT

    2007/05/24 NTT東日、西日の光IP電話サービス「ひかり電話」が東西間で不通になった5月23日の障害の原因が判明した。障害のきっかけは東西間の通話を中継するサーバのハードディスクドライブの交換。人的ミスとソフトウェアのバグが約4時間の不通を引き起こした。 作業を担当したNTT-MEの担当者が、中継サーバのHDDを交換したのは5月21日深夜から5月22日未明。故障ではなく予防的措置として交換した。その際、作業者が間違ったコマンドパラメータを設定したが、サーバのフェイルセーフ機能が不十分で、誤ったパラメータを受け付けてしまった。さらに、誤ったパラメータでHDDのデータが破壊されるバグがソフトウェアにあり、HDDのデータが一部破壊されてしまった。 この破壊されたデータが23日午前6時25分にサーバのキャッシュメモリに読み出され、サーバの処理が停止。東西間で不通状態になった。番サー

    kkrr
    kkrr 2007/05/25