タグ

障害に関するhiroomiのブックマーク (238)

  • mixi大規模障害について - mixi engineer blog

    こんにちは。システム技術部たんぽぽGの森です 先日のmixi大規模障害についてのブログです。 はじめにお断りしておきますが、弊社CTOがtwitterで公開した以上の情報はまだ得られておりません。 twitterでは書ききれなかった細部を補足してみたいと思います 現状判明しているのは以下の点です memcachedに大量の接続・切断を行うとmemcachedプロセスが突然終了することがある memcachedには異常時に終了するフローもあるが、同時に出力されるはずのエラーログは出ていなかった coreも出力されていなかった テスト環境にて追試を行ったところ、なんどか再現させることができましたが、確実に発生する条件は未だ不明です。 障害時の memcachedのバージョンは1.4.4, libeventのバージョンは1.3bです memcached の起動オプションは以下のとおり ./

    mixi大規模障害について - mixi engineer blog
  • [速報]mixiが障害の経緯を発表。原因はお盆のアクセス急増ではなく、memcachedの異常終了

    8月10日の17時20分頃から12日未明までの長時間にわたり、サービスが利用不能もしくは利用しにくい状況になっていた「mixi」。数度の断続的な復旧ののちに、日12日午前1時50分頃には復旧が完了し、現時点で全面的に復旧しているようです。 その障害の経緯について株式会社ミクシィの広報からプレスリリース「『mixi』のアクセス障害のお詫び及び復旧に関するお知らせ」として発表されました。 原因はアクセスの急増ではなかった プレスリリースの中で、今回の障害の原因は以下のように説明されています。 『mixi』のデータベースへの負荷軽減のために導入しているデータキャッシュシステムが複数同時に異常終了したことに伴い、データベースへの負荷が急増したため『mixi』を閲覧しづらい状態となりました。 高負荷かつ特殊な状態でのみデータキャッシュシステムの異常終了が発生していたため、根的な原因の究明に時間が

    [速報]mixiが障害の経緯を発表。原因はお盆のアクセス急増ではなく、memcachedの異常終了
  • マカフィー、容量無制限の個人向けオンラインバックアップサービス

    マカフィーは2010年8月5日、容量無制限のオンラインデータバックアップサービス「マカフィー オンラインバックアップ」のダウンロード販売を開始した。個人向けのサービスで、ソフトウエアをインストールするだけで自動的に実行される。利用料金は年間7980円。 パソコンの障害や紛失などの場合にファイルの紛失を防ぐサービス。容量無制限、かつ自動的に処理が実行されるため、優先順位やバックアップのタイミングなどで迷うことがない。バックアップの間隔を設定することも可能。 ファイルはすべて暗号化して、サーバーに格納。バックアップから数回のクリックだけで復元できる。米EMC子会社のDechoが運営するオンラインバックアップサービス「Mozy」を採用した。動作環境はWindows XP/Vista/7。 容量2GBまでの無料試用版も用意した。 サービス詳細マカフィーのWebサイト

    マカフィー、容量無制限の個人向けオンラインバックアップサービス
    hiroomi
    hiroomi 2010/08/06
    利用料金は年間7980円。 パソコンの障害や紛失などの場合にファイルの紛失を防ぐ。容量無制限、かつ自動的に処理が実行されるため、優先順位やバックアップのタイミングなどで迷うことがない。
  • 「育てる」GE、「育つ」グーグルのウソ

    2010年5月、米国で「ASTD(American Society for Training & Development、米国人材開発機構)」のカンファレンスが開かれた。人材育成や組織開発をテーマにした世界最大規模のイベントで、企業の人事部門の担当者や人事関係のコンサルタントらが世界中から集まる。今年のカンファレンスに参加した組織コンサルティング会社、アジアリープジャパンの池田哲平代表から興味深い話を聞いた。 池田氏がASTDに参加する目的は、最新の組織開発や人材育成手法の情報を得るのはもちろん、各国の人事業界の専門家と直接話してその興味や問題意識を探ることもあるそうだ。今年、多くの参加者たちが話題にしていたのが「グーグル対GE(ゼネラル・エレクトリック)」だったという。もちろん、GEが検索エンジンを開発するわけではない。人材育成において、これからの主流がGE流になるか、グーグル流になるか

    「育てる」GE、「育つ」グーグルのウソ
    hiroomi
    hiroomi 2010/07/14
    「マネジャーと技術者は毎日面談して、「何が障害になっているか」「それをどう乗り越えるか」をともに考え、試行錯誤を繰り返した。グーグルの「ワン・オン・ワン」と同様の取り組みだ。」iPhone vs android的話でもある
  • Twitterの大規模システム運用技術、あるいはクジラの腹の中(前編)~ログの科学的な分析と、Twitterの「ダークモード」

    Twitterの大規模システム運用技術、あるいはクジラの腹の中(前編)~ログの科学的な分析と、Twitterの「ダークモード」 先週の6月22日から、米サンタクララで行われていたWebサイトのパフォーマンスと運用に関するオライリーのイベント「Velocity 2010」が開催されていました。 その中で、TwitterのJohn Adams氏がTwitterのシステム運用について説明するセッション「In the Belly of the Whale: Operations at Twitter」(クジラの腹の中:Twitterでの運用)が行われています。Twitterのような大規模かつリアルタイムなWebサイトの運用とはどういうものなのでしょうか? 公開されているセッションの内容を基に概要を記事で紹介しましょう。システム管理者の新たな役割、Railsの性能の評価、Bittorrentを使った

    Twitterの大規模システム運用技術、あるいはクジラの腹の中(前編)~ログの科学的な分析と、Twitterの「ダークモード」
    hiroomi
    hiroomi 2010/07/01
    障害が起きているときのログを分析することはとても大事だ。そこでFacebookのオープンソースのScribeとHDFSへと移行した。大規模な分析はHadoopで行っている
  • 真面目なネット担当者はトラブルに遭いやすい

    日経NETWORKは2010年4月12日から5月14日までの約1カ月間で、企業ネットの担当者を対象に「ネットワークの実態調査 2010」を実施した。Webサイトから回答できるアンケートで、日経NETWORKのホームページやITproのメールマガジンなどで告知を行い、2115人から回答を得た。ご回答いただいた方々には、お礼を申しあげる。 この調査は、「ネットワーク管理者の正しい相場観」で紹介したように、企業ネットの“相場”を知るために実施した。日経NETWORK 7月号では、調査結果に基づく特集記事を掲載する。記事では、DNSサービスやIPアドレスの管理方法の採用率、ウイルス対策の導入状況、拠点間を結ぶWANサービスの選択と障害時に備える冗長化方法の利用率を取り上げている。 ここでは、誌面の都合で取り上げられなかった、企業ネットのトラブルとネットワーク機器の更新頻度、保守契約の有無の関連性に

    真面目なネット担当者はトラブルに遭いやすい
    hiroomi
    hiroomi 2010/06/23
    「耐障害性の向上に取り組んだのに、意に反してトラブルを引き起こし、解決のために多額の費用を要した」
  • Twitterで大規模障害、原因は「タイムラインキャッシングの強化に失敗」

    Twitterは6月15日、サイト全体でアクセス問題が起きていると報告した。約2時間にわたり、つながりにくい状態が続いている。 同社によると、タイムラインのキャッシングを強化するためのメンテナンスで問題が起きたことが原因。解決に取り組んでいるという。 この影響で、タイムラインに一時的にツイートが表示されない現象が起きる可能性があるが、すぐに復旧すると同社は述べている。また、先ごろからユーザーが報告していた、ツイートの数がおかしくなる問題も解決を図っているとしている。 15時53分追記:Twitterはサイトへのアクセスが復旧したと報告。一時的にツイートが表示されなくなったり、重複して表示される現象は続いているが、まもなく回復するとしている。

    Twitterで大規模障害、原因は「タイムラインキャッシングの強化に失敗」
  • 「通勤できる人は募集していないんですよ」 - 障害者が輝く組織が強い:日経ビジネスオンライン

    この連載でも何度となく触れてきたように、情報通信技術(ICT)の発展は障害者の就業環境を劇的に変化させた。ICTを活用することでコミュニケーションが円滑になり、情報の共有化も進んだ結果、障害のある人が来持っている能力を発揮し、活躍できる場が大きく広がった。 ICTを活用した究極の就労形態が、「在宅勤務」いわゆる「テレワーク」と言えるだろう。今はどこに住んでいてもパソコンとブロードバンド(高速大容量回線)さえあれば、わざわざ会社に通勤しなくても、自宅にいながらにして多くの仕事がこなせるようになっている。それゆえ、テレワークは障害者の雇用機会拡大の切り札となる新しい就労形態として期待されているのだ。 とはいえ、課題も残されている。家にいる社員の仕事ぶりをどのように管理・評価するか、あるいは孤独感を感じないようにどのようにケアし、モチベーションを高めていくか。そうした人事管理上の難しさから、テ

    「通勤できる人は募集していないんですよ」 - 障害者が輝く組織が強い:日経ビジネスオンライン
  • MySQLに自動フェイルオーバー機能を追加したAmazonクラウド。オンラインのままパッチ当てやバックアップも

    MySQLに自動フェイルオーバー機能を追加したAmazonクラウド。オンラインのままパッチ当てやバックアップも クラウド上でMySQLの運用を行うサービス「Amazon Relational Database Service」(Amazon RDS)を提供していたAmazonクラウドは、Amazon RDSに自動フェイルオーバーによる可用性を実現したオプション「Multi-AZ Deployments」を追加したと、ブログ「Amazon RDS - Multi-AZ Deployments For Enhanced Availability & Reliability」で明らかにしました。 データベースの計画停止がなくなる これまでのAmazon RDSは、MySQLがあらかじめインストール済みですぐに利用できると同時に、MySQLにパッチを当て最新に保つとともに、バックアップもしてくれる

    MySQLに自動フェイルオーバー機能を追加したAmazonクラウド。オンラインのままパッチ当てやバックアップも
    hiroomi
    hiroomi 2010/05/19
    「組み合わせることで、バックアップやパッチ当て、障害対応などをすべておまかせ」
  • 2年前の障害報告書から学んだAmazon S3の凄さ

    Amazon EC2」は、誤解されている。筆者は最近、そう強く思っている。あなたがもし「Amazon EC2は単なる仮想マシンサービス」と思っているなら、考え直してほしい。Amazon EC2の当の価値とは、実はストレージサービスの「Amazon S3」にある。 最近日でも、Amazon EC2対抗をうたう仮想マシンサービスが増えている。Webサイトからの申し込みだけで利用でき、課金は1時間単位。Webベースの管理ツールから簡単に仮想マシンを起動できて、ロードバランサーなども手軽に設定できる。日のサービスも、仮想マシンに関する機能面ではAmazon EC2に追いつき始めている。 しかし、全く敵わないのが、ストレージサービスであるAmazon S3だ。 Amazon EC2の最大の特徴は、利用者が様々な種類の仮想マシンを、管理ツール上でのクリック操作一つで、素早く展開できることだ。「

    2年前の障害報告書から学んだAmazon S3の凄さ
  • 運用管理の効率と耐障害性がアップ

    小川 大地 日ヒューレット・パッカード サーバー仮想化ソフトのVMware vSphere 4は、ハイパーバイザー「VMware ESX」と各種の拡張ツール群で構成される。今回は、拡張ツール群の「VMware vCenter Server」を中心に、VMware vSphere 4の運用管理面における新機能を解説しよう。 前回はVMware vSphere 4のパフォーマンスとストレージ関連の新機能を紹介したが、今回は、拡張ツール群の「VMware vCenter Server」を中心に、VMware vSphere 4の運用管理面における新機能を解説しよう。VMwareの仮想環境にVMware VMotionやVMware HA(High Availability)などの付加価値を実現するものだ。 ホストプロファイルでホストを効率展開 ESXホストの台数が多くなると、それに合わせて管理

    運用管理の効率と耐障害性がアップ
  • 「引っ込み思案の目立ちたがり屋」が 陥りやすい“社会不安障害”の苦しみ | 「引きこもり」するオトナたち | ダイヤモンド・オンライン

    まもなく40歳になるヨシムラさん(仮名)は、中学時代、生徒会や放送委員を務めるほどの目立ちたがり屋で、将来、テレビ局のアナウンサーか政治家を目指していた。そんな性格から、当時は、生徒会の先輩に対しても、物おじせずに意見を言ってしまうところがあった。 ある日、ヨシムラさんは、先輩から体育館の裏に呼び出されて、「おまえは、後輩のくせに生意気だ!」と“焼き”を入れられた。それを機に、彼はどもって声が出なくなったり、人前に出ると緊張して手に汗をかいたり、動悸がするようになった。 しかし、学校の成績は良かったため、都内の一流私立大学を難なく卒業した。その後、司法試験を受け続けたものの、なかなか合格できずにいた。 生活に支障をきたすようになったのは、30歳のときに学習塾の講師になってからのこと。とくに父兄を前にすると、どもって声が出なくなり、手に汗をかいた。自分のパフォーマンスを最大限に引き出すことが

    hiroomi
    hiroomi 2010/03/19
    薬を3か月くらい続けると、不安を取り除けて比較的問題なく行動できる。ところが、脳に染み込ませるためには、積極的に外に出て行って自信を構築する期間が1~2年必要。また引きこもり生活に戻ってしまいます。
  • 成績優秀なのに仕事ができない “大人の発達障害”急増の真実 | 「引きこもり」するオトナたち | ダイヤモンド・オンライン

    自らの「発達障害」に気づかない40~50代の大人が増加している。 厚労省が2010年に公表する新しい「ひきこもり支援ガイドライン」の中でも、引きこもる要因の第1位(27%)に挙げているのが、前々回で指摘した、この「発達障害」だ。 大手銀行員のコバヤシさん(仮称)もその1人。コバヤシさんは、朝起きるのが苦手で、定刻に出勤できずに遅刻してしまうことがたびたびあった。一旦、寝ると、14~5時間も寝てしまうことがあり、目覚まし時計をかけても起きられない。高校生のときまでは親に起こしてもらっていたので問題にはならなかったが、1人立ちしてから、頻繁に寝坊するようになってしまった。 取引先などと待ち合わせしても、つい遅刻を繰り返してしまう。出かける前になると、別の仕事のことが気になって、あちこち資料を探し回っているうちに、出るのが遅れてしまうからだ。先方を待たせないように待ち合わせの約束を優先しなければ

    hiroomi
    hiroomi 2010/03/11
    「成績優秀」以外は該当してそ。けども「「(1)心理教育と環境調整療法、(2)認知行動療法、(3)心理療法(カウンセリング)、(4)自助グループへの参加、(5)薬物療法などを中心に行う。」か。
  • [コア・ネット]MPLSで統合網を構築,耐障害性を徹底強化

    KDDIの次世代ネットワークの中核を構成するのは「統合IPネットワーク」である。「統合IP網」とも呼ばれている。商用稼働は2007年10月。この時点から,既存のCDN(KDDIのネットワーク・インフラ)上のトリプルプレイ・サービスやIP-VPNの移行を開始した。移行作業は,2010年3月に終える予定だ。 MPLSの採用動機は耐障害性 統合IPネットワークの基的な設計コンセプトは「信頼性の向上」である。基技術の選択,導入の準備,ネットワーク構成など,徹底して信頼性を高めることを目指している。 まず構築作業の過程で信頼性向上が図られている。統合IPネットワークの構築自体は,商用稼働の1年前の2006年に完了していた。試験環境ではなく,商用サービスに実際に使うネットワークで,約1年をかけて検証した。実際に大規模な環境でないと分からないバグがあるからだという。「最終的には全サービスが載るため,

    [コア・ネット]MPLSで統合網を構築,耐障害性を徹底強化
    hiroomi
    hiroomi 2010/02/23
    最小限に抑える「ダブル・ラダー」構造 全国のバックボーンを構成するSINは,ノードをはしご状につないだネットワークを2面用意し,さらにそれらをつないだ2重のはしご構造になっている。
  • 株式会社SBI証券に対する検査結果に基づく勧告について:証券取引等監視委員会

    1.勧告の内容 証券取引等監視委員会は、株式会社SBI証券(東京都港区、資金479億円、役職員 507名)を検査した結果、下記のとおり、当該金融商品取引業者に係る法令違反の事実が認められたので、日、内閣総理大臣及び金融庁長官に対して、金融庁設置法第20条第1項の規定に基づき、行政処分を行うよう勧告した。 2.事実関係 ○ 金融商品取引業に係る電子情報処理組織の管理が十分でないと認められる状況 株式会社SBI証券(以下「当社」という。)は、システムリスク管理を社内規程に基づき実施しているが、今回検査において、当社におけるシステムリスク管理態勢について検証したところ、下記のとおり、発生したシステム障害の4分の3以上の事案がリスク管理の対象から漏れており、システムリスク管理そのものが実質的に機能していないに等しい状況が認められた。また、当社がリスク管理の対象としていた事案においても、その実施

    hiroomi
    hiroomi 2010/02/06
    発生したシステム障害の4分の3以上の事案がリスク管理の対象から漏れており、システムリスク管理そのものが実質的に機能していないに等しい状況が認められた。
  • トップ営業マンが突然パニック障害に! 一体何が彼を追い詰めたのか | 「引きこもり」するオトナたち | ダイヤモンド・オンライン

    電車で突然「心臓バクバク」 パニック障害で会社を退社 一部上場企業で勤務していた30代のフジタさん(仮名)は、社長のあいさつを椅子に座って聞いている途中、突然、フラッとした。 その一瞬の記憶がない。ただ、何とも言い表せないような気持ちの悪さに襲われた。 「何だ、これ?」 フジタさんは、訳のわからないまま、社長のあいさつの途中で中座させてもらい、トイレに向かった。戻ってくるとチーフマネージャーから、心配そうに「とりあえず、これ飲んどけよ」と、精神を安定させるような薬を渡された。 薬を飲むと、しばらく落ち着いた。しかし、その日の帰り道、電車に乗っていると、今度は心臓がバクバクと言いだして、息が苦しくなった。このまま死んでしまうのではないかという恐怖感を覚えたのだ。 何とか帰宅してから、インターネットで「電車」「心臓バクバク」などと検索した。すると、「パニック症候群」とか「パニック障害」などと記

  • asahi.com(朝日新聞社):ドコモが一時通信障害 関東地方で最大180万人に影響 - 社会

    NTTドコモは、18日午後3時半ごろから、東京都立川市や横浜市、川崎市、埼玉県の一部で、同社の携帯電話(FOMA)のメールの送受信やネット接続ができず、音声通話もつながりにくい状態になったと発表した。午後5時21分に復旧した。最大で180万人に影響が出た。  同社によると、パケット通信の処理装置を交換する作業中に何らかの不具合が起きたことが原因という。午後5時40分までに、1094件の問い合わせがあった。

    hiroomi
    hiroomi 2010/01/18
    「パケット通信の処理装置を交換する作業中に何らかの不具合が起きた」
  • asahi.com(朝日新聞社):羽田の管制統合システム障害 羽田・成田便に遅れも - 社会

    国土交通省は14日から、羽田と成田の両空港の周辺空域を一つにまとめ、管制業務を羽田空港で一括して行う運用を始めたが、午前10時半過ぎ、情報を処理するシステムに障害が発生した。空域内の航空機の位置や便名などを一括して示すコンピューターが正しく作動せず、管制指示に支障が出ている。両空港の発着便に遅れや引き返しなどの影響が出る見通しだ。  国交省によると、成田と羽田の空域統合により、扱う航空機の数が増え、情報を処理するコンピューターが対応仕切れなくなったとみられる。「パソコンがフリーズしたような状態」という。航空機の位置を示すレーダーの生データを表示する画面は機能しており、それをもとに、便名などを確認しながら管制指示をしている状態という。  今回の管制業務の統合は、今秋に羽田に4目の滑走路がオープンすることなどで、首都圏上空の交通量が増えることに備え、効率的な管制を実施するための措置。空港で離

    hiroomi
    hiroomi 2010/01/14
    作り:両空港の周辺空域を一つにまとめ、管制業務を羽田空港で一括して行う運用を始めたが、扱う航空機の数が増え、情報を処理するコンピューターが対応仕切れなくなったとみられる。
  • SQL Server: バックアップを使用して障害から復旧する

  • アマゾンのクラウドサービス「EC2」に続く災難--ボットネットと停電障害

    文:Lance Whitney(Special to CNET News) 翻訳校正:吉武稔夫、高森郁哉2009年12月14日 13時57分 クラウドベースの「Amazon Elastic Compute Cloud(EC2)」は、2009年12月第2週に2件のアクシデントに振り回され続けた。1件は内部サービスを悪用してボットネットを構成する事例が見つかったことで、もう1件はバージニア州にあるデータセンターの停電だ。 CAからセキュリティ調査を請け負っているHCL Technologiesは米国時間12月9日、ハッカーがEC2上にあるサイトに侵入して、それを自前の指揮統制(C&C)拠点として悪用できるようにした後に、銀行情報を盗み取ることで悪名高いトロイの木馬「Zeus」の変種がクライアントコンピュータに感染していたことを発見した。 HCLで脅威調査担当ディレクターを務めるDon DeBo

    アマゾンのクラウドサービス「EC2」に続く災難--ボットネットと停電障害
    hiroomi
    hiroomi 2009/12/14
    ローカルのPCが管理できてないのにクラウドがね…とは言わないけど、低い方に流れていくと。