タグ

Systemに関するsilver_arrowのブックマーク (116)

  • 大規模インフラの監視システム その2 | GREE Engineering

    こんにちは。グリーのmdoi(@m_doi)です。 今回は、グリーの監視システムについて説明したいと思います。以前、こちらの記事にて、リソース監視システムの説明をさせて頂きましたが、死活監視やログ監視については語られなかったので、気になっていた方も多いと思います。ということで、今回は、グリーのインフラにおける死活監視やログ監視、アラート通知システムを紹介したいと思います。 何を使っているの? グリーでは、死活監視にNagiosを使用していました。監視システムの中では、かなり有名なソフトウェアですから、監視システムの構築に使用したことがある方も多いのではないでしょうか。プラグインも豊富に存在するので、様々な監視を行うことができます。死活監視は、このNagiosの機能をそのまま利用し、ログ監視は、Nagiosと独自に作成したエージェント及びログフィルタを連携させて行っていました。 全体のシステ

    大規模インフラの監視システム その2 | GREE Engineering
  • なぜTwitterは低遅延のままスケールできたのか 秒間120万つぶやきを処理、Twitterシステムの“今” − @IT

    ユーザー同士のつながりを元に時系列に140文字のメッセージを20個ほど表示する――。Twitterのサービスは、文字にしてしまうと実にシンプルだが、背後には非常に大きな技術的チャレンジが横たわっている。つぶやき数は月間10億件を突破、Twitterを流れるメッセージ数は秒間120万にも達し、ユーザー同士のつながりを表すソーシャル・グラフですらメモリに載る量を超えている。途方もないスケールのデータをつないでいるにも関わらず、0.1秒以下でWebページの表示を完了させなければならない。そのために各データストレージは1~5ms程度で応答しなければならない。 Twitterのリスト機能の実装でプロジェクトリーダーを務めたこともあるNick Kallen氏が来日し、2010年4月19日から2日間の予定で開催中の「QCon Tokyo 2010」で基調講演を行った。「Data Architecture

  • suicaは実はたまに落ちている - 紅茶屋くいっぱのあれこれ日記

    suicaのサーバーはみんなの知らないところで、実はたまに落ちているそうだ。 だがシステムが止まることはない、計算上センターは3日ぐらいは止まっていても大丈夫だそうだ。 だからサーバーが落ちたなどとニュース沙汰になることは殆ど無い。 suica開発陣頭指揮をされていたかたが、その実績をまとめてと頼まれ、博士論文にしたそうだ。 suicaの実例を述べるだけだと技術論文になってしまうので、一般化して論文を書きあげたそうなのだが、審査に携わった専門家の人達はそんなものが動くわけないだろうといったらしい。しかし現実問題としてsuicaは動いてしまっている。 人いわく、だってそれで動いちゃってるんだもん。だそうだ。 実装は時として奇妙に見えるかもしれない。 フィールドには神がいる。 …その意や、なんで落ちても大丈夫かなどはまた後ほど。 スイカのセミナー 昨日はスイカのセミナーだった。 JR東でスイ

    suicaは実はたまに落ちている - 紅茶屋くいっぱのあれこれ日記
  • 障害の原因の7割は運用・保守中に起こる。総務省がまとめたITの信頼性とセキュリティへの取り組み

    2015年には自動車の中で動作するソフトウェアのコード行数が1億行を突破する。総務省が発表した文書「高度情報化社会における情報システム・ソフトウェアの信頼性及びセキュリティに関する研究会の中間報告書」では、こうした表現でITが社会の基盤となってきている状況を表しています。 ITの大規模化や複雑化が進むことで、システム障害の発生による社会の被害も大きくなることから、現状の把握と取り組みの強化に向けて作成されたのが総務省のこの中間報告文書です。企業の情報システムに関わる人たちに有益な情報や提言が行われています。ポイントをいくつか紹介しましょう。 米国やカナダにおけるミッションクリティカルなシステムの平均停止時間は、ここ3年で倍増しているそうです。 こうした現状を踏まえ報告書では、ITによってもたらされる便益と、その裏側に潜むリスクとコストが適切にバランスした水準を実現していくことが極めて重要で

    障害の原因の7割は運用・保守中に起こる。総務省がまとめたITの信頼性とセキュリティへの取り組み
  • 知られざる「マルチテナントアーキテクチャ」(1)~SaaSはみんな同じではない?

    クラウドが備えるスケーラビリティやアベイラビリティ、そして膨大な処理能力を実現する技術として、MapReduceやキーバリュー型データベースが注目を浴びています。「リレーショナルデータベースはもう古い」という人さえいるほどです。 ところが、そんな話題の新テクノロジーに背を向けて、既存技術であるリレーショナルデータベースを核にしつつクラウドを構築し、絶大なスケーラビリティと信頼性を実現している企業があります。セールスフォース・ドットコムです。 彼らはMapReduceもキーバリュー型データベースも使わずに、どうやってスケーラビリティや信頼性を備えたクラウドを実現しているのでしょうか? 同社が公開している情報はそれほど多くないのですが、それらをつなぎ合わせて見えてきたいくつかの技術的な仕組みを、何回かに分けて紹介したいと思います。 Salesforceはどれほどスケーラブルか 同社のクラウドが

    知られざる「マルチテナントアーキテクチャ」(1)~SaaSはみんな同じではない?
  • クラウドの効率性:Salesforceの全サービスはわずか1,000台のサーバで運用されている | TechCrunch Japan

    OpenAI has confirmed that a DDoS (distributed denial-of-service) attack is behind “periodic outages” affecting ChatGPT and its developer tools. ChatGPT, OpenAI’s AI-powered chatbot, has been exp

    クラウドの効率性:Salesforceの全サービスはわずか1,000台のサーバで運用されている | TechCrunch Japan
  • TABLOG:NTTデータDoblogの障害を見て〜やはり辞めてよかったと思う元社員 - livedoor Blog(ブログ)

    2009年02月15日 NTTデータDoblogの障害を見て〜やはり辞めてよかったと思う元社員 =================================== NTTデータ Doblogユーザーの方へ。 Doblogのサービス放棄に伴い、ライブドアでは、ブログのリーディングカンパニーとして、今回、被害に合われたブロガー皆様のブログの受け入れを責任を持って、実施させて頂きます。 詳しい移行方法につきましては Doblogブロガー向けブログ移行支援プログラムのお知らせ−livedoorブログ開発日誌 をご覧ください。 (4月24日追記) =================================== 大変世話になった先輩や知人も沢山いるので、あまり気乗りしないが、やはり書く。 私の社会人のスタートは、ちょうど10年ほど前に、NTTデータで営業職としてであった。 とにかく高コスト

  • 不倒城: SI業界からネットゲーム業界に移った知人に色々話を聞いてきた。

    ちょっと技術的な話になる。 私の知人に、かつてはアルファベット三文字の某有名SI会社に在籍していて、今はどういう訳か某ネットゲームの会社に勤めている変り種がいる。 彼はネットワークとDBの専門家である。ゲーム業界には元来DB周りに詳しい人があまり多くなかったらしく、しかしネットゲームの開発にはDBやネットワークのアーキテクチャに関する知識が必須で、要は引き抜かれたらしいのだが、当人それ程ゲーム好きでもないのに面白いルートに行くなーと思っていた。 機会があったら金融業界とネットゲーム業界のシステム周りの違いについて聞いてみたいなーと思ってたんだが、この前久々に会ったら色んな話が聞けた。特定されない程度においおい書いてみよう。ぼかして書く為、ところどころいー加減だが勘弁して頂きたい。 今日はサーバとかデータのやり取りとか、技術的な話。 まず、前提。オンラインシステムの肝の一つに、「誰がデータを

  • 「Twitter」は生き残れるか--度重なるサービス障害をめぐる疑問

    Twitter」がサービスを維持できないでいるのは、少々理解に苦しむ。インターネット時代に突入してから10年以上たち、ウェブアプリケーションの拡大に関する非常に多くの研究開発が一般公開されているのだから、Twitterエンジニアがこれを解決できると思われて当然だろう。 Twitterの共同設立者であるBiz Stone氏の最近のブログには、約1500万ドルの資金という形で支援が実現しようとしていると書かれている。 Twitterは将来、収益モデルに支えられた持続可能な企業になる。しかし、われわれが描いている世界的コミュニケーションユーティリティとしてのTwitterが実現されない限り、最大のビジネスチャンスを追及する価値はない。われわれの目標を達成するには、Twitterが信頼に足る堅実な企業でなければならない。われわれは、将来われわれのビジネスが飛び立つ際に役立つインフラに重点的に取

    「Twitter」は生き残れるか--度重なるサービス障害をめぐる疑問
    silver_arrow
    silver_arrow 2008/07/02
    twitter問題。
  • 仮想化の次なる課題はネットワーキングか

    サーバ仮想化は、データセンターのサーバチームとネットワーキングチームの役割を変えつつあり、両者の役割は区別しにくくなっている。サーバハードウェアの仮想化製品が、サーバ内にネットワークを作成するからだ。このデータセンター設計は決して扱いやすいものではなく、ITスタッフの役割の移行も簡単ではない。 稿では、サーバハードウェア仮想化がデータセンターのネットワーキングに与えるインパクトについて詳しく見ていきたい。 VMwareの「VMware Infrastructure 3(VI3)」、Citrixの「XenServer」、Microsoftの「Microsoft Virtual Server」(と、近いうちに正式版が登場する「Hyper-V」)などで実現されるサーバハードウェア仮想化は、データセンター設計に大きな影響を与える。 ネットワーキングは間違いなく、そうした仮想化の影響を受ける分野の

    仮想化の次なる課題はネットワーキングか
  • 「感情の共有」,「負荷との戦い」---ニコニコ動画の技術:ITpro

    インターネット・サービスの激戦区である動画配信で後発ながらYouTubeを上回る成長速度,YouTubeの3倍以上となる1日ひとり3時間以上という平均視聴時間を実現したニコニコ動画。開設後1年足らずで400万人の会員を獲得,日全体のトラフィックの約10分の1を占める。その成長速度はmixiも上回り,日史上最速と見られる。 ニコニコ動画は多くのメディアで語られ,2007年10月にはグッドデザイン賞も獲得したが,これまでは社会現象やマーケティングの観点から語られることが多かった。しかしニコニコ動画を作り上げ,その急拡大を支えたのはまぎれもなくエンジニア技術だ。多くのクリエイタやユーザーを魅了し,巨大なアクセスをさばく技術はどのようなものなのか。ドワンゴのエンジニアに聞いた。 「感情」を共有するアルゴリズム 動画の上に文字をかぶせるサービスはニコニコ動画以前にも存在した。また,動画のタイミ

    「感情の共有」,「負荷との戦い」---ニコニコ動画の技術:ITpro
  • スラッシュドット ジャパン | ITが引き起こした災厄トップ10

    英ZDNet.co.ukにThe top 10 IT disasters of all time(IT災害史上トップ10)という記事が掲載されている。制御プログラムのバグやハードウェアの問題などITの不具合のせいで実際にシャレにならない大損害を被った歴史上の事例を集めたものだが、こう並べられると壮観だ。最近も英国歳入関税庁が2500万人分もの個人情報を今どきCD-Rで運んで紛失したことが判明して話題になったが、ITが社会のインフラにしっかり組み込まれた以上、今後はもっとすごいことが起こるかもしれない。トップ10の内訳は、 第3次世界大戦を引き起こす寸前まで行ったソ連の警報システムのバグ(1983年) たった1行のコード追加が引き起こしたAT&Tのネットワーク全面停止(1990年) 「64ビットの数字を16ビット空間に入れた」せいで起こったアリアン5ロケットの爆発(1996年) ソフトウェア

    silver_arrow
    silver_arrow 2007/11/26
    メモ。
  • グリッド化の決断を下すとき | OSDN Magazine

    新たなアプリケーションの設計と実装では、十分なリソースの捻出と冗長性の確保に悪戦苦闘を強いられるおそれがある。だが、グリッドアーキテクチャを採用してアプリケーションを構築すれば、低いコストで冗長性と並列処理を実現でき、リソース配分が容易になる。 グリッドアーキテクチャを用いる理由 新規アプリケーションの設計時には、多くの理由から基プラットフォームでのグリッドアーキテクチャの採用を検討すべきである。グリッドコンピューティングのフレームワークであるグリッドアーキテクチャは、データを処理する独特のプラットフォームを提供し、従来に代わるコスト効率に優れたアーキテクチャになり得る。シングルサーバアーキテクチャに比べると、グリッドアーキテクチャには並列処理、リソースの負荷分散、未使用リソースの活用といった多くの利点がある。従来のサーバ環境におけるアプリケーションの発展は、サーバのハードウェアの限界に

    グリッド化の決断を下すとき | OSDN Magazine
    silver_arrow
    silver_arrow 2007/11/26
    あとで考える
  • livedoor Techブログ : nowaのサーバ構成

    こんにちはスエヒロです。 今回は弊社が提供しているブログサービス「nowa」(ノワ http://nowa.jp)の仕組みをサーバ構成を中心に紹介したいと思います。 nowaでは一般的なブログサービス要素とSNS要素の機能を実装しています。弊社には先行して提供している「livedoor Blog」、「フレパ」といった大規模なサービスがありますので、そちらの開発・運用で問題になった点などを参考にしつつ開発を進めています。具体的にはアクセスによる負荷への対策、データベースの分散化、画像のストレージング、冗長性、スケーラビリティといった点になります。 - ポータル(nowa.jp)、CMS(cms.nowa.jp) のサーバ構成 ポータルページ(nowa.jp)とCMSページ(cms.nowa.jp)は、静的なファイルのリクエストを捌く+動的なコンテンツへのリクエストをプロキシするフロントサーバ

  • 神戸新聞のシステム障害はOracle9iのバグが原因 | スラド

    神戸新聞の報道によれば、9月22日から23日にかけて同社の紙面製作システムに障害が発生し、 記事が製作不能になっていた件 (復旧の続報)の原因は、「Oracle9i Database」のバグにあったとのこと。 バグの内容だが、DB起動時に履歴データと現在のデータを照合して不一致がないかをチェックする部分にバグがあり、データを効率的に検索するために統計情報の採取処理をした後でデータベースのシステムを強制終了すると、履歴データと一致しないことが想定されるにもかかわらずプログラムはデータの不一致を障害と判断して、稀に起動できなくなるというものらしい。神戸新聞側の運用に問題は無かったとのこと。 日オラクルによれば、今回のようなデータ不一致と、特定手順での終了から再起動にかけての一連の動作が同時に発生することは極めて稀で、これまで深刻なトラブルが発生した事例が世界でも報告されていなかったために、想

    silver_arrow
    silver_arrow 2007/10/01
    shutdown abortで強制終了⇒起動時のチェックプログラムにバグで起動できなくなるという話。
  • Part4 ディザスタリカバリ

    ディザスタリカバリ・システムを構築するに当たっては,そのRPOとRTOを明確にすることが第一。そのうえで,アプリケーションやデータベース,ストレージなど,どの層でデータを連携させるかといったアーキテクチャを適切に選びたい。 災害時にもビジネスを継続するためには,リモートサイトにデータをバックアップするディザスタリカバリ・システムを構築する必要がある。Part4では,ディザスタリカバリ・システムの要件定義で考慮すべきRPO(Recovery Point Objective)とRTO(Recovery Time Objective),およびディザスタリカバリのアーキテクチャについて解説する。 まずはRPOとRTOを明確にする ディザスタリカバリ・システムでは,災害発生時にデータを回復してシステムを再開させる。そこで求められるRPOやRTOは,システムの特性により様々である。 ディザスタリカバリ

    Part4 ディザスタリカバリ
  • mixiの生みの親“バタラ氏”が語るMySQLの意外な利用法 - TechTargetジャパン

    日記だけで4億件のデータ ミクシィが運営するSNS「mixi」は、2007年7月末段階でユーザー数が1110万人。人が12人集まれば、1人はmixiユーザーというわけだ。ユーザーのアクティブ率(ログイン間隔が3日以内)は約62%と高く、2007年4月から6月の月間平均ページビューは117.5億に達した。日記だけでも4億件以上に上るなど、蓄積するデータ量も莫大。2004年3月のサービス開始から、わずか3年半で現在の巨大コミュニティーへと発展したのだ。 ミクシィは、「LAMP(OSのLinux、WebサーバのApache、DBMSのMySQL、開発言語のPerlPHPPython)」と呼ばれるWebシステム向けの標準的なオープンソースソフトウェア(以下、OSS)でシステムを自社開発し、安価なPCサーバを1000台以上連ねる超分散構成でmixiのサービスを支えている(広告配信など周辺機能では

    mixiの生みの親“バタラ氏”が語るMySQLの意外な利用法 - TechTargetジャパン
  • 「基幹システム」が得意なSIerこそOSSに取り組むべきだ

    ADSL(非対称デジタル加入者線)サービス最大手のソフトバンクBBが9月1日に始めた、ブロードバンドユーザー向けのコミュニケーションサービス「my BBコミュニケーター」。ソフトバンクはこのサービスで、同社にとっては新しい、二つの試みに取り組んでいる。 一つ目は、my BBコミュニケーターを同社のブロードバンドサービス加入者に限定せず、プロバイダ・フリーのサービスとして広く提供したこと。二つ目は、サービスを支える情報システムを、全面的にオープンソースソフトウエア(OSS)を使って自社開発したことだ。 二つの新しい試みは別個に浮上した話ではなく、きちんと因果関係がある。つまり「myy BBコミュニケーターは、新しいビジネスモデルへの取り組み。だからこそOSSを採用して、システム構築のスタイルを変える必要があった」と、開発を担当したソフトバンクBBシステム企画部の鶴長鎮一担当部長は説明する。

    「基幹システム」が得意なSIerこそOSSに取り組むべきだ
    silver_arrow
    silver_arrow 2007/09/06
    ユーザは小さく産んで大きく育てる方向へ。あと、最後のRuby話は激しくいらないな。
  • 「銀行のATMは、本当に止まってはいけないのか?」、JISA会長の浜口氏が問題提起

    「止めてはいけない重要なシステムは、世の中にどれだけあるのだろうか。ベンダーや顧客、マスコミも交え、もっと議論すべきだ」──。情報サービス産業協会(JISA)の浜口友一会長(NTTデータ取締役相談役、写真)は、8月31日に開いた記者懇談会で、こう問題を提起した。 浜口氏は、一時も止めてはいけないシステムとして航空管制システムを例に挙げた。刻一刻と移動し続ける航空機を監視するシステムが障害で止まれば、多数の乗員乗客の生命が危機にさらされるためだ。 その一方で浜口氏は、「大手銀行のATMがシステム障害で30分止まると、(新聞やテレビは)大問題として報道する。だが、当に止まってはいけないのだろうか。30分でだめなら、何分だったら許されるのだろうか」と疑問を投げかける。「日という国は欧米と比べ、こと信頼性に関して見る目が厳しい。その日人の要望に応える形で、システムの信頼性は高水準の領域に達し

    「銀行のATMは、本当に止まってはいけないのか?」、JISA会長の浜口氏が問題提起
    silver_arrow
    silver_arrow 2007/09/03
    お。あとでかく
  • 世界に“コンピュータ”は5つあれば足りる ― @IT

    「世界に“コンピュータ”は5つあれば足りる」(The World Needs Only Five Computers)という予言をご存じだろうか。いや、現在形の発言である以上、そう遠くない将来に対するビジョンといってもいい。これは、サン・マイクロシステムズのCTO、グレッグ・パパドポラス(Greg Papadopoulos)氏が昨年11月のブログエントリで述べたもので、ちょっとした話題になった(この予言と似たことを、IBMの初代社長であるトーマス・J・ワトソンが1943年に言ったとされる。ただ、実際あちこちで引用されているが、ワトソン氏が実際に言ったという事実は確認されていないようだ)。 パパドポラス氏がいう“コンピュータ”は、ふつうの意味での“computer”ではなく、大文字の“Computer”、つまり固有名詞となったコンピュータだ。ちょうど、インターネット(the Internet

    silver_arrow
    silver_arrow 2007/07/31
    社会インフラと同様に、ITインフラについても「少数の、非常に競争的で高度に専門的な提供者に頼った方が、より効率的だとほとんどの企業が気付くときが来る」…というのがSunの次のビジョンらしい。