タグ

hpcに関するniamのブックマーク (21)

  • Disco MapReduce

    Disco is a lightweight, open-source framework for distributed computing based on the MapReduce paradigm. Disco is powerful and easy to use, thanks to Python. Disco distributes and replicates your data, and schedules your jobs efficiently. Disco even includes the tools you need to index billions of data points and query them in real-time. Disco was born in Nokia Research Center in 2008 to solve rea

  • Hadoop + Luceneで分散インデクシング - moratorium

    Hadoop + Luceneで分散インデクシング 2008-08-27 (Wed) 1:07 Hadoop Hadoop (0.17系) + Lucene (2.3系) で検索用インデックスを分散インデクシングするコードを公開してみます。HDDに眠らせてるのはちょっともったいない。 いきなりソースコード。 package net.kzk9; import java.io.*; import java.util.*; import org.apache.hadoop.conf.*; import org.apache.hadoop.fs.*; import org.apache.hadoop.io.*; import org.apache.hadoop.mapred.*; import org.apache.hadoop.util.*; import org.apache.lucene.i

  • BlueGeneのアーキテクチャ超適当まとめ - moratorium

    BlueGeneのアーキテクチャ超適当まとめ 2009-06-13 (Sat) 13:28 ANL Intern 2009 私的メモエントリです。IBM製のスパコン、BlueGeneの特徴をまとめてみます。 以下参考URL。 IBM Research | Blue Gene An Overview of the BlueGene/L Supercomputer, SC2002 Toward Message Passing for a Million Processes: Characterizing MPI on a Massive Scale Blue Gene/P, ISC2009 Wikipedia: BlueGene 以下、特徴を箇条書き。 PowerPCベースのプロセッサ。BG/Lは700MHz, BG/Pは850MHz。各コアに1個ずつ、DoubleFPUが付属。BG/Pからは

  • IT news, careers, business technology, reviews

    Heads on: Apple’s Vision Pro delivers a glimpse of the future

    IT news, careers, business technology, reviews
  • サンのクラウドは、Amazon EC2とどう違うのか? - @IT

    2009/06/02 サン・マイクロシステムズが2009年夏にも提供を開始するクラウドサービス「Sun Cloud」の概要が見えてきた。同社のクラウドサービスはOpenSolarisベースの仮想環境で、Amazon EC2/S3に相当するサービスを提供するものだ。計算リソース(OSやアプリケーションなどのソフトウェア実行環境)を提供する「Sun Cloud Compute Service」とストレージサービスの「Sun Cloud Storage Service」で構成する。 価格などまだ不明な点は多いが、技術情報は徐々に出てきている。例えばストレージサービスに関してはWebDAVやAmazon S3互換のRESTful APIでアクセスできることが明らかにされているほか、APIのドキュメントやJavaで書かれた管理コンソール、PythonRuby向けのライブラリが公開されている。スクリ

  • RAID vs SSD vs FusionIO

    In benchmarks passion (see my two previous posts) I managed to setup all three devices (RAID was on board; Intel X25-E SSD connected to HighPoint controller, FusionIO card) on our working horse Dell PowerEdge R900 (btw, to do that I had to switch from CentOS 5.2 to Ubuntu 8.10, as CentOS was not able to start with attached SSD card to HighPoint controller) and along with other tests I ran tpcc-lik

  • SSD耐久テスト

    2008.11.18 SSDが壊れてしまった。 初めて見たメッセージだ。XPにこんな機能があるとは知らなかった。エクスプローラーでエラーチェックするよう指示が表示されるが、FILE0006.CHKといったファイルが書き込まれるから、更に酷くなるような……。 プログラムそのものも正常に動作しなくなっている。突然意味不明なDLLを要求したり、勝手にフォントが変わってしまったり、ドライブを認識できなくなったりと、プログラムが改変されてしまったような危険な動きを見せる。 HDDの感覚で考えれば、移動させていないプログラムには影響しないと思ってしまうかもしれないが、SSDでは新たに書き込んだ部分だけでなく、このように移動も更新もしていないファイルにも影響を与える。例えば16GB SSDの前半8GBに何かインストールし、空いている後半8GBで読み書きしているつもりでも、実際には全体が均等に書

  • SSDによるデータベース高速化 - Stay Hungry. Stay Foolish.

    少し前にチューニングしたデータベースで さらにパフォーマンスアップする必要が出たので 最近流行?のSSDを使ったデータベースの高速化について検討してみたのでメモ。 ここ間違ってない?等フィードバック下さると嬉しい。 現在のサーバー構成 パフォーマンスアップ対象のデータベースサーバーは データベースファイルをNAS(NFSv3接続)においている。 数TBレベルの比較的大規模なデータベースサーバー。 SSDの特性 リードは早いがライトが遅い 基的にはエンタープライズ向け製品であればリード/ライトスピード両方ともがHDDより数倍向上するが 一般向け製品の中にはランダムライト速度がHDDより劣る製品もある。 SLCタイプはMLCタイプに比べてライト速度が早いためデータベース用途ではSLCタイプを選択したほうが良い。 書き換え回数に上限がある ウェアレベリング(書き込み分散化技術)やキャッシュメモ

    SSDによるデータベース高速化 - Stay Hungry. Stay Foolish.
    niam
    niam 2009/05/01
  • 世界最大のデータベース トップ10

    データベースと言ってもピンからキリまでありますが、世界にはかなり大きいデータベースがあるようです。ちなみに、ギガバイト(GB)の次はテラバイト(TB=1000GB)、その次はペタバイト(PT=1000TB)です。 詳細は、以下から。10位.アメリカ議会図書館(Library of Congress) 蔵書数、予算額、職員数全ての点で世界最大規模を誇る図書館です。 ・所蔵品:1億3千万点(、写真、地図、その他) ・蔵書数:2900万冊 ・棚の総距離:530マイル(約852キロメートル) ・デジタルドキュメント:500万冊 ・テキストデータ:20テラバイト ・一日に1万の新しいアイテムが追加される 9位.アメリカ中央情報局(CIA:Central Intelligence Agency) ・250カ国以上の総合的なな統計データ ・分類された情報 8位.Amazon ・アクティブユーザー数:5

    世界最大のデータベース トップ10
  • Hadoop Python: Writing An Hadoop MapReduce Program In Python - Michael G. Noll

    In this tutorial, I will describe how to write a simple MapReduce program for Hadoop in the Python programming language. Motivation Even though the Hadoop framework is written in Java, programs for Hadoop need not to be coded in Java but can also be developed in other languages like Python or C++ (the latter since version 0.14.1). However, the documentation and the most prominent Python example o

  • fladdict: flashで擬似流体シミュ20000パーティクル

    InfoStorm: study14 flashの限界に挑戦した流体シミュレーターほぼ完成。ここ1~2年のマシンなら全画面で30fps出ると思う。 結局25000個動くだけの余力を確保してから、5000個分のパワーを色の調整やエフェクトのほうにまわしてみた。マウスをゆっくり動かすとキモチイイです。 内部ロジックだけど、なんかwonderflでエライ勢いで解析祭りが行われてるwww コードみたけどメインの処理は大体同じ。 問題はこのあとどこに持ってくかだよね。 このままスクリーンセーバーやトップページにしちゃってもいいんだけど、どうしようかな。

    niam
    niam 2009/04/17
  • Java Tuning White Paper(和訳) - JMeterガイド

    JMeterガイド JMeterの使い方(背伸び編) トップページページ一覧メンバー編集 Java Tuning White Paper(和訳) 最終更新: susatadahiro 2007年04月23日(月) 02:41:40履歴 Tweet 意訳超訳です Java Tuning White Paper Java? Enterprise Platforms and Developer Organization Sun Microsystems, Inc. Revised: December 20, 2005 http://java.sun.com/performance/reference/whitepap... 4 Tuning Ideas By now you have taken the easy steps in the Best Practices section and h

    Java Tuning White Paper(和訳) - JMeterガイド
  • mixi Engineers’ Blog » 圧縮データベースを使おう

    チャリンコ通勤による滝のような汗で、朝からTシャツがシースルーになってしまうmikioです。さて今回は、Tokyo Cabinet(TC)のデータベースを各種のアルゴリズムで圧縮して利用する方法についてご紹介します。 圧縮B+木 B+木とは、比較関数の値による順序が近いレコード群を単一のページにまとめ、各ページにB木(multiway balanced treeの略であり、二分木(binary tree)とは違います)の索引を張ったものです。理論的にはレコードの探索も更新も O(log n) の時間計算量で行え、内部ノード(B木)の操作をキャッシュすると実質的には O(1) の時間計算量で探索や更新が行えるという、かなり安定した性能を備えるデータ構造です。その上、レコードが一定の順序に基づいて並べられているので、数値の範囲検索や文字列の前方一致検索が高速に行えたり、カーソルによって順序に基

    mixi Engineers’ Blog » 圧縮データベースを使おう
  • B木 - naoyaのはてなダイアリー

    昨年から続いているアルゴリズムイントロダクション輪講も、早いもので次は18章です。18章のテーマはB木(B Tree, Bツリー) です。B木はマルチウェイ平衡木(多分木による平衡木)で、データベースやファイルシステムなどでも良く使われる重要なデータ構造です。B木は一つの木の頂点にぶら下がる枝の数の下限と上限を設けた上、常に平衡木であることを制約としたデータ構造になります。 輪講の予習がてら、B木を Python で実装してみました。ソースコードを最後に掲載します。以下は B木に関する考察です。 B木がなぜ重要なのか B木が重要なのは、B木(の変種であるB+木*1など)が二次記憶装置上で効率良く操作できるように設計されたデータ構造だからです。データベースを利用するウェブアプリケーションなど、二次記憶(ハードディスク)上の大量のデータを扱うソフトウェアを運用した経験がある方なら、いかにディ

    B木 - naoyaのはてなダイアリー
  • 15 Years Of Hard Drive History: Capacities Outran Performance

    Hard Drives: 40 MB To 750 GB - 3,500 To 10,000 RPMWe decided to go back in time by 15 years, starting with one of the early IDE hard drives: just 40 MB. We then moved on to a model from the mid-90's (3.2 GB), jumped to a double-digit gigabyte capacity unit (10 GB), and then upgraded to one with a more modern capacity of 60 GB. Finally, we looked at both the largest and fastest hard drives availabl

    15 Years Of Hard Drive History: Capacities Outran Performance
    niam
    niam 2009/04/11
  • 「オープン・クラウド宣言」("Open Cloud Manifesto")は漠然としていて時期尚早 --- The Economist 誌の冷静な見方 - Muranaga's View

    半年前の「企業 IT 特集」を読んで以来、The Economist 誌のクラウド・コンピューティングに関する記事には欠かさず目を通してきた。4月2日の「クラウド・プロバイダをめぐる動き」というエントリは、"Gathering clouds" という記事に触発されて書いたもので、3月末に発表されたばかりの "Open Cloud Manifesto"(「オープン・クラウド宣言」)に関する僕の見解を述べた。 最新号(April 4th, 2009)の "Clash of the clouds" という短い記事には、The Economist らしい、クラウド業界から距離を置いた冷静な見方が表われている。 クラウド・コンピューティングは the next big thing かもしれないが、その政治的な動きはメイン・フレームと同じくらい古臭い。 今回、業界にちょっとした論争を生んだのは "Op

    「オープン・クラウド宣言」("Open Cloud Manifesto")は漠然としていて時期尚早 --- The Economist 誌の冷静な見方 - Muranaga's View
  • グーグル、自社設計のサーバを初公開--データセンターに見る効率化へのこだわり - CNET Japan

    カリフォルニア州マウンテンビュー発--Googleは、自社のコンピューティングの運用については多くを語らない。しかしGoogleは米国時間4月1日、当地で行われた、注目度が高まっているデータセンターの効率性に関するカンファレンスで、そのインターネットの力の中枢にあるハードウェアを初めて公開した。 ほとんどの企業は、DellやHewlett-Packard(HP)、IBM、Sun Microsystemsのような企業からサーバを購入している。しかしGoogleは、何十万台ものサーバを保有していて、そのサーバを稼働させることが自社の中心的な専門技術の一部だと考えており、自社独自のサーバを設計および構築している。Googleのサーバの多くを設計したBen Jai氏は、高度な技術を持つ、非常に熱心な聴衆の目の前で、現在のGoogleサーバを公開した。 Googleサーバで非常に驚くのは、サーバ1台

    グーグル、自社設計のサーバを初公開--データセンターに見る効率化へのこだわり - CNET Japan
  • Googleのサーバは12Vバッテリを搭載 | スラド IT

    Googleが自社で開発したサーバ・マシンを利用していることはご存じの方も多いと思うが、4月1日に行われたデータセンターの効率性に関するカンファレンスで、Googleのサーバ設計者Ben Jai氏がそのハードウェアを公にしたそうだ(家/.ストーリーより)。 CNET.comの元記事にはその写真も掲載されているが、Googleのサーバには主電力源にトラブルが発生した事態に備え、12Vのバッテリが搭載されている。Jai氏によると、個々にバッテリを搭載する方が「中央集中型で大型UPSを導入するよりもずっと安価だ」とのこと。また、エネルギー効率の面から見ても、大型UPSが92~95%程度の効率となるのに対し、バッテリ搭載サーバの場合は実運用で99.9%以上の効率が達成できると述べている。 Googleはこのビルトイン・バッテリ設計に関する特許を取得しているが「ベンダーへのライセンス供与についても

    niam
    niam 2009/04/06
    UPSを使うよりも個々のモジュールにバッテリ持たせた方が低コストっていうのは面白い.
  • IBM Developer

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    IBM Developer
  • いま分散システムが面白い理由 - Blog by Sadayuki Furuhashi

    最近 クラウド という単語が流行していますが、「大規模な計算資源を低コストで提供してくれるトコロがあるらしいので、自前で持っていた計算資源を委託しちゃえば運用する手間も知識も要らないし、そもそもサーバーを買う費用を省けちゃうから嬉しい」という発想に基づいているらしく、しかし技術的には 大規模な計算資源を低コストで構築する技術 がポイントでしょう。 大規模な計算資源をどうやって安く構築するか。 従来は、システムの能力を高めるためには、高性能・高機能(それゆえ高価な)マシンを導入するというスケールアップの手法が採られていたのだが、この手法では10倍に性能を上げるために、たとえば30倍のコストがかかるかもしれない。スケールアップと比べてスケールアウトでは、導入したコストにほぼ比例して、パフォーマンスの向上が見込める。 『UNIX magazine 2009年4月号』 p.31 *1 何百万円もす

    いま分散システムが面白い理由 - Blog by Sadayuki Furuhashi