[B! hpc] yassのブックマーク

A Simple Introduction to Superscalar, Out-of-Order Processors

yass 2017/04/01

リンク

20140628_jaws-ug_クラウド女子会_HPC科あゆみ先生 #jawsug

2014年6月28日開催第9回 JAWS-UG　クラウド女子会での発表資料です。Read less

yass 2014/06/29

リンク

Windows Azure の中でも動いている InfiniBand って何?

2014年3月22日 MVP Community Camp 2014 「Windows Azure の中でも動いている InfiniBand って何？」セッションスライド

yass 2014/02/28

リンク

HPC性能が大幅に強化されたHaswell(前編) -各コアに256bit長のFMAを2個装備

IDF 2012で、2013年に登場と見られるIntelの次世代プロセサ「Haswell」のアーキテクチャが発表された。Haswellのアーキテクチャ全般については大原雄介氏の記事を参照戴くのが分かり易いと思うが、それを補足する意味で、HPC(High Performance Computing)向けの強化ポイントについて詳細に見て行きたい。 Haswellで一番目に付くのは、各コアに256bit長(64bit×4)のFMA演算器を2個装備し、1サイクルに倍精度の浮動小数点演算を16回実行できるようにした点である。また、32bitの単精度浮動小数点なら32回の演算を実行できる。「京」スパコンに使われている「SPARC64 VIIIfx」とその後継の「SPARC64 IXfx」のコアは8演算、2012年6月にTop500 1位となった「Sequoia」に使われている「BlueGene/Q(

yass 2013/12/07

"各コアに256bit長(64bit×4)のFMA演算器を2個装備し、1サイクルに倍精度の浮動小数点演算を16回実行 / ベクトルの内積 / Sum＝Xi×Yi+Sumをi=0から順に計算 / この場合は(A×B)+CのCに結果を格納する必要があり、VFMADD231命令が使われる"

リンク

Java 7 ソケット・ダイレクト・プロトコル - 一度書けば、どこでも実行できる、ある場所では驚くほどに

Rustが再評価される：エコシステムの現状と落とし穴 In this article, we share findings and insights about the Rust community and ecosystem and elaborate on the peculiarities and pitfalls of starting new projects with Rust or migrating to Rust from othe...

yass 2013/10/03

" RDMAは、オペレーティングシステムを介さずに、直接、他のコンピュータのメモリにアクセスするように、低遅延アプリケーションのプロトコルを提供します。"

リンク

2009/12/10 GPUコンピューティングの現状とスーパーコンピューティングの未来

PFI社内セミナー 2009年12月10日 20:00-21:00(予定) GPUコンピューティングの現状とスーパーコンピューティングの未来発表者: 村主崇行（プリファードインフラストラクチャー研究開発部門・京都大学大学院　物理学第二教室）セミナー録画URL: http://www.ustream.tv/recorded/2837689 このスライドは、発表後にみなさまからいただいた貴重な意見をもとに改訂した版です。発表時点での版はこちら: http://www.slideshare.net/pfi/20091210-gpu-2735685Read less

yass 2013/09/26

リンク

30. 並列計算機のプログラミングモデル (2006/10/1)

30. 並列計算機のプログラミングモデル (2006/10/1) すでに何度も繰り返したように、現在スーパーコンピューターといえるような速い計算機を作るには、なんらかの方法で並列処理する計算機を作るしかありません。歴史的には、並列計算機には色々な種類がありますが、使い方、つまりソフトウェアの観点から重要なものは分散メモリか共有メモリか、というものです。分散メモリの計算機とは、要するに普通の PC をイーサネットでつないだようなもののことです。これをどうやって使うかというと、普通は MPI のようないわゆるメッセージパッシングによるプログラミングモデルで使うことになります。メッセージパッシングというのはどういうモデルかというと、なんということはなくてそれぞれの計算機ではバラバラにプログラムが勝手に走っていて、メモリ空間も自分のメモリしか見えないのですが、番号を指定して他

yass 2013/09/23

"分散メモリの計算機とは、要するに普通の PC をイーサネットでつないだようなもの/ 共有メモリの計算機とは、複数の CPU が単一のメモリを物理的に共有/ 現実に PC クラスタ等では MPI 以外に現実的な解は存在しません。"

hpc
MPI

リンク

高並列計算アクセラレータ Intel Xeon Phi Coprocessor 5110P Board

Xeon Phi Coprocessor E5110P Intel MIC 60コアにより1,011GFLOPSの浮動小数点演算理論性能を実現 8GBのGDDR5メモリを320GB/sで高速接続 PCI Express x16でホストサーバと接続２基のXeon Phiを搭載することで2TFLOPSのHPCサーバを実現 FDR InfiniBand接続によりメニーコア機のネットワーク並列処理機を実現 Intel Xeonとはプログラミング・モデルと開発環境を共通化高信頼のHPC ProServerシリーズとセットで提供管理サーバや開発環境などを含めたシステムインテグレーションを提供 3年間の当日オンサイト保守と技術支援を提供高並列計算アクセラレータ Intel Xeon Phi Coprocessor 5110P Board Intel Xeon Phi Copro

yass 2013/09/23

" 性能は限定的に確認/現在はまだ試験導入の段階/適した条件は、計算の粒を8GBのメモリサイズ内に納めることができ、1回のPCIeを経由のデータ転送で十分な量の繰り返し処理を実施でき、しかも高い並列度で動作する計算"

リンク

高性能コンピューティングは新たな時代へ　解析業務の効率UP、ビッグデータの分析でも効果発揮

富士通は2013年5月16日〜17日に東京国際フォーラムにて「富士通フォーラム2013」を開催し、最新のICT技術やソリューションを広くお披露目した。同フォーラムではさまざまなセミナーが開催されたが、なかでも人気の高かったセミナーのひとつが高性能コンピューティングの最新動向を紹介した「進化するHPCプラットフォーム／活用のポイント」である。講師を務めた富士通研究所の成瀬彰氏は、「HPCの計算コストはゼロに近づいており、深く考えず、まずHPCシステムで計算させてから意思決定をした方が、手っ取り早い時代が来ている」と述べ、各種HPCプラットフォームの特徴や、ビッグデータ解析への応用など新たなトレンドを紹介した。最初に成瀬氏は、「進化するHPC環境」として、応用の裾野が拡大しつつあるHPCプラットフォームの現状とそれぞれの特徴を紹介した。取り上げたHPCプラットフォームは、スーパーコンピュ

yass 2013/09/22

"GPUは性能は高いが使うのは難しい/ Xeon Phiはプログラムの修正や移植が不要で、再コンパイルするだけ/GPUに比べて使いやすくバランスが取れている/最大36倍の性能向上/ Lustreをベースに独自の改良を加えたファイルシステム"

リンク

サービス終了のお知らせ

サービス終了のお知らせいつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。お客様がアクセスされたサービスは本日までにサービスを終了いたしました。今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

yass 2013/09/22

"回答者の大部分はGPUやXeon Phiを使った経験があり，CPUのアプリケーションを移植する手間を比較すると，やはりXeon Phiのほうが簡単という意見が大部分で，GPUは人月の単位なのに対してXeon Phiは人週の単位という意見もあり"

リンク

インテル® Xeon Phi™ コプロセッサー向け OpenCL* アプリケーションの設計とプログラミング・ガイド | iSUS

この記事は、インテル® デベロッパー・ゾーンに掲載されている「OpenCL* Design and Programming Guide for the Intel® Xeon Phi™ Coprocessor」の日本語参考訳です。本記事の PDF 版はこちらからダウンロードできます。概要この記事は、インテル® Xeon Phi™ コプロセッサー向けのハイパフォーマンス OpenCL* アプリケーションを開発するための設計とコーディング・ガイドです。インテル® Xeon Phi™ コプロセッサーのアーキテクチャーおよびマイクロアーキテクチャーを紹介した後、OpenCL* 構造を効率良く利用してインテル® Xeon Phi™ コプロセッサーのハードウェアを活用する方法を説明します。パフォーマンス・アプリケーションではハードウェアの並列性を利用することが不可欠であるため、ここではインテル®

yass 2013/09/22

"メモリーアクセスが自動的に高速化される、従来の CPU キャッシュに似た完全にコヒーレントなキャッシュ階層を実装 / データ・プリフェッチが不可欠"

リンク

5. 何故スーパーコンピューターは売れなくなったか (2005/12/13)

yass 2013/09/22

"1975年には Cray-1 は同じ値段でミニコンを沢山買ったのに比べて 50倍の性能があったのが 2005年には NEC SX-8 は同じ値段だけ PC を買ったのの 1/60 の性能 / 価格性能比は 30年間で3000倍 / スーパーコンピューターが割にあわない"

hpc

リンク

68. x86 プロセッサの将来 (2009/2/28)

yass 2013/09/22

" アーキテクチャ的な観点からも、x86 プロセッサの現在の方向が限界にきている / マイクロプロセッサの発展は / 基本的に20-25年前のスーパーコンピューターの発展を後追い "

リンク

95. x86 プロセッサの将来と HPC 用プロセッサ (2011/2/20)

yass 2013/09/22

" まあ、そうするとこれから数年間は x86 の発展、Intel MIC、 NVIDIA ARM+GPU とアーキテクチャやトランジスタ効率・電力効率的にはなんだかなあ感があるものが HPC マーケットで戦うということになります。"

リンク

117. HPC用プロセッサの近未来(2013/7/13)

117. HPC用プロセッサの近未来(2013/7/13) 過去40年間のマイクロプロセッサの進化が、基本的にはハイエンドのメインフレームやスーパーコンピューターの進化を後追いするものであったことは 26 で述べました。大雑把にいって、 1993年の Intel Pentium (ないしは、1989年の Intel 80860) で、完全にパイプライン化された浮動小数点演算器を実現していて、これが 1976 年の Cray-1 に相当します。但し、 90年代初期から 26 を書いた2006年までのほぼ15年間の進化は、ベクトルマシンの1976 年からの15年間の進化とは大きく違った、ということも述べました。ベクトル機のクロック速度は15年間に数倍にしかならなかったのに対して、マイクロプロセッサのクロックは 75 倍にもなったからです。大雑把にいって、この間にトランジスタ数は 5

yass 2013/09/22

" 何故ここまで演算器を増やすことができたか、というと、/ 実際問題として実用アプリケーションのほとんどでは有効に使えていなくても、それにかまわずに演算器とカタログピーク性能をあげてきたことだと思います "

hpc
cpu

リンク

ビッグデータを変える！Xeon Phi搭載サーバーの可能性 (1/3)

既存のデータ解析とビッグデータの大きな差である処理速度や解像度。このギャップを埋めるには、既存のサーバーアーキテクチャでは難しい。インテルのXeon Phiを搭載したNECのメニーコアサーバーは果たしてどれだけの実力を持っているのか？最大520スレッドを1Uで実現するビッグデータサーバー前回説明したのは、「もっと大容量に、より高速に」という要件を満たすデータセンターの重要性だ。スマートデバイスやソーシャルメディアの普及、クラウドへのデータの集約化、多種多様なデータをビジネスで積極的に活用するビッグデータの台頭など、現在起こっているあらゆるトレンドが、データ量の爆発的な増大を誘発している。さらに、データが膨大になっていくということは、データの容量だけではなく、おのずと処理能力が必要になるということだ。つまり、これからのデータセンターは、今までに比べて桁違いのキャパシティと処理能力を有した

yass 2013/09/22

" GPGPUの場合、CPUとGPUでそれぞれ異なるプログラミングが必要になる。/ Xeonと共通のプログラミング環境でより簡単に処理の超並列化が可能 / コンパイラが賢いので、処理を複数のコアに自動的に割り当て / 大谷イビサ "

リンク

【後藤弘茂のWeekly海外ニュース】 Intelが60コアのメニイコア「Xeon Phi」を正式発表

yass 2013/09/22

"スカラユニットを備えておりx86命令が実行/ GPUは一般にSingle Program, Multiple Data(SPMD)モデルで、ベクタをプログラムに対して露出させない / MICではビジブル / レイテンシは(メモリからキャッシュへの)プリフェッチングで隠蔽"

リンク

インテル® Xeon Phi™の検証結果 | HPCシステムズはすべての研究開発者に計算力を提供します。

Phiは1GHz 200コア(物理50コア × Hyper Threading 4スレッド)サーバと覚えます。つまり、このボードの中に、1GHzで動作するCPUを200コア搭載したLinuxサーバがある、と考えてください。大雑把ですが、それで実体をほぼあらわしています。評価結果を端的に述べますと、Phiには有望３割、失望７割を感じました。詳細を説明いたします。まずは有望なデータから。 2012年現在、インテルのCPU E5-2600シリーズの１ノードとNVIDIAのTesla M2090の1枚は、単精度行列積の性能が674Gflops程度となっています。ベンチマークページそんな中、Phiは１枚で1290Gflops（従来比ほぼ２倍）の実効性能を達成しました！これは潜在的に強力な浮動小数点数演算性能を有していることをアピールしています。また、Phiは「従来のIAアーキテクチャのアプリ

yass 2013/09/22

" つまり、このボードの中に、1GHzで動作するCPUを200コア搭載したLinuxサーバがある、と考えてください。大雑把ですが、それで実体をほぼあらわしています。"

リンク

Intelコンパイラはここがスゴい、Xeon Phiで自動オフロード

「Intel Parallel Studio XE」が「2013 SP1」にバージョンアップした。プラグマを1行書くだけでXeon Phiや、第3世代Coreプロセッサ以降のCPUが備える統合GPUで演算処理を実行するコードを生成する機能を備えた。米Intelが開発し、エクセルソフトが販売するx86プロセッサ向けソフトウェア開発ツール「Intel Parallel Studio XE」が「2013 SP1」にバージョンアップした。それに含まれるC／C++コンパイラの「Intel C++ Composer」はバージョン14になり、C++11規格やOpenMP 4.0への対応のほか、並列処理を高速実行する機能が追加された。具体的には、Xeon Phiや、第3世代Coreプロセッサ（開発コード名「Ivy Bridge」）以降のCPUが備える統合GPU「Intel HD Graphics」で演算

yass 2013/09/22

"オフロード実行モデルでは、プログラムの起動はホストPC側で行い、ソースコード上の一部分だけをXeon Phiで実行させる。Xeon Phiで実行させるコードの単位は、関数/メソッドだけでなく、forループなど任意の単位で指定可能"

リンク

JP Morgan Chaseがデリバティブ専用スパコンをFPGAで作った話 #fpgax - スティルハウスの書庫の書庫

金融系でFPGAというとHFTへの応用が知られてるけど、この事例はリアルタイムトレードの話ではない。金融業務で必要とされるバッチ処理やHPC（High Performance Computing）でもFPGAが本格的に使われ始めてるという話だ。元ネタは、2011年にJP Morgan Chaseの人がスタンフォード大学で講演した内容。このビデオを見ていたらとっっっても面白かったので、 #fpgax 第3回で使う資料として要点を訳し、俺のコメントや補足を追加してみた。 http://www.youtube.com/watch?v=9NqX1ETADn0 （スライドはこちら）なお、FPGAも金融も素人なので、勘違いや誤訳があるかもしれない。FPGAとは何かよく知らない人はこちらをどうぞ。リーマン・ショック対策のスパコン開発 JP Morgan Chaseは、社債やモーゲージ（不動産を担保

yass 2013/09/03

FPGA
HPC

リンク

はてなブックマーク

タグ

関連タグで絞り込む (33)

hpcに関するyassのブックマーク (24)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス