[B! AVX] y_uukiのブックマーク

AVX-512（フォーマット）詳解

3. • 32個の512 bit SIMDレジスタ • zmm0, zmm1, ..., zmm31 • 一つのSIMDレジスタには整数や小数が複数入る • double(64bit) x 8, qword(64bit) x 8, float(32bit) x 16 • dword(32bit) x 16, word(16bit) x 32, byte(8bit) x 64など • 一部の整数は符号あり・符号無しを選択可能 • 下位256bitは従来のymmレジスタとしてアクセス可能 • その下位128bitは従来のxmmレジスタとしてアクセス可能 AVX-512 zmm0 ymm0 xmm0 63 31 15 0 3 / 29 4. • 整数系 ; vp<演算><要素の型> dst, src1, src2 • d(dword x 32)として要素ごとにzmm2 = zmm1 + zmm0

y_uuki 2018/03/24

AVX
SIMD

リンク

SIMDの組み込み関数のことはじめ - koturnの日記

はじめに現代のCPUではSIMD(Single Instruction Multiple Data)命令を利用することができる． SIMD命令とはその名の通り，ひとつの命令で複数のデータを処理するものである． Intel系のCPUでは，MMX/SSE/AVX/AVX-512といったSIMD命令が利用可能であり，ARM CPUではNEONというSIMD命令が用意されている．各SIMDとSIMD用のレジスタの対応関係は以下のようになる．項目利用可能レジスタ MMX 64bit のMMレジスタ SSE 128bit のXMMレジスタ AVX 256bit のYMMレジシタ AVX-512 512bit のZMMレジシタ ARM NEON 64bitのD(Double-Word)レジスタおよび128bitのQ(Quad-Word)レジスタこれらのレジスタを用いて，例えば4つのint型を一

y_uuki 2016/12/18

SIMD
AVX

リンク

AVXとAVX-512のインタリーブ - koturnの日記

はじめに前回の記事では，Intel系のCPUとARM系のCPUのSIMD命令紹介した．記事中のサンプルコードで，画像の2倍の拡大を行うコードがあり，その中でインタリーブを行っていた． SSEであれば，単純にunpack命令を実行するだけでよかった．簡単なサンプルコードと出力結果は以下の通り． // $ g++ -std=gnu++14 -march=native main.cpp -o main #include <iostream> #ifdef _MSC_VER # include <intrin.h> #else # include <x86intrin.h> #endif // _MSC_VER static inline void showAVX128(const __m128i& v128) noexcept { alignas(alignof(__m128i)) uns

y_uuki 2016/12/18

AVX
SIMD

リンク

OpenCL on the CPU: AVX and SSE - StreamHPC

Our Services and ProductsWe are a software house that writes extremely fast code for the world's most demanding companies. Software Development – From architecture to delivery, making fast softwareDevelop Fast SoftwareMaking the release version of prototype codeAparapi and GPU-code in JavaMaking CUDA-code work on AMD hardware (HIP)Porting CUDA to OpenCLTraining – From crash-course to full in-house

y_uuki 2012/04/12

OpenCL
AVX

リンク

インテル® コンパイラーによる AVX 最適化入門：第1回 AVX とは | iSUS

マスク付きロード命令およびストア命令の追加 vmaskmov はマスク付きのロードまたはストアを行う命令です。以下のような条件分岐のあるプログラムにおいて、コンパイラーは b[i] へのアクセスを安全に行うことができるかどうか（すなわち、b[i] が常に参照可能なメモリを指しているか）判断不可能なため、従来は自動ベクトル化を断念するか、その部分だけスカラーのコードで（非効率的に）実行していました。マスクつきロード命令により、b[i] へのメモリーアクセスを a[i]>0 の条件が真の時にだけベクトル実行することが可能になり、自動ベクトル化においても効率よく実行することができるようになりました。 void foo(float *restrict a, float *b, int n) { int i; for(i=0; i<n; i++){ if (a[i]>0) { a[i] += b[

y_uuki 2011/10/26

AVX
Lab

リンク

Intel AVX | ホイール欲しいハンドル欲しい

Intel の新しい拡張命令セットです。基本的には SSE と同じようなもの。・Intel AVX その特徴は・256bit になった・積和命令・ソース非破壊の 3オペランド命令・命令 Prefix の圧縮・メモリアライメント制限の緩和など。 CPU core 数が増えて性能が向上するように、演算並列度を上げるために SIMD で扱える bit 幅が拡張されるようです。 x64 の 64bit RAX～レジスタのように、128bit XMM レジスタが 256bit YMM レジスタに拡張されています。 256bit = 32bit×8 なので float×8個の演算を一度に行うことができます。とはいえ GPU の Shader でも xyzw までで、8要素の演算には普段あまり馴染みがありません。むしろ 256bit = 64bit×4 と、double で一度に

y_uuki 2011/10/24

[Lab]

AVX

リンク

Instruction Set Architecture

Using Intel.com Search You can easily search the entire Intel.com site in several ways. Brand Name: Core i9 Document Number: 123456 Code Name: Alder Lake Special Operators: “Ice Lake”, Ice AND Lake, Ice OR Lake, Ice* Quick Links You can also try the quick links below to see results for most popular searches. Product Information Support Drivers & Software

y_uuki 2011/10/10

リンク

はてなブックマーク

タグ

関連タグで絞り込む (5)

AVXに関するy_uukiのブックマーク (7)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス