キャッシュテストはその名のとおりキャッシュやメモリの転送性能をテストするプログラムです。このテストを用いてHPC-ProServer Dシリーズのシステム性能確認を行いました。プロセッサは最新のDual-Core Xeon 3.0GHz (Quad Xeon Core)、メモリは667MHzのFB-DIMM 8GB、Linux環境でのテストです。
[クリックすると画像が拡大]
※Averageの値は、データサイズがもっとも小さい方から20個と、大きい方から20個のベンチマーク結果を抽出して平均値を取得したものです。
HPC-ProServer D シリーズやHPC-ProServer I シリーズに搭載されている新Dual-Core Xeonプロセッサからは、インテル Core マイクロアーキテクチャーという新しいCPUアーキテクチャに進化しました。このCore マイクロアーキテクチャでは、コア内部の浮動小数点演算処理性能を従来の2命令同時実行から4命令同時実行へと倍増しています。そのため、CPUクロックが同じ3.0GHzであっても、相対比較では従来の6.0GHzに匹敵する演算性能を単一CPUコアが獲得しました。これをふまえて、グラフで注目していただきたい場所が、グラフ右部分のメモリ領域での1threadの演算性能です。ここで1.8GFlopsという高い性能を記録しています。コアそのものが素晴らしい演算性能を持っていることを実証する素晴らしい成績です。
HPC-ProServer D シリーズやHPC-ProServer I シリーズはDual-Core Xeonを2CPU搭載しており、4コアでSMP動作しています。そのため実質的にはXeon 4コア SMP計算機として機能します。そこでこれを導入するとなると、搭載されている4コアが満足できる性能で動いてくれるのか否かの確認は非常に気がかりな点となります。特に1コアの性能が高いですから、ここはさらに気になるところです。コアあたり4命令同時実行で、それが4コアSMP動作し、しかも64bit環境で動き、さらに最大64GBのメインメモリが搭載できるマシンが、HPC-ProTuningやサポートを含めて比較的廉価に入手できるなら、これは美味しいマシンです。それなら今すぐにでも導入に踏み切られたいとお考えになられるお客様は大勢いらっしゃると思います。
そこで4コアでの並列計算がどの程度の効率で行われるかを確認をしました。しかし、1コアによる1thread計算で1.8GFlopsも出ているのですから、これだけでもメモリ負荷は高く、それが4threadで並列動作するとなるとメモリ負担は4倍と急騰する厳しいテストです。
さて、グラフで注目していただきたい場所は、グラフの右部分のメモリ領域での4threadでの並列演算性能です。ここで6.9GFlopsという演算性能を記録しています。さらに、1threadの計算と比較すると3.8倍の並列性能効率となっています。これはQuad Xeon Coreによる4並列処理において、メモリボトルネックによる性能劣化の懸念が払拭できたことを示しています。
それにしても、メモリ領域での4並列計算において3.8倍もの並列性能向上と、そこで記録された6.9GFLOPSという演算性能は素晴らしい記録です。これこそWoodcrestがFB-DIMM搭載のシステムで達成を目指していた性能そのものです。HPC-ProServer Dシリーズの性能をHPC-ProTuningで上手に引き出すことで、この性能を確かめることができました。この4並列性能が確認できたことでHPC-ProServer Dシリーズは64bit Quad Xeon Core SMPマシンとして素晴らしいパフォーマンスを持っているシステムであると太鼓判を押してお勧めできます。
### テスト環境 ###
Platform: HPC-ProServer DPS2950
CPU: Xeon (Woodcrest) 5160 3GHz/4MB_cache FSB1333MHz 2CPU 4Core
Memory: DDRII-667 FB-DIMM 8GB
HDD: SAS 15krpm 73GB * 3 (RAID5)
OS: RedHat EL WS4 Update3 EM64T
Kernel: 2.6.9-34
Compiler: Intel Fortran Compiler Version9.1