Quad-Core 8CPUコア機を導入されたお客様の評判は良いです。また、並列化パッケージソフトも性能が出ているとご評価いただいています。
CPUが速くなるとGbEネットワークによる通信待ち時間の割合が増え、CPU速度が向上しても計算速度は頭打ちになり速くはなりません。GbEネットワーク並列計算で4〜8そせなで性能向上が止まるタイプの計算をご希望されるお客様には、Quad-Core 8CPUコア機による並列計算がお勧めです。ノード内のMPI通信はメモリ上で行われるため低レイテンシーかつ広帯域のため、通信ボトルネックは発生しにくいです。
CPUコアそのものの速度向上は停滞していますが、単一計算機の上に載るCPUコア数は増えてゆきます。8CPUコアのチップも開発されているようですし、4個のXeonが搭載できるメモリ帯域の広いマザーボートも市販開始されようとしています。これらの片方だけでも、16CPUコア機が構成でき、さらに2つが完成すると32CPUコア機を構成できます。
このような状況ですから、これから新しくMPIを用いたネットワーク並列計算のプログラム開発を行うなら、32CPUコア以上の並列度が必要な計算で性能が出ることが条件になってきます。
自動並列、OpenMP、MPI並列を利用されているお客様から、導入したQuad-Core Xeon 8CPUコア機で高い並列計算性能が得られた教えていただきました。また、Windows CCSによるMS-MPIでのノード内並列計算でも速度が出ているそうです。
8CPUコアやそれ以上のコア数を搭載するメモリ共有の並列計算機環境にてOpenMPが使えればソフトウェア開発の苦労は少なくなります。そこで、OpenMP.orgで公開されているテストプログラムをQuad-Coreシステム上で評価し、性能が出ていることを確認します。
公開されているテストプログラム : http://www.openmp.org/drupal/samples/md.f
システム : HPC-ProServer DPr390 (1CPU 4CPUコア)
CPU : Intel Core2 Quad CPU 2.66GHz with 4MB cache FSB 1066MHz (8.5GB/s x1)
Memory : DDR2 667MHz (10.7GB/s x1)
コンパイラ : インテルコンパイラ
コンパイルオプション : ifort -fast -openmp md.f

オリジナルのmd.fのnsteps=1000をnsteps=100とし、粒子数npartを変化させ、さらにスレッド数を変化させて測定しています。粒子数npart 500を超えたところで理想(ideal)速度向上率とほぼ一致しました。
粒子数が少ないと駄目なのでしょうか粒子数npart=100ではQuad-Coreは効率が悪いのでしょうか。
そこで、オリジナルのmd.fの粒子数をnpart=100と固定し、ステップ数nstepsを100から1000まで100おきに増加させて測定しました。すると、ステップ数nstepsが増えて行くと速度向上率が改善されていく傾向が見えます。
これは、ステップ数が少ないと全体の実行時間が短いので初期化等の非並列部分の割合が大きく、並列化効率が悪化しているからです。
十分な計算量があればQuad-Coreは性能が出ており、十分に活用が可能です。
以上のようにQuad-CoreはOpenMPで十分に性能が出ることが確認できました。