バージョン: STAR-CD v4.08.007
対象モデル: A-Class (Large cases)
Nnmber of Cells: 5914426
MAX. number of iterations: 20
| 年 月 日 |
システム | 相違点 | 処理時間 (sec) | |||||||||
| Quad-Core Xeon (45nm, Nehale) | 接続区分 | 処理区分 | 計測区分 | 1node | 2node | 3node | 4node | (比較用) 4node |
||||
| 2CPU | 4CPU | 6CPU | 8CPU | 8CPU | ||||||||
| 1core | 2core | 4core | 8core | 16core | 24core | 32core | 8core | |||||
| 09 05 26 |
ProServer DPeR610 2CPU 8core x4 X5570 Quad-Core Xeon 2.93GHz QPI 6.4GT/s Intel 5520 Chipset DDR3-1333MHz 24GB (4GBx6) XFS (SAS 2.5inch 15krpm) GbE, InfiniBand SDR ConnectX RedHat5 MPI Lib: HP-MPI v2.2.5.1 |
QPI | SOLVER | CPU | 1804 | 1035 | 491 | 267 | ||||
| elapsed | 1804 | 1036 | 491 | 267 | ||||||||
| TOTAL | CPU | 2018 | 1163 | 567 | 319 | |||||||
| elapsed | 2022 | 1179 | 582 | 339 | ||||||||
| QPI-GbE | SOLVER | CPU | 165 | 165 | 138 | 254 | ||||||
| elapsed | 173 | 199 | 190 | 262 | ||||||||
| TOTAL | CPU | 202 | 197 | 173 | 305 | |||||||
| elapsed | 229 | 269 | 254 | 336 | ||||||||
| QPI-I/B SDR ConnectX |
SOLVER | CPU | 143 | 94 | 71 | 245 | ||||||
| elapsed | 143 | 94 | 72 | 245 | ||||||||
| TOTAL | CPU | 177 | 124 | 99 | 301 | |||||||
| elapsed | 191 | 137 | 120 | 318 | ||||||||

STAR-CD v4 A-Classベンチマークテストを新Xeon (Nehalem) 4node 8CPU 32coreクラスタ上で行いました。またシステムインターコネクトの比較としてGbEとInfiniBand SDRでのテストも行いました。
新しいXeon (Nehalem) は1node 2CPU 8coreで素晴らしい並列性能を示しました。CD-adapco社が公開している旧Xeonでのベンチマーク結果と比較すると旧Xeonの課題であったFSBバスのボトルネックの影響が新Xeon (Nehalem) では完全に解消されており、STAR-CDのようなメモリI/Oが多い流体計算系のアプリケーションでも高い処理効率を実現しています。
STAR-CD v4のA-Classでのネットワークー並列の処理限界は、廉価なGbEでは2node 4CPU 16coreが限界のようです。これ以上では通信オーバーヘッドが原因で性能低下を起こしています。その様子を少し観察するため、GbEでの4node機のSOLVERのCPU時間とelapsed時間を比較すると、CPU時間は低下していますが、elasped時間は増加に転じています。なお、STAR-CD v3では4node 16core並列でもGbEとInfiniBandは共に高速でした。
InfiniBand並列機の性能向上では、4node 8CPU 32core処理でのSOLVER側のCPU時間とelasp時間は理想値が67秒と67秒であるのに対し、実効値は71秒と72秒であり、理想値の94%と93%と高効率です。ところが大切なTOTAL側のCPU時間とelasp時間は理想値の80秒と85秒に対し、実効値は99秒と120秒であり、理想値の80%/70%と処理効率に衰えが見られます。すなわちSOLVER側は良い並列化効率を示しているのに、TOTAL側の並列化効率は低下しいます。この原因はどこに潜んでいるのでしょうか。
そこでSOLVERのelasped時間とTOTALのelasped時間の差を2nodeと4nodeで計算すると、48秒/48秒と全く減っていません。並列計算ではノード数を増やしても高速化できない要素が高速化の最大要因となります。この48秒はその要因の最たるものです。さらにこの48秒の成分を検討すると、SOLVERのCPU時間が71秒であるのに対して、TOTALのCPU時間は99秒ですから、その差の28秒はプリポスト処理であろうと推定できます。すると残りの20秒はファイルI/O時間だと推定できます。
| System | node数 | CPU数 | core数 | Benchmark Name / Result | |||||||
| Mixing
Pipe 82339cells |
|||||||||||
| 経過 時間 |
speed up |
- | - | - | - | - | - | ||||
| DPr490、Quad-Core Xeon 2.66GHz FSB1333MHz、1node 2CPU 8core DDR2-667 32GB、Intel 5000X CentOS4.4 2.6.9-42.ELsmp EM64T HP-MPI、(2007.7.27) |
1 | 2 | 1 | 314 | 1.00 | - | - | - | - | - | - |
| 2 | 154 | 2.04 | - | - | - | - | - | - | |||
| 4 | 75 | 4.19 | - | - | - | - | - | - | |||
| 8 | 48 | 6.54 | - | - | - | - | - | - | |||
1台のQuad-Core Xeon 2CPU 8CPUコア機にて予備テスト的に、STAR-CD v4.02のベンチマークとしてSTAR-CDのチュートリアルに用意されているミキシングパイプのベンチマークを行い、8CPUコア搭載の1台の計算機内部での8並列計算で、高い並列演算性能を確認することができました。並列ライブラリとしてはHP-MPIが使用されています。AMBERのベンチマークでもQuad-Core Xeon 2CPU 8CPUコアでの並列演算性能の実現にMPIライブラリの果たす役割の大きさに驚かされましたが、STAR-CDでもMPIライブラリはHP-MPIが採用されており、大きな役割を果たしていると考えられます。
CELLS: 82339
MAX. NO. OF ITERATIONS: 300 (300iteration以内で収束すれば終了)