お問い合わせ | 導入事例 | HPC計算機 | 管理サーバ/ファイルサーバ | オプション | OS/開発環境 | アプリ | システム構築 | サポート | FAQ | ベンチ | 技術情報 | 購入案内

ベンチマークTOP

アプリケーション別ベンチマーク

 Gaussian (test397)大規模計算
 VASP (Hg)VASP (large job)
 GAMESS
 Amber9 (jac)
 CHARM
 FLUENT
 STAR-CD
 LS-Dyna


SPEC CFP2006の結果評価

Linpack HPL定点観測

システムインターコネクトの試験

ストレージのべンチマーク

基礎のベンチマークテスト


プロセッサ番号一覧へ

HPC計算機テストセンター概要
HPC計算機テストセンター利用法

LS-Dyna Xeon 2n4p16c (08.9.29)

LS-Dyna Xeon 1n2p8c (08.7.23)

LS-Dyna Xeon 1n2p8c (07.1.26)

STAR-CD V.4のベンチマークテスト一覧表

A-Class (5,914,426 cells) STAR-CD v4.08.007

バージョン: STAR-CD v4.08.007
対象モデル: A-Class (Large cases)
Nnmber of Cells: 5914426
MAX. number of iterations: 20



システム 相違点 処理時間 (sec)
  Quad-Core Xeon (45nm, Nehale) 接続区分 処理区分 計測区分 1node 2node 3node 4node (比較用)
4node
2CPU 4CPU 6CPU 8CPU 8CPU
1core 2core 4core 8core 16core 24core 32core 8core
09
05
26
ProServer DPeR610 2CPU 8core x4
X5570 Quad-Core Xeon 2.93GHz
QPI 6.4GT/s Intel 5520 Chipset
DDR3-1333MHz 24GB (4GBx6)
XFS (SAS 2.5inch 15krpm)
GbE, InfiniBand SDR ConnectX
RedHat5
MPI Lib: HP-MPI v2.2.5.1
QPI SOLVER CPU 1804 1035 491 267        
elapsed 1804 1036 491 267        
TOTAL CPU 2018 1163 567 319        
elapsed 2022 1179 582 339        
QPI-GbE SOLVER CPU         165 165 138 254
elapsed         173 199 190 262
TOTAL CPU         202 197 173 305
elapsed         229 269 254 336
QPI-I/B
SDR
ConnectX
SOLVER CPU         143 94 71 245
elapsed         143 94 72 245
TOTAL CPU         177 124 99 301
elapsed         191 137 120 318

 

 

Xeon (Nehalem)によるSTAR-CD v4 A-Class並列ベンチ (09.5.26)

 STAR-CD v4 A-Classベンチマークテストを新Xeon (Nehalem) 4node 8CPU 32coreクラスタ上で行いました。またシステムインターコネクトの比較としてGbEとInfiniBand SDRでのテストも行いました。

単体の並列性能は申し分なし (高速メモリI/Oの効果)

  新しいXeon (Nehalem) は1node 2CPU 8coreで素晴らしい並列性能を示しました。CD-adapco社が公開している旧Xeonでのベンチマーク結果と比較すると旧Xeonの課題であったFSBバスのボトルネックの影響が新Xeon (Nehalem) では完全に解消されており、STAR-CDのようなメモリI/Oが多い流体計算系のアプリケーションでも高い処理効率を実現しています。

GbE並列 (2nodeが限界)

 STAR-CD v4のA-Classでのネットワークー並列の処理限界は、廉価なGbEでは2node 4CPU 16coreが限界のようです。これ以上では通信オーバーヘッドが原因で性能低下を起こしています。その様子を少し観察するため、GbEでの4node機のSOLVERのCPU時間とelapsed時間を比較すると、CPU時間は低下していますが、elasped時間は増加に転じています。なお、STAR-CD v3では4node 16core並列でもGbEとInfiniBandは共に高速でした。

I/B並列 (2node以上で必須)

 InfiniBand並列機の性能向上では、4node 8CPU 32core処理でのSOLVER側のCPU時間とelasp時間は理想値が67秒と67秒であるのに対し、実効値は71秒と72秒であり、理想値の94%と93%と高効率です。ところが大切なTOTAL側のCPU時間とelasp時間は理想値の80秒と85秒に対し、実効値は99秒と120秒であり、理想値の80%/70%と処理効率に衰えが見られます。すなわちSOLVER側は良い並列化効率を示しているのに、TOTAL側の並列化効率は低下しいます。この原因はどこに潜んでいるのでしょうか。

 そこでSOLVERのelasped時間とTOTALのelasped時間の差を2nodeと4nodeで計算すると、48秒/48秒と全く減っていません。並列計算ではノード数を増やしても高速化できない要素が高速化の最大要因となります。この48秒はその要因の最たるものです。さらにこの48秒の成分を検討すると、SOLVERのCPU時間が71秒であるのに対して、TOTALのCPU時間は99秒ですから、その差の28秒はプリポスト処理であろうと推定できます。すると残りの20秒はファイルI/O時間だと推定できます。

Mixing Pipe
System node数 CPU数 core数 Benchmark Name / Result
Mixing Pipe
82339cells
           
経過
時間
speed
up
- - - - - -
DPr490、Quad-Core Xeon 2.66GHz
FSB1333MHz、1node 2CPU 8core
DDR2-667 32GB、Intel 5000X
CentOS4.4 2.6.9-42.ELsmp EM64T
HP-MPI、(2007.7.27)
1 2 1 314 1.00 - - - - - -
2 154 2.04 - - - - - -
4 75 4.19 - - - - - -
8 48 6.54 - - - - - -

 

STAR-CD チュートリアルにある「Mixing Pipe」ベンチマークでQuad-Core Xeon 8CPUコア機が高い並列性能を達成 (2007.7.27)

1台のQuad-Core Xeon 2CPU 8CPUコア機にて予備テスト的に、STAR-CD v4.02のベンチマークとしてSTAR-CDのチュートリアルに用意されているミキシングパイプのベンチマークを行い、8CPUコア搭載の1台の計算機内部での8並列計算で、高い並列演算性能を確認することができました。並列ライブラリとしてはHP-MPIが使用されています。AMBERのベンチマークでもQuad-Core Xeon 2CPU 8CPUコアでの並列演算性能の実現にMPIライブラリの果たす役割の大きさに驚かされましたが、STAR-CDでもMPIライブラリはHP-MPIが採用されており、大きな役割を果たしていると考えられます。

 

■ Mixing Pipe

CELLS: 82339
MAX. NO. OF ITERATIONS: 300 (300iteration以内で収束すれば終了)