お問い合わせ | 導入事例 | HPC計算機 | 管理サーバ/ファイルサーバ | オプション | OS/開発環境 | アプリ | システム構築 | サポート | FAQ | ベンチ | 技術情報 | 購入案内

HPC計算機テストセンター概要
HPC計算機テストセンター利用法

LS-Dyna Xeon 2n4p16c (08.9.29)

LS-Dyna Xeon 1n2p8c (08.7.23)

LS-Dyna Xeon 1n2p8c (07.1.26)

ベンチマークTOP

アプリケーション別ベンチマーク

 Gaussian (test397)大規模計算
 VASP (Hg)VASP (large job)
 GAMESS
 Amber9 (jac)
 CHARM
 FLUENT
 STAR-CD
 LS-Dyna


SPEC CFP2006の結果評価

Linpack HPL定点観測

システムインターコネクトの試験

ストレージのべンチマーク

基礎のベンチマークテスト


プロセッサ番号一覧へ

Quad-Core Xeon 2CPU 8コア機によるLS-Dyna用計算機調査

TopCrunchでのLS-Dyna Q/C Xeon GbE並列テスト(08.9.29)

はじめに

LS-Dynaのベンチマークテストです。インプットファイルはTopCrunchにて公開されている"neon_refined_ revised" "3 Vehicle Collision"を用い、それぞれの単精度計算と倍精度計算を実行しました。並列の種類はネットワーク並列で8並列までです。これは利用したライセンスが8並列までのライセンのためです。

目的

2台のXeon 2wayによって実現できる、スループット、速度、信頼性、コストパフォーマンスの総合バランスに優れた計算機構成の確認です。

Q/C Xeon構成とD/C Xeon構成での8並列性能の検討

最初の確認事項は、Quad-Core Xeon 2node 4CPU 16core GbE並列機での8並列性能と、Dual-Core Xeon 2node 4CPU 8core InfiniBand並列機での8並列性能との比較です。前者が後者に匹敵する性能を持つことが確認できれば素晴らしいです。なぜこのようなことを考えるのかというと、Quad-Core Xeon 2CPU 8coreサーバを2台用いた8並列処理での運用を想定した場合、通常の利用はスループットと冗長性の両立を目指し2台のマシンでノード内8並列計算を2Job実行できるようにします。この運用なら、万一片方のマシンに障害が起こっても他方のマシンで計算が継続できます。そしてより高速な計算が求められる場合には、2台のマシンをGigabitEthernetで接続したネットワーク並列機へと構成変更し、8並列での最高速マシンに変貌させることができます。すなわち、Quad-Core Xeonを用いることで、ノード内8並列x2の高スループットかつ冗長マシン構成か、あるいはネットワーク8並列x1の最高速マシン構成かを状況に応じて使い分けることができます。そのためには、双方の構成にて高いパフォーマンスが得られることの確認が必要です。

付随的なトピックスですが、Quad-Core Xeonに搭載される4coreのうちの半分の2coreしか利用しないことで、各coreに6MBのL2-Cacheを占有させる性能向上にも期待しています。この効果でより高クロックのDual-Core Xeonに近づければ素晴らしいです。

GigabitEthernet構成とInfiniBand構成での8並列性能の検討

次の確認事項は、高価なInfiniBandを用いることなく、廉価なGibabitEthernetにて高速なネットワーク並列性能が得れるかの確認です。結果は特に "3 Vehicle Collision"での2node Gigabit Ethernet 8並列計算では、InfiniBandに匹敵する性能が得られるという快挙が確認されました。これはインパクトがある性能です。

機器構成

計算機: HPC-ProServer DPrT7400 2台
CPU: X5482 3.2GHz/FSB1600/2x6MB_L2cache 2CPU 8core
C/S: Intel 5400
Memory: DDR2 800MHz 64GB
HDD(sys): SATA 250GB/7,200rpm
OS: RedHatEL4 WS update7 (EM64T)
Kernel: kernel 2.6.9-78.ELsmp
Network: Gigabit Ethernet
MPI: Intel MPI Library
Application: LS-Dyna Version 971 (MPP版 (MPIライブラリを使用したネットワーク並列版) 8並列までのライセンス)

TopCrunch "neon_refined_revised"

neon_refined_revised (Single-Precision)

Quad-Core Xeon 3.2GHz 2node GbE 8並列処理が、Dual-Core Xeon 3.4GHz 2node InfiniBand 8並列処理に迫る性能を発揮していることに注目してください。この程度の性能差なら廉価なGbEでも十分に実用的です。また、Quad-Core Xeon 3.0GHz 1node ノード内8並列処理は、Dual-Core Xeon 3.4GHz ノード内4並列処理よりも高速です。

出典 ベンダー 計算機 node/CPU/core 並列度 経過時間 (秒)
TopCrunch s社 X5272 D/C Xeon 3.4GHz /FSB1600 / 2x6MB L2cache
DDR2 800MHz / Intel5400C/S / 2node 4CPU 16core
InfiniBand DDR / MPI
2 x 2 x 2 = 8 8 1091
TopCrunch h社 X5272 D/C Xeon 3.4GHz /FSB1600 / 2x6MB L2cache
DDR2 667MHz / Intel5400C/S / 2node 4CPU 16core
InfiniBand SDR / MPI
2 x 2 x 2 = 8 8 1155
弊社 弊社 X5482 Q/C Xeon 3.2GHz / FSB1600 / 2x6MB L2cache
DDR2 800MHz 64GBメモリ / Intel5400C/S / 2node 4CPU 16core
GigabitEthernet / Intel-MPI
2 x 2 x 4 = 16 8 1219
TopCrunch s社 X5472 D/C Xeon 3.0GHz /FSB1600 / 2x6MB L2cache
DDR2 800MHz / Intel5400C/S / 1node 2CPU 8core
1 x 2 x 4 = 8 8 1462
TopCrunch s社 X5272 D/C Xeon 3.4GHz /FSB1600 / 2x6MB L2cache
DDR2 800MHz / Intel5400C/S / 1node 2CPU 4core
1 x 2 x 2 = 4 4 2071
TopCrunch hp X5272 D/C Xeon 3.4GHz /FSB1600 / 2x6MB L2cache
DDR2 667MHz / Intel5400C/S / 1node 2CPU 4core
1 x 2 x 2 = 4 4 2249
弊社 弊社 X5482 Q/C Xeon 3.2GHz / FSB1600 / 2x6MB L2cache
DDR2 800MHz 64GBメモリ / Intel5400C/S / 1node 2CPU 8core
2 x 2 x 4 = 16 4 2443
弊社 弊社 X5482 Q/C Xeon 3.2GHz / FSB1600 / 2x6MB L2cache
DDR2 800MHz 64GBメモリ / Intel5400C/S / 1node 2CPU 8core
1 x 2 x 4 = 8 1 7171

 

neon_refined_revised (Dubble-Precision)

出典 ベンダー 計算機 node/CPU/core 並列度 経過時間 (秒)
弊社 弊社 X5482 Q/C Xeon 3.2GHz / FSB1600 / 2x6MB L2cache
DDR2 800MHz 64GBメモリ / Intel5400C/S / 2node 4CPU 16core
GigabitEthernet / Intel-MPI
2 x 2 x 4 = 16 8 2091
弊社 弊社 X5482 Q/C Xeon 3.2GHz / FSB1600 / 2x6MB L2cache
DDR2 800MHz 64GBメモリ / Intel5400C/S / 1node 2CPU 8core
2 x 2 x 4 = 16 4 4115
弊社 弊社 X5482 Q/C Xeon 3.2GHz / FSB1600 / 2x6MB L2cache
DDR2 800MHz 64GBメモリ / Intel5400C/S / 1node 2CPU 8core
1 x 2 x 4 = 8 1 11901

TopCrunch "3 Vehicle Collision"

3 Vehicle Collision (Single-Precision)

Quad-Core Xeon 3.2GHz 2node GbE 8並列処理が、Dual-Core Xeon 3.4GHz 2node InfiniBand 8並列処理に匹敵する性能を発揮していることに注目してください。素晴らしいです。また、Quad-Core Xeon 3.0GHz 1node ノード内8並列処理は、Dual-Core Xeon 3.4GHz ノード内4並列処理よりも高速です。

出典 ベンダー 計算機 node/CPU/core 並列度 経過時間 (秒)
TopCrunch s社 X5272 D/C Xeon 3.4GHz /FSB1600 / 2x6MB L2cache
DDR2 800MHz / Intel5400C/S / 2node 4CPU 16core
InfiniBand DDR / MPI
2 x 2 x 2 = 8 8 15227
弊社 弊社 X5482 Q/C Xeon 3.2GHz / FSB1600 / 2x6MB L2cache
DDR2 800MHz 64GBメモリ / Intel5400C/S / 2node 4CPU 16core
GigabitEthernet / Intel-MPI
2 x 2 x 4 = 16 8 16512
TopCrunch h社 X5272 D/C Xeon 3.4GHz /FSB1600 / 2x6MB L2cache
DDR2 667MHz / Intel5400C/S / 2node 4CPU 16core
InfiniBand SDR / MPI
2 x 2 x 2 = 8 8 16518
TopCrunch s社 X5472 Q/C Xeon 3.0GHz /FSB1600 / 2x6MB L2cache
DDR2 800MHz / Intel5400C/S / 1node 2CPU 8core
1 x 2 x 4 = 8 8 21667
TopCrunch i社 Q/C Barcelona 1.9 GHz
1node 2CPU 8core
1 x 2 x 4 = 8 8 27020
TopCrunch hp X5272 D/C Xeon 3.4GHz /FSB1600 / 2x6MB L2cache
DDR2 667MHz / Intel5400C/S / 1node 2CPU 4core
1 x 2 x 2 = 4 4 29808
TopCrunch s社 X5272 D/C Xeon 3.4GHz /FSB1600 / 2x6MB L2cache
DDR2 800MHz / Intel5400C/S / 1node 2CPU 4core
1 x 2 x 2 = 4 4 30937
弊社 弊社 X5482 Q/C Xeon 3.2GHz / FSB1600 / 2x6MB L2cache
DDR2 800MHz 64GBメモリ / Intel5400C/S / 1node 2CPU 8core
1 x 2 x 4 = 8 1 87685

 

3 Vehicle Collision (Dubble-Precision)

出典 ベンダー 計算機 node/CPU/core 並列度 経過時間 (秒)
弊社 弊社 X5482 Q/C Xeon 3.2GHz / FSB1600 / 2x6MB L2cache
DDR2 800MHz 64GBメモリ / Intel5400C/S / 2node 4CPU 16core
GigabitEthernet / Intel-MPI
2 x 2 x 4 = 16 8 27471

 

注) 弊社以外の速度データはTopCrunchから引用しています。

 


更新の止まった"neon_refined"も参考用にテスト

neon_refined (Single-Precision)

出典 ベンダー 計算機 node/CPU/core 並列度 neon_refined D/P
経過時間 (秒)
弊社 弊社 X5482 Q/C Xeon 3.2GHz / FSB1600 / 2x6MB L2cache
DDR2 800MHz 64GBメモリ / Intel5400C/S / 2node 4CPU 16core
GigabitEthernet / Intel-MPI
2 x 2 x 4 = 16 8 1213
弊社 弊社 X5482 Q/C Xeon 3.2GHz / FSB1600 / 2x6MB L2cache
DDR2 800MHz 64GBメモリ / Intel5400C/S / 2node 4CPU 16core
GigabitEthernet / Intel-MPI
2 x 2 x 4 = 16 4 2232
弊社 弊社 X5482 Q/C Xeon 3.2GHz / FSB1600 / 2x6MB L2cache
DDR2 800MHz 64GBメモリ / Intel5400C/S / 1node 2CPU 8core
2 x 2 x 4 = 16 4 2241
弊社 弊社 X5482 Q/C Xeon 3.2GHz / FSB1600 / 2x6MB L2cache
DDR2 800MHz 64GBメモリ / Intel5400C/S / 1node 2CPU 8core
1 x 2 x 4 = 8 1 6991

 

neon_refined (Dubble-Precision)

出典 ベンダー 計算機 node/CPU/core 並列度 neon_refined D/P
経過時間 (秒)
弊社 弊社 X5482 Q/C Xeon 3.2GHz / FSB1600 / 2x6MB L2cache
DDR2 800MHz 64GBメモリ / Intel5400C/S / 2node 4CPU 16core
GigabitEthernet / Intel-MPI
2 x 2 x 4 = 16 8 2212
弊社 弊社 X5482 Q/C Xeon 3.2GHz / FSB1600 / 2x6MB L2cache
DDR2 800MHz 64GBメモリ / Intel5400C/S / 1node 2CPU 8core
2 x 2 x 4 = 16 4 3732
弊社 弊社 X5482 Q/C Xeon 3.2GHz / FSB1600 / 2x6MB L2cache
DDR2 800MHz 64GBメモリ / Intel5400C/S / 1node 2CPU 8core
1 x 2 x 4 = 8 1 11780