お問い合わせ | 導入事例 | HPC計算機 | 管理サーバ/ファイルサーバ | オプション | OS/開発環境 | アプリ | システム構築 | サポート | FAQ | ベンチ | 技術情報 | 購入案内

Xeon(R) (Nehalem Microarchitecture) の基本性能調査をSPEC CFP2006を用いて実施

Xeon (Nehalem) | Xeon (Nehalem) 1066MHzと1333MHzメモリ | Core(TM) i7 | OS別コンパイラ
歴代CPU | Xeon(R) | AMD Opteron(TM)-Xeon(R) | AMD Opteron(TM) | AMD Opteron(TM)整数演算
ハイパースレッド | QPI | STREAM | STREAMグラフ | 並列処理の階層化

 

1job16job-speed

SPEC CFP2006を参考にしてXeon(R) (Nehalem)の特性を把握 (09.4.9)

 新しいXeon(R) (Nehalem) の構成の検討では、アプリケーションの特性、CPUクロック速度、メモリ容量、メモリクロック速度について総合的に判断する必要があります。本来はお客様が利用されるアプリケーションについて網羅的なベンチマークテストを行えれば良いのですが、これは容易ではありません。そこで公開されているSPEC CFP2006の結果を用いて計算機の特性を詳しく把握しておけば、個々に確認すべき事柄をピンポイントに絞りこむことができ便利です。このSPEC CFP2006というベンチマークテストは傾向の異なる科学技術計算用のアプリケーションを用い、広範な計算機上でテストした結果が詳細に公開されており、その結果を分析することで多くの情報を得ることができます。

 科学技術計算を目的とするユーザがSPEC CFP2006から得られる情報としては、各アプリケーション別の、CPUクロック別、メモリクロック別でのシングルジョブ性能があります。さらに、最大投入可能ジョブ数でのスループット性能もあります。そこでこれらの情報を直感的に理解していただけるようデータをグラフ化しています。

グラフの作成方法

 公開されている1ジョブ処理のアプリケーション別経過時間と、最大投入可能ジョブ数でのアプリケーション別の経過時間を用いて、2.26GHz CPU 1066MHzメモリを搭載する計算機での値を基準とし、各計算機の上昇率を求め、それを散布図にプロットすることで、アプリケーション別のCPU速度とメモリ速度の効果を一目瞭然に理解できるように作図しました。

CPU性能理想値とメモリ性能理想値

 グラフの中でCPU性能理想値とメモリ性能理想値を補助線として太線で表示しています。以下の「CPU性能律速型アプリケーション」と「メモリ性能律速型アプリケーション」は、この補助線と関係付けるとその特徴が良く判ります。

アプリケーションの特性を色で区分し分布図の理解を助ける

 グラフの中ではアプリケーション別の横線をアプリケーションのメモリ性能への依存傾向別に色分けしており、計算機の特性を俯瞰する際の助けになるようにしています。

(赤色表示) 「CPU性能律速型アプリケーション」
(青色表示) 「メモリ性能律速型アプリケーション」

新Xeon(R) (Nehalem) での計算機選定

 新Xeon(R) (Nehalen) にて、「CPU性能律速型アプリケーション」を利用する場合は、ネットワーク並列計算で利用する場合と、ノード内並列計算で利用する場合について別々に考える必要があります。さらに「メモリ性能律速型アプリケーション」についても考える必要があります。

「CPU性能律速型アプリケーション」かつネットワーク並列計算の場合

 ネットワーク並列計算で利用する場合は、普及型のサーバ用CPUを用い、コア数を増やすし並列計算により絶対性能を追求することをお勧めします。普及型のサーバ用CPUは価格も比較的低い、消費電力も比較的低いなど、並列処理に適した特性を持っています。

「CPU性能律速型アプリケーション」かつノード内並列計算の場合

 ノード内並列計算で利用する場合は、(例えばGaussianなどで利用する場合)、利用できるコア数に制限がありますから、最高クロック速度のCPUを利用することをお勧めします。

「メモリ性能律速型アプリケーション」の場合

 「メモリ性能律速型アプリケーション」を利用する場合は、メモリ性能が支配的なため、最初にメモリクロック速度を決め、次にその範囲内で低めのCPUクロック速度を持つ計算機を選択することで、コストパフォーマンスの良い構成を実現できます。

なお、「メモリ性能律速型アプリケーション」で得られている並列化効率については、「CPU/Core間メモリ競合」を参照してください。このグラフで表記されている図は、各CPU別の複数ジョブ処理の経過時間を、1ジョブ処理の経過時間で割った値で、性能低下率を得ています。この性能低下率はメモリ帯域の不足率と読み替えることができます。すなわち、メモリ帯域が32GB/sの計算機での処理効率が50%の場合は、64GB/sのメモリ帯域が求められていることを示しています。

SPEC CFP2006より引用した基データ

  SPEC CFP2006 Rates (並行処理性能) SPEC CFP2006 Base (単体コア性能)
製品 T7500 6026T 6026T 6026T 6026T 6026T 6026T T7500 6026T 6026T 6026T 6026T 6026T 6026T
CPU Xeon Xeon Xeon Xeon Xeon Xeon Xeon Xeon Xeon Xeon Xeon Xeon Xeon Xeon
製造プロセス 45nm 45nm 45nm 45nm 45nm 45nm 45nm 45nm 45nm 45nm 45nm 45nm 45nm 45nm
CPU番号 W5580 X5570 X5560 X5550 X5540 X5530 X5520 W5580 X5570 X5560 X5550 X5540 X5530 X5520
CPU
クロック
(GHz)
3.20 2.93 2.80 2.66 2.53 2.40 2.26 3.20 2.93 2.80 2.66 2.53 2.40 2.26
チップセット 5520 5520 5520 5520 5520 5520 5520 5520 5520 5520 5520 5520 5520 5520
DDR3
メモリ
(MHz)
1333
48GB
1333
24GB
1333
24GB
1333
24GB
1066
24GB
1066
24GB
1066
24GB
1333
48GB
1333
24GB
1333
24GB
1333
24GB
1066
24GB
1066
24GB
1066
24GB
OS Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux
コンパイラ Intel11 Intel11 Intel11 Intel11 Intel11 Intel11 Intel11 Intel11 Intel11 Intel11 Intel11 Intel11 Intel11 Intel11
CPU 数 2 2 2 2 2 2 2 2 2 2 2 2 2 2
コア数/CPU 4 4 4 4 4 4 4 4 4 4 4 4 4 4
総コア数 8 8 8 8 8 8 8 8 8 8 8 8 8 8
投入
ジョブ数
16 16 16 16 16 16 16 1 1 1 1 1 1 1
経過時間(秒)                            
bwaves
1165 1181 1188 1188 1359 1361 1364 139 139 140 150 173 174 174
gamess 1462 1555 1643 1702 1835 1929 2072 777 797 831 865 953 1000 1053
milc 821 818 819 821 964 964 968 243 243 247 253 278 286 292
zeusmp 683 704 720 741 817 847 875 282 283 288 297 332 341 352
gromacs 551 579 601 633 667 703 754 292 302 314 327 362 376 396
cactusADM 818 842 855 880 971 1011 1048 64.8 66.3 67.4 70.6 78.2 81.1 84.6
leslie3d 1104 1107 1109 1112 1306 1307 1311 312 284 321 328 365 374 386
namd 662 699 723 765 808 849 910 393 405 424 442 481 506 535
dealII 621 642 658 683 747 774 813 317 325 339 353 387 406 423
soplex 915 940 939 930 1105 1105 1114 273 277 283 291 320 330 340
povray 302 318 331 348 372 388 416 175 181 188 197 216 226 241
calculix 536 567 587 618 661 690 737 280 289 299 311 343 360 378
GemsFDTD 1394 1408 1418 1406 1686 1686 1686 224 225 227 249 259 263 267
tonto 734 751 765 802 895 921 960 365 373 388 405 446 468 492
lbm 1766 1760 1756 1757 2172 2170 2166 253 252 252 252 290 290 290
wrf 792 774 796 799 937 955 949 264 268 275 283 317 327 340
sphinx3 1518 1527 1538 1542 1746 1759 1779 437 453 486 483 540 567 622

 

Nehalem Microarchitectureはメモリ速度については800MHz、1066MHz、1333MHzの3種類の中から選択できるので注意が必要です。

【SPEC CPU2006の公開データを資料として引用】

SPEC, SPECint and SPECfp are resistered trademarks of the Standard Performance Evaluation Corporation. For more information on this SPEC benchmarks see www.spe.org. SPEC and the benchmark name SPEC CPU2006 are registered trademarks of the Standard Performance Evaluation Corporation. Competitive benchmark results stated above reflect results published on www.spec.org as of April 03, 2009. The comparison presented above is based on the best performing 2-cpu servers currently shipping by Dell Inc., Intel Corporation and SGI. For the latest SPEC CPU2006 benchmark results, visit http://www.spec.org/cpu2006/