他のSPEC性能表へジャンプ TOP
Xeon 1way T3400 T100 R300
Xeon 2way T5400 R5400 T7400
Xeon 2way 1950III 2950III 2900III
Xeon 4way R900    
Opte. 2way T605 R805  
Opte. 4way R905    
Blade Xeon Opteron2/4w

HPC-ProServer DPeM-Series (HPC Blade Server)

DPeM1000e: Blade Enclosure (Half Size Blade 16枚、Full Size Blade 8枚搭載可能)
DPeM610: Xeon 2socket 96GBメモリ Half Size Blade (16Blade 32CPU 128コア/筐体)
DPeM710: Xeon 2socket 144GBメモリ Full Size Blade (8Blade 16CPU 64コア/筐体)
DPeM605: Opteron 2socket 32GBメモリ Half Size Blade (16Blade 32CPU 128コア/筐体)
DPeM805: Opteron 2socket 64GBメモリ Full Size Blade (8Blade 16CPU 64コア/筐体)
DPeM905: Opteron 4socket 128GBメモリ Full Size Blade (8Blade 32CPU 128コア/筐体)
Xeon (Nehalem)、Opteron (Shanghai)に対応、低消費電力、省スペース、200V電源
DDR/QDR InfniBand対応、10GbE対応、ケーブルレス、集中管理、共通電源、KVMスイッチ
高い完成度のHPCシステムインテグレーションにて導入時からの本運用を実現
3年間の翌営業日オンサイト保守を標準提供、24時間365日当日4時間保守にも対応

特徴 | システム構築 | 構成例 | 導入事例 | サポート | 機器説明 | 価格 | 仕様 | カタログ

SPEC CFP2006よりデータを抜粋 (09/01/13)

DPeM600 SPEC CFP2006 Rates (並行処理) SPEC CFP2006 (単体コア速度)
製品 DPe
M600

(blade)
1950III
2950III
2900III
DPe
M600

(blade)
DPe
M600
(blade)
DPe
M600

(blade)
DPe
M600

(blade)
DPe
M600

(blade)
1950III
2950III
2900III
DPe
M600

(blade)
DPe
M600
(blade)
DPe
M600

(blade)
DPe
M600

(blade)
CPU Xeon Xeon Xeon Xeon Xeon Xeon Xeon Xeon Xeon Xeon Xeon Xeon
製造プロセス 45nm 45nm 45nm 45nm 45nm 45nm 45nm 45nm 45nm 45nm 45nm 45nm
CPU番号 X5470 X5470 X5460 X5460 X5450 X5270 X5470 X5470 X5460 X5460 X5450 X5270
CPUクロック(GHz)
(FSBクロック(MHz))
3.33GHz 3.33GHz 3.16GHz 3.16GHz 3.0GHz 3.5GHz 3.33GHz 3.33GHz 3.16GHz 3.16GHz 3.0GHz 3.5GHz
チップセット 5000P 5000X 5000P 5000P 5000P 5000P 5000P 5000X 5000P 5000P 5000P 5000P
メモリ(MHz) 667MHz 667MHz 667MHz 667MHz 667MHz 667MHz 667MHz 667MHz 667MHz 667MHz 667MHz 667MHz
OS Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux
コンパイラ Intel11.0 Intel11.0 Intel11.0 Intel10.1 Intel11.0 Intel11.0 Intel11.0 Intel11.0 Intel11.0 Intel10.1 Intel11.0 Intel11.0
CPU 数 2 2 2 2 2 2 2 2 2 2 2 2
コア数 4 4 4 4 4 2 4 4 4 4 4 2
総コア数 8 8 8 8 8 4 8 8 8 8 8 4
投入ジョブ数 8 8 8 8 8 4 1 1 1 1 1 1
SPECfp base値→
各経過時間(秒)↓
74.2 74.5 73.1 69.5 71.7 57.3 24.9 25.0 24.4 20.1 23.7 25.4
bwaves
3205 3208 3209 3224 3208 1484 399 397 398 429 399 378
gamess 789 790 831 841 877 750 861 861 904 867 950 807
milc 1982 1981 1986 2350 1988 1117 557 552 549 809 567 546
zeusmp 990 991 991 1037 996 593 420 418 421 521 433 457
gromacs 349 348 366 375 384 313 324 326 341 349 360 309
cactusADM 1186 1186 1190 1305 1192 665 105 105 107 283 110 153
leslie3d 2472 2471 2472 2842 2482 1181 466 466 472 485 485 466
namd 447 447 470 484 496 423 444 444 467 487 494 423
dealII 693 652 700 712 724 465 374 373 386 392 405 358
soplex 1776 1776 1781 1801 1781 1022 574 567 577 575 599 572
povray 195 193 204 201 214 184 194 195 208 206 217 185
calculix 384 385 396 542 412 327 344 330 352 489 362 312
GemsFDTD 3041 3041 3051 3067 3056 1523 478 477 481 576 485 440
tonto 658 660 667 655 696 482 488 490 509 437 531 448
lbm 4171 4177 4031 4122 4038 1943 576 566 508 1845 509 490
wrf 1751 1753 1760 1765 1765 867 497 496 507 487 524 470
sphinx3 2225 2215 2228 2238 2247 1535 655 655 686 682 713 634

 

(単体コア性能)では、1ジョブだけ流し、終了までの経過時間により、単体コアの性能を評価。
★ (並行処理性能)では、搭載するコア数と同数のジョブを流し、終了までの経過時間により、システムのスループット性能を評価。

⇒ 各アプリ別で、(単体コア性能)と(並行処理性能)の比が小さい場合はスループット性能が高く、比が大きい場合はスループット性能が低い。
(シリアル処理で100秒の計算が、8並行処理で100秒なら、スループットは8倍で理想的)
(シリアル処理で100秒の計算が、8並行処理で400秒なら、スループットは2倍で非効率)
⇒ XeonとOpteronを比較するとアプリケーション毎に性能が大きく異なり、プロセッサの適否を判断。
(gamess、namd、gromacsなどはXeon、Opteron共に高性能、leslie3d、GemsFDTDなどはOpteronのみが高性能)
⇒ 並列計算の内部は、シリアル処理部、並行処理部、通信処理部から構成され、通信処理部を除いた部分まで評価可能。

※ 公開されているSPEC CFP2006、SPEC CFP2006 Ratesよりデータを抜粋しています。
※ SPEC CFP2006のジョブは1GB以下のメモリで動作しています。
※ インテルプロセッサにてFSBが未表記の場合はFSB1333MHzです。FSB1600MHzの場合は(F1600)、FSB1066MHzの場合は(F1066)と略記しています。

「アプリケーション特性」に即した計算機アーキテクチャ評価を表に展開

アプリケーション特性 計算機
アーキテクチャ
総合
評価
ジョブ
投入方法
評価 コメント
コメント CPU処理 メモリI/O
CPUの処理は複雑
速度はCPUクロックに比例
スループットはコア数に比例
データ入出力は少い

GAMESS、gromacs、namd
などはこのタイプの計算
複雑 45nm Q/C Xeon 単一 CPUは高速
並行 コア間のメモリ競合小 
CPU間のメモリ競合小 
45nm D/C Xeon 単一 CPUは高速
並行 コア間のメモリ競合小 
CPU間のメモリ競合小 
65nm Q/C Xeon 単一 CPUは少し低速 (CPU律速)
並行 コア間のメモリ競合小 
CPU間のメモリ競合小 
CPUの処理は単純
速度はCPUクロックに依存
データ入出力が多い
スループットは
FSB/メモリ帯域に依存
(メモリボトルネック)

CFDはメモリの影響中
GemsFDTDはメモリの影響大
単純 45nm Q/C Xeon 単一 CPUは高速
並行 X コア間のメモリ競合大 (コア間メモリ競合が律速)
CPU間のメモリ競合小 (コア間メモリ競合が律速 (2CPU2コア分の性能))
(チップセット性能が顕在化、メモリクロック効果は潜在的)
45nm D/C Xeon 単一 CPUは高速
並行 X コア間のメモリ競合大
CPU間のメモリ競合小 (コア間メモリ競合が律速 (2CPU2コア分の性能))
(チップセット性能が顕在化、メモリクロック効果は潜在的)
65nm Q/C Xeon 単一 CPUは少し低速
並行 × コア間のメモリ競合大
CPU間のメモリ競合小 (コア間メモリ競合が律速 (2CPU2コア分の性能))

 

計算機選定ベンチマークの基本はSPEC CFP2006の検討から

SPEC CFP2006について

「SPEC CFP2006」は計算機の機種選定において強力な判断材料を提供するベンチマークテストです。SPEC CFP2006は17種類の浮動小数点演算アプリケーションを用いて計算機のベンチマークを行っています。このベンチマークにより計算機の「速度」と「スループット」の測定結果を、それぞれ「平均値」と「個別値」として公開しています。さらに、計算機、OS、開発環境、コンパイル方法などの詳細な情報が公開されており、公平性と透明性に優れた利用しやすいベンマチークテストです。計算機の高度化によりメーカー単独での網羅的なベンチマークテストは困難ですが、公平性と透明性に優れたSPEC CFP2006の結果は横断的な利用が容易なため、偏りが少なく、かつ深く踏み込んだ計算機評価が可能となります。

「速度」と「スループット」

SPEC CFP2006では「速度」と「スループット」の2種類を測定しています。「SPECfp 2006」は「速度」の測定で、シリアルジョブを1ジョブ投入し経過時間を測定しています。「SPECfp rate2006」は「スループット」の測定で、シリアルジョブを複数ジョブ (搭載コア数と同数) 同時投入し平行処理の経過時間を測定しています。計算機選定ではこの「速度」と「スループット」の双方を評価して、真の性能を導き出すことが大切です。【資料: SPEC CFP2006ドキュメントへリンク

※「並行処理」 (スループット) と「並列計算」との関係
「並行処理」はそのまま実行されることもありますが、「並列計算」の一部として実行されることもあります。一般的に並列処理では、前処理/後処理、通信処理、並行処理が繰り返して実行されています。このなかで純粋に並列動作している箇所は「並行処理」部だけで、残りは非並列処理です。SPEC CFP2006ではこの「並行処理」 (スループット) を切り出した形で評価しています。また、前処理/後処理部は「速度」として評価されています。しかし通信処理の部分は評価されていません。

「平均値」と「個別値」

SPEC CFP2006での速度とスループットの値は、17種類のアプリケーションの結果を幾何平均した「平均値」と、個別のアプリケーションの経過時間の生の値「個別値」の双方が公開されており、目的に応じて使い分けができます。

計算機選定には「平均値」の利用を推奨

計算機の選定において、速度とスループットの「平均値」を基準とするか、あるいはアプリケーション毎の「個別値」を基準とするのかは判断に悩みます。そこで公開されているデータを調べたところ、「個別値」での性能は「アプリケーション特性」と「計算機アーキテクチャ特性」の影響により大きく変動していました。そのためピーク値だけに着目して計算機を選定すると、動作条件がピーク性能を発揮する領域から外れた場合に期待性能との乖離が大きくなることが予想されます。これに対して計算機の基本性能を忠実に反映させることを目的に設計された平均値は、この乖離を小さく抑えることができる優れた指標です。

個別のアプリケーションの経過時間「個別値」は計算機の深い検討に有用な指標

SPEC CFP2006による計算機選定の基本は平均値の利用です。しかし、ボトルネックの調査や、用途をピンポイントで絞った専用計算機の選定では、「個別値」の検討も大切な作業です。個別値は計算機を深く検討する際に有用な指標です。

「アプリケーション特性」を2つに区分して全体像を捉える

下の大きな表は、公開されている「SPECfp rate base2006: スループット」と「SPECfp base2006: 速度」の結果から、特定の計算機の評価に有用なデータを抜粋したものです。しかしこの表では、複数の要素が影響しているため理解が容易ではありません。そこで理解を助けるため「アプリケーション特性」に着目し、アプリケーションを「CPU処理が複雑 = メモリI/Oが少ない計算タイプ」と、「CPU処理が単純 = メモリI/Oが多い計算タイプ」の2種類に区分してみると、全体像が捉えやすくなります。

CPU処理が複雑 = メモリI/Oが少ない計算タイプ

GAMESS、gromacs、namdなどはこのタイプの計算になります。CPU処理が複雑なため、結果的にメモリI/Oが少なく、メモリボトルネックが発生しにくいタイプの計算です。シリアル処理の経過時間と、並行処理の経過時間との差は僅差です。CPUコア性能が高くクロック速度も高速な45nm Xeonはシリアル計算でも並行計算でも高性能を発揮しています。CPUコア性能が並でクロック速度も低いOpteronはシリアル計算速度が並となり、平行計算速度もシリアル計算速度の影響で並の性能となっています。

CPU処理が単純 = メモリI/Oが多い計算タイプ

流体計算や電磁界解析などはこのタイプの計算になります。CPU処理が単純なため、結果的にメモリI/Oが多く、メモリボトルネックが発生しやすいタイプの計算です。シリアル処理の経過時間と、並行処理の経過時間との差は非常に大きいです。