HPC-ProServer DPrR5400
45nmテクノロジ、高性能Xeonプロセッサ2CPU 4/8core搭載
ハイエンドグラフィクカードを2枚まで搭載可能
HPC利用可能なGPUを搭載可能
画像ハードウェア圧縮/伸張とPC-over-IPによる遠隔操作を実現
完成度の高いシステムセットアップにより導入後即座に利用可能
3年間の長期保証 (当日/翌日出張修理サービス、修理部品保証、
技術相談、運用支援、最長5年まで延長可)
| DPe-1950III | SPEC CFP2006 Rates (並行処理性能) | SPEC CFP2006 (単体コア性能) | ||||||||
| 製品 | DPr R5400 |
DPr T7400 |
DPe 1950III |
DPr R5400 |
DPr R5400 |
DPr R5400 |
DPr T7400 |
DPe 2900III |
DPr R5400 |
DPr R5400 |
| CPU | Xeon | Xeon | Xeon | Xeon | Xeon | Xeon | Xeon | Xeon | Xeon | Xeon |
| 製造プロセス | 45nm | 45nm | 45nm | 45nm | 45nm | 45nm | 45nm | 45nm | 45nm | 45nm |
| CPU番号 | X5450 | X5492 | X5470 | X5270 | X5270 | X5450 | X5492 | X5470 | X5270 | X5270 |
| CPUクロック(GHz) | 3.0GHz | 3.4GHz (F1600) |
3.33GHz | 3.50GHz | 3.50GHz | 3.0GHz | 3.4GHz (F1600) |
3.33GHz | 3.50GHz | 3.50GHz |
| チップセット | 5400 | 5400 | 5000X | 5400 | 5400 | 5400 | 5400 | 5000X | 5400 | 5400 |
| メモリ(MHz) | 667MHz | 800MHz | 667MHz | 667MHz | 667MHz | 667MHz | 800MHz | 667MHz | 667MHz | 667MHz |
| OS | WinVista | WinVis | Linux | WinVista | WinVista | WinVista | WinVis | Linux | WinVista | WinVista |
| コンパイラ | Intel10.1 | Intel11.0 | Intel11.0 | Intel11.0 | Intel10.1 | Intel10.1 | Intel11.0 | Intel11.0 | Intel11.0 | Intel10.1 |
| CPU 数 | 2 | 2 | 2 | 2 | 2 | 2 | 2 | 2 | 2 | 2 |
| コア数 | 4 | 4 | 4 | 2 | 2 | 4 | 4 | 4 | 2 | 2 |
| 総コア数 | 8 | 8 | 8 | 4 | 4 | 8 | 8 | 8 | 4 | 4 |
| 投入ジョブ数 | 8 | 8 | 8 | 4 | 4 | 1 | 1 | 1 | 1 | 1 |
| SPECfp base値→ 各経過時間(秒)↓ |
67.5 | 85.0 | 74.7 | 55.4 | 49.8 | 17.9 | 25.8 | 25.0 | 23.0 | 19.3 |
| bwaves |
3014 | 2507 | 3201 | 1468 | 1501 | 458 | 320 | 399 | 424 | 460 |
| gamess | 917 | 808 | 789 | 776 | 785 | 946 | 883 | 864 | 838 | 811 |
| milc | 2889 | 2173 | 1981 | 1457 | 1597 | 976 | 758 | 559 | 847 | 976 |
| zeusmp | 970 | 779 | 979 | 599 | 654 | 582 | 376 | 419 | 439 | 494 |
| gromacs | 372 | 325 | 350 | 308 | 318 | 363 | 311 | 324 | 304 | 312 |
| cactusADM | 1315 | 929 | 1186 | 705 | 859 | 340 | 141 | 105 | 223 | 385 |
| leslie3d | 2524 | 1840 | 2470 | 1155 | 1362 | 538 | 453 | 466 | 528 | 548 |
| namd | 515 | 444 | 448 | 424 | 442 | 514 | 434 | 444 | 423 | 441 |
| dealII | 891 | 628 | 654 | 544 | 693 | 723 | 452 | 374 | 451 | 627 |
| soplex | 1841 | 1587 | 1774 | 1074 | 1088 | 680 | 565 | 584 | 613 | 621 |
| povray | 233 | 201 | 193 | 193 | 198 | 232 | 197 | 196 | 191 | 197 |
| calculix | 586 | 363 | 388 | 345 | 496 | 564 | 339 | 331 | 331 | 485 |
| GemsFDTD | 2899 | 2210 | 3043 | 1461 | 1639 | 606 | 358 | 479 | 524 | 609 |
| tonto | 697 | 615 | 648 | 519 | 509 | 471 | 440 | 489 | 438 | 423 |
| lbm | 3785 | 2743 | 4025 | 1772 | 2634 | 1580 | 347 | 507 | 531 | 1651 |
| wrf | 1510 | 1309 | 1749 | 858 | 865 | 530 | 471 | 497 | 493 | 495 |
| sphinx3 | 2641 | 2215 | 2196 | 1543 | 1558 | 711 | 635 | 667 | 652 | 656 |
★ (単体コア性能)では、1ジョブだけ流し、終了までの経過時間により、単体コアの性能を評価。
★ (並行処理性能)では、搭載するコア数と同数のジョブを流し、終了までの経過時間により、システムのスループット性能を評価。
⇒ 各アプリ別で、(単体コア性能)と(並行処理性能)の比が小さい場合はスループット性能が高く、比が大きい場合はスループット性能が低い。
(シリアル処理で100秒の計算が、8並行処理で100秒なら、スループットは8倍で理想的)
(シリアル処理で100秒の計算が、8並行処理で400秒なら、スループットは2倍で非効率)
⇒ XeonとOpteronを比較するとアプリケーション毎に性能が大きく異なり、プロセッサの適否を判断。
(gamess、namd、gromacsなどはXeon、Opteron共に高性能、leslie3d、GemsFDTDなどはOpteronのみが高性能)
⇒ 並列計算の内部は、シリアル処理部、並行処理部、通信処理部から構成され、通信処理部を除いた部分まで評価可能。
※ 公開されているSPEC CFP2006、SPEC CFP2006 Ratesよりデータを抜粋しています。
※ SPEC CFP2006のジョブは1GB以下のメモリで動作しています。
※ インテルプロセッサにてFSBが未表記の場合はFSB1333MHzです。FSB1600MHzの場合は(F1600)、FSB1066MHzの場合は(F1066)と略記しています。
| アプリケーション特性 | 計算機 アーキテクチャ |
総合 評価 |
ジョブ 投入方法 |
評価 | コメント | ||
| コメント | CPU処理 | メモリI/O | |||||
| CPUの処理は複雑 速度はCPUクロックに比例 スループットはコア数に比例 データ入出力は少い GAMESS、gromacs、namd などはこのタイプの計算 |
複雑 | 少 | 45nm Q/C Xeon | ◎ | 単一 | ○ | CPUは高速 |
| 並行 | ○ | コア間のメモリ競合小 | |||||
| ◎ | CPU間のメモリ競合小 | ||||||
| 45nm D/C Xeon | △ | 単一 | ○ | CPUは高速 | |||
| 並行 | ○ | コア間のメモリ競合小 | |||||
| ○ | CPU間のメモリ競合小 | ||||||
| 65nm Q/C Xeon | △ | 単一 | △ | CPUは少し低速 (CPU律速) | |||
| 並行 | ○ | コア間のメモリ競合小 | |||||
| ○ | CPU間のメモリ競合小 | ||||||
| CPUの処理は単純 速度はCPUクロックに依存 データ入出力が多い スループットは FSB/メモリ帯域に依存 (メモリボトルネック) CFDはメモリの影響中 GemsFDTDはメモリの影響大 |
単純 | 多 | 45nm Q/C Xeon | ○ | 単一 | ○ | CPUは高速 |
| 並行 | X | コア間のメモリ競合大 (コア間メモリ競合が律速) | |||||
| ○ | CPU間のメモリ競合小 (コア間メモリ競合が律速 (2CPU2コア分の性能)) (チップセット性能が顕在化、メモリクロック効果は潜在的) |
||||||
| 45nm D/C Xeon | △ | 単一 | ○ | CPUは高速 | |||
| 並行 | X | コア間のメモリ競合大 | |||||
| ○ | CPU間のメモリ競合小 (コア間メモリ競合が律速 (2CPU2コア分の性能)) (チップセット性能が顕在化、メモリクロック効果は潜在的) |
||||||
| 65nm Q/C Xeon | △ | 単一 | △ | CPUは少し低速 | |||
| 並行 | × | コア間のメモリ競合大 | |||||
| ○ | CPU間のメモリ競合小 (コア間メモリ競合が律速 (2CPU2コア分の性能)) | ||||||
「SPEC CFP2006」は計算機の機種選定において強力な判断材料を提供するベンチマークテストです。SPEC CFP2006は17種類の浮動小数点演算アプリケーションを用いて計算機のベンチマークを行っています。このベンチマークにより計算機の「速度」と「スループット」の測定結果を、それぞれ「平均値」と「個別値」として公開しています。さらに、計算機、OS、開発環境、コンパイル方法などの詳細な情報が公開されており、公平性と透明性に優れた利用しやすいベンマチークテストです。計算機の高度化によりメーカー単独での網羅的なベンチマークテストは困難ですが、公平性と透明性に優れたSPEC CFP2006の結果は横断的な利用が容易なため、偏りが少なく、かつ深く踏み込んだ計算機評価が可能となります。
SPEC CFP2006では「速度」と「スループット」の2種類を測定しています。「SPECfp 2006」は「速度」の測定で、シリアルジョブを1ジョブ投入し経過時間を測定しています。「SPECfp rate2006」は「スループット」の測定で、シリアルジョブを複数ジョブ (搭載コア数と同数) 同時投入し並行処理の経過時間を測定しています。計算機選定ではこの「速度」と「スループット」の双方を評価して、真の性能を導き出すことが大切です。【資料: SPEC CFP2006ドキュメントへリンク】
※「並行処理」 (スループット) と「並列計算」との関係
「並行処理」はそのまま実行されることもありますが、「並列計算」の一部として実行されることもあります。一般的に並列処理では、前処理/後処理、通信処理、並行処理が繰り返して実行されています。このなかで純粋に並列動作している箇所は「並行処理」部だけで、残りは非並列処理です。SPEC CFP2006ではこの「並行処理」 (スループット) を切り出した形で評価しています。また、前処理/後処理部は「速度」として評価されています。しかし通信処理の部分は評価されていません。
SPEC CFP2006での速度とスループットの値は、17種類のアプリケーションの結果を幾何平均した「平均値」と、個別のアプリケーションの経過時間の生の値「個別値」の双方が公開されており、目的に応じて使い分けができます。
計算機の選定において、速度とスループットの「平均値」を基準とするか、あるいはアプリケーション毎の「個別値」を基準とするのかは判断に悩みます。そこで公開されているデータを調べたところ、「個別値」での性能は「アプリケーション特性」と「計算機アーキテクチャ特性」の影響により大きく変動していました。そのためピーク値だけに着目して計算機を選定すると、動作条件がピーク性能を発揮する領域から外れた場合に期待性能との乖離が大きくなることが予想されます。これに対して計算機の基本性能を忠実に反映させることを目的に設計された平均値は、この乖離を小さく抑えることができる優れた指標です。
SPEC CFP2006による計算機選定の基本は平均値の利用です。しかし、ボトルネックの調査や、用途をピンポイントで絞った専用計算機の選定では、「個別値」の検討も大切な作業です。個別値は計算機を深く検討する際に有用な指標です。
下の大きな表は、公開されている「SPECfp rate base2006: スループット」と「SPECfp base2006: 速度」の結果から、特定の計算機の評価に有用なデータを抜粋したものです。しかしこの表では、複数の要素が影響しているため理解が容易ではありません。そこで理解を助けるため「アプリケーション特性」に着目し、アプリケーションを「CPU処理が複雑 = メモリI/Oが少ない計算タイプ」と、「CPU処理が単純 = メモリI/Oが多い計算タイプ」の2種類に区分してみると、全体像が捉えやすくなります。
GAMESS、gromacs、namdなどはこのタイプの計算になります。CPU処理が複雑なため、結果的にメモリI/Oが少なく、メモリボトルネックが発生しにくいタイプの計算です。シリアル処理の経過時間と、並行処理の経過時間との差は僅差です。CPUコア性能が高くクロック速度も高速な45nm Xeonはシリアル計算でも並行計算でも高性能を発揮しています。CPUコア性能が並でクロック速度も低いOpteronはシリアル計算速度が並となり、並行計算速度もシリアル計算速度の影響で並の性能となっています。
流体計算や電磁界解析などはこのタイプの計算になります。CPU処理が単純なため、結果的にメモリI/Oが多く、メモリボトルネックが発生しやすいタイプの計算です。シリアル処理の経過時間と、並行処理の経過時間との差は非常に大きいです。