HPC-ProServer DPeM-Series (HPC Blade Server)
DPeM1000e: Blade Enclosure (Half Size Blade 16枚、Full Size Blade 8枚搭載可能)
DPeM610: Xeon 2socket 96GBメモリ Half Size Blade (16Blade 32CPU 128コア/筐体)
DPeM710: Xeon 2socket 144GBメモリ Full Size Blade (8Blade 16CPU 64コア/筐体)
DPeM605: Opteron 2socket 32GBメモリ Half Size Blade (16Blade 32CPU 128コア/筐体)
DPeM805: Opteron 2socket 64GBメモリ Full Size Blade (8Blade 16CPU 64コア/筐体)
DPeM905: Opteron 4socket 128GBメモリ Full Size Blade (8Blade 32CPU 128コア/筐体)
Xeon (Nehalem)、Opteron (Shanghai)に対応、低消費電力、省スペース、200V電源
DDR/QDR InfniBand対応、10GbE対応、ケーブルレス、集中管理、共通電源、KVMスイッチ
高い完成度のHPCシステムインテグレーションにて導入時からの本運用を実現
3年間の翌営業日オンサイト保守を標準提供、24時間365日当日4時間保守にも対応
| DPeM905 (Opteron 4way) |
SPEC CFP2006 Rates (並行処理性能) | SPEC CFP2006 (単体コア性能) | ||||||||
| 製品 | DPe M905 (blade) |
DPe M905 (blade) |
DPe M905 (blade) |
DPe M805 (M605) (blade) |
DPe R900 |
DPe M905 (blade) |
DPe M905 (blade) |
DPe M905 (blade) |
DPe M805 (M605) (blade) |
DPe R900 |
| CPU | Opteron (shanghai) |
Opteron (shanghai) |
Opteron | Opteron (shanghai) |
Xeon | Opteron (shanghai) |
Opteron (shanghai) |
Opteron | Opteron (shanghai) |
Xeon |
| 製造プロセス | 45nm | 45nm | 65nm | 45nm | 45nm | 45nm | 45nm | 65nm | 45nm | 45nm |
| CPU番号 | 8384 | 8378 | 8360SE | 2384 | X7460 | 8384 | 8356 | 8360SE | 2384 | X7460 |
| CPUクロック(GHz) (FSBクロック) |
2.7GHz | 2.4GHz | 2.5GHz | 2.7GHz | 2.66GHz | 2.7GHz | 2.4GHz | 2.5GHz | 2.7GHz | 2.66GHz |
| チップセット | - | - | - | - | 7300 | - | - | - | - | 7300 |
| メモリ(MHz) | 800MHz | 800MHz | 667MHz | 800MHz | 667MHz | 800MHz | 800MHz | 667MHz | 800MHz | 667MHz |
| OS | Linux | Linux | Linux | Linux | Linux | Linux | Linux | Linux | Linux | Linux |
| コンパイラ | PGI7.2 | PGI7.2 | PGI7.2 | PGI7.2 | Intel11.0 | PGI7.2 | PGI7.2 | PGI7.2 | PGI7.2 | Intel11.0 |
| CPU 数 | 4 | 4 | 4 | 2 | 4 | 4 | 4 | 4 | 2 | 4 |
| コア数 | 4 | 4 | 4 | 4 | 6 | 4 | 4 | 4 | 4 | 6 |
| 総コア数 | 16 | 16 | 16 | 8 | 24 | 16 | 16 | 16 | 8 | 24 |
| 投入ジョブ数 | 16 | 16 | 16 | 8 | 24 | 1 | 1 | 1 | 1 | 1 |
| SPECfp base値→ 各経過時間(秒)↓ |
189 | 172 | 152 | 104 | 142 | 18.3 | 17.0 | 14.1 | 18.5 | 22.0 |
| bwaves |
1437 | 1563 | 1849 | 1044 | 5198 | 552 | 606 | 669 | 552 | 289 |
| gamess | 1170 | 1316 | 1279 | 1168 | 991 | 1171 | 1318 | 1554 | 1168 | 1119 |
| milc | 1172 | 1280 | 1404 | 942 | 3172 | 468 | 505 | 557 | 472 | 811 |
| zeusmp | 721 | 787 | 858 | 653 | 1579 | 563 | 622 | 664 | 565 | 495 |
| gromacs | 476 | 535 | 619 | 472 | 464 | 468 | 526 | 635 | 457 | 405 |
| cactusADM | 898 | 970 | 1134 | 806 | 1929 | 579 | 625 | 963 | 575 | 73.3 |
| leslie3d | 1377 | 1517 | 1697 | 1154 | 4063 | 521 | 560 | 678 | 520 | 609 |
| namd | 619 | 696 | 698 | 618 | 563 | 618 | 695 | 806 | 617 | 553 |
| dealII | 646 | 711 | 862 | 594 | 1095 | 583 | 608 | 716 | 547 | 482 |
| soplex | 1075 | 1167 | 1356 | 930 | 2893 | 581 | 636 | 776 | 584 | 702 |
| povray | 302 | 339 | 343 | 301 | 246 | 300 | 338 | 338 | 299 | 244 |
| calculix | 476 | 532 | 556 | 466 | 550 | 456 | 512 | 566 | 455 | 424 |
| GemsFDTD | 1433 | 1552 | 1873 | 1340 | 5164 | 612 | 654 | 787 | 615 | 415 |
| tonto | 645 | 713 | 801 | 630 | 1159 | 573 | 640 | 709 | 573 | 690 |
| lbm | 1788 | 1864 | 2294 | 1777 | 8805 | 455 | 495 | 800 | 455 | 449 |
| wrf | 899 | 985 | 1066 | 817 | 2861 | 562 | 568 | 684 | 516 | 642 |
| sphinx3 | 1405 | 1554 | 2368 | 1119 | 4147 | 1033 | 922 | 1339 | 998 | 750 |
| DPeM805 DPeM605 (Opteron 2way) |
SPEC CFP2006 Rates (並行処理性能) | SPEC CFP2006 (単体コア性能) | ||||||||||
| 製品 | DPe M805 (M605) (blade) |
DPe M805 (M605) (blade) |
DPe M805 (M605) (blade) |
DPe M905 (blade) |
DPe M805 (M605) (blade) |
DPe M600 (blade) |
DPe M805 (M605) (blade) |
DPe M805 (M605) (blade) |
DPe (M805) M605 (blade) |
DPe M905 (blade) |
DPe M805 (M605) (blade) |
DPe M600 (blade) |
| CPU | Opteron (shanghai) |
Opteron (shanghai) |
Opteron (shanghai) |
Opteron (shanghai) |
Opteron | Xeon | Opteron (shanghai) |
Opteron (shanghai) |
Opteron (shanghai) |
Opteron (shanghai) |
Opteron | Xeon |
| 製造プロセス | 45nm | 45nm | 45nm | 45nm | 65nm | 45nm | 45nm | 45nm | 45nm | 45nm | 65nm | 45nm |
| CPU番号 | 2384 | 2378 | 2376 | 8384 | 2360SE | X5470 | 2384 | 2378 | 2376 | 8384 | 2360SE | X5470 |
| CPUクロック(GHz) (FSBクロック) |
2.7GHz | 2.4GHz | 2.3GHz | 2.7GHz | 2.5GHz | 3.33GHz | 2.7GHz | 2.4GHz | 2.3GHz | 2.7GHz | 2.5GHz | 3.33GHz |
| チップセット | - | - | - | - | - | 5000P | - | - | - | - | - | 5000P |
| メモリ(MHz) | 800MHz | 800MHz | 800MHz | 800MHz | 667MHz | 667MHz | 800MHz | 800MHz | 800MHz | 800MHz | 667MHz | 667MHz |
| OS | Linux | Linux | Linux | Linux | Linux | Linux | Linux | Linux | Linux | Linux | Linux | Linux |
| コンパイラ | PGI7.2 | PGI7.2 | PGI7.2 | PGI7.2 | PGI7.2 | Intel11.0 | PGI7.2 | PGI7.2 | PGI7.2 | PGI7.2 | PGI7.2 | Intel11.0 |
| CPU 数 | 2 | 2 | 2 | 4 | 2 | 2 | 2 | 2 | 2 | 4 | 2 | 2 |
| コア数 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 |
| 総コア数 | 8 | 8 | 8 | 16 | 8 | 8 | 8 | 8 | 8 | 16 | 8 | 8 |
| 投入ジョブ数 | 8 | 8 | 8 | 16 | 8 | 8 | 1 | 1 | 1 | 1 | 1 | 1 |
| SPECfp base値→ 各経過時間(秒)↓ |
104 | 97.5 | 95.5 | 189 | 81.9 | 74.2 | 18.5 | 16.9 | 16.6 | 18.3 | 13.7 | 24.9 |
| bwaves |
1044 | 1057 | 1060 | 1437 | 1416 | 3205 | 552 | 604 | 616 | 552 | 888 | 399 |
| gamess | 1168 | 1313 | 1370 | 1170 | 1271 | 789 | 1168 | 1314 | 1370 | 1171 | 1446 | 861 |
| milc | 942 | 950 | 951 | 1172 | 1219 | 1982 | 472 | 507 | 501 | 468 | 588 | 557 |
| zeusmp | 653 | 702 | 718 | 721 | 789 | 990 | 565 | 622 | 633 | 563 | 663 | 420 |
| gromacs | 472 | 531 | 554 | 476 | 607 | 349 | 457 | 525 | 547 | 468 | 663 | 324 |
| cactusADM | 806 | 854 | 868 | 898 | 1053 | 1186 | 575 | 625 | 636 | 579 | 918 | 105 |
| leslie3d | 1154 | 1168 | 1168 | 1377 | 1480 | 2472 | 520 | 559 | 563 | 521 | 679 | 466 |
| namd | 618 | 694 | 725 | 619 | 693 | 447 | 617 | 693 | 723 | 618 | 809 | 444 |
| dealII | 594 | 655 | 674 | 646 | 769 | 693 | 547 | 608 | 624 | 583 | 691 | 374 |
| soplex | 930 | 971 | 974 | 1075 | 1212 | 1776 | 584 | 635 | 631 | 581 | 781 | 574 |
| povray | 301 | 339 | 354 | 302 | 341 | 195 | 299 | 338 | 352 | 300 | 357 | 194 |
| calculix | 466 | 520 | 541 | 476 | 539 | 384 | 455 | 511 | 531 | 456 | 593 | 344 |
| GemsFDTD | 1340 | 1371 | 1371 | 1433 | 1792 | 3041 | 615 | 654 | 652 | 612 | 877 | 478 |
| tonto | 630 | 694 | 717 | 645 | 780 | 658 | 573 | 641 | 665 | 573 | 670 | 488 |
| lbm | 1777 | 1779 | 1778 | 1788 | 2339 | 4171 | 455 | 494 | 507 | 455 | 877 | 576 |
| wrf | 817 | 851 | 860 | 899 | 1001 | 1751 | 516 | 567 | 579 | 562 | 684 | 497 |
| sphinx3 | 1119 | 1186 | 1204 | 1405 | 1961 | 2225 | 998 | 1049 | 928 | 1033 | 1307 | 655 |
★ (単体コア性能)では、1ジョブだけ流し、終了までの経過時間により、単体コアの性能を評価。
★ (並行処理性能)では、搭載するコア数と同数のジョブを流し、終了までの経過時間により、システムのスループット性能を評価。
⇒ 各アプリ別で、(単体コア性能)と(並行処理性能)の比が小さい場合はスループット性能が高く、比が大きい場合はスループット性能が低い。
(シリアル処理で100秒の計算が、8並行処理で100秒なら、スループットは8倍で理想的)
(シリアル処理で100秒の計算が、8並行処理で400秒なら、スループットは2倍で非効率)
⇒ XeonとOpteronを比較するとアプリケーション毎に性能が大きく異なり、プロセッサの適否を判断。
(gamess、namd、gromacsなどはXeon、Opteron共に高性能、leslie3d、GemsFDTDなどはOpteronのみが高性能)
⇒ 並列計算の内部は、シリアル処理部、並行処理部、通信処理部から構成され、通信処理部を除いた部分まで評価可能。
※ 公開されているSPEC CFP2006、SPEC CFP2006 Ratesよりデータを抜粋しています。
※ SPEC CFP2006のジョブは1GB以下のメモリで動作しています。
※ インテルプロセッサにてFSBが未表記の場合はFSB1333MHzです。FSB1600MHzの場合は(F1600)、FSB1066MHzの場合は(F1066)と略記しています。
| アプリケーション特性 | 計算機 アーキテクチャ |
総合 評価 |
ジョブ 投入方法 |
評価 | コメント | ||
| コメント | CPU処理 | メモリI/O | |||||
| CPUの処理は複雑 速度はCPUクロックに比例 スループットはコア数に比例 データ入出力は少い GAMESS、gromacs、namd などはこのタイプの計算 |
複雑 | 少 | 45nm Q/C Xeon | ◎ | 単一 | ○ | CPUは高速 |
| 並行 | ○ | コア間のメモリ競合小 | |||||
| ◎ | CPU間のメモリ競合小 | ||||||
| 45nm D/C Xeon | △ | 単一 | ○ | CPUは高速 | |||
| 並行 | ○ | コア間のメモリ競合小 | |||||
| ○ | CPU間のメモリ競合小 | ||||||
| 65nm Q/C Xeon | △ | 単一 | △ | CPUは少し低速 (CPU律速) | |||
| 並行 | ○ | コア間のメモリ競合小 | |||||
| ○ | CPU間のメモリ競合小 | ||||||
| 45nm Q/C Opteron | ○ | 単一 | △ | CPUクロックが向上し性能が出る | |||
| CPU内並行 | ○ | コア間のメモリ競合なし | |||||
| System内並行 | ○ | CPU間のメモリ競合なし | |||||
| 65nm Q/C Opteron | △ | 単一 | × | CPUクロックが低く性能が出ない (CPUが総合性能を律速) | |||
| CPU内並行 | ○ | コア間のメモリ競合なし | |||||
| System内並行 | ○ | CPU間のメモリ競合なし | |||||
| 90nm D/C Opteron | △ | 単一 | × | CPUの性能が低い (CPUが総合性能を律速) | |||
| CPU内並行 | ○ | コア間のメモリ競合なし | |||||
| System内並行 | ○ | CPU間のメモリ競合なし | |||||
| CPUの処理は単純 速度はCPUクロックに依存 データ入出力が多い スループットは FSB/メモリ帯域に依存 (メモリボトルネック) CFDはメモリの影響中 GemsFDTDはメモリの影響大 |
単純 | 多 | 45nm Q/C Xeon | ○ | 単一 | ○ | CPUは高速 |
| 並行 | X | コア間のメモリ競合大 (コア間メモリ競合が律速) | |||||
| ○ | CPU間のメモリ競合小 (コア間メモリ競合が律速 (2CPU2コア分の性能)) (チップセット性能が顕在化、メモリクロック効果は潜在的) |
||||||
| 45nm D/C Xeon | △ | 単一 | ○ | CPUは高速 | |||
| 並行 | X | コア間のメモリ競合大 | |||||
| ○ | CPU間のメモリ競合小 (コア間メモリ競合が律速 (2CPU2コア分の性能)) (チップセット性能が顕在化、メモリクロック効果は潜在的) |
||||||
| 65nm Q/C Xeon | △ | 単一 | △ | CPUは少し低速 | |||
| 並行 | × | コア間のメモリ競合大 | |||||
| ○ | CPU間のメモリ競合小 (コア間メモリ競合が律速 (2CPU2コア分の性能)) | ||||||
| 45nm Q/C Opteron | ○ | 単一 | △ | CPUクロックが向上し性能が出る | |||
| CPU内並行 | ○ | コア間のメモリ競合なし | |||||
| System内並行 | ○ | CPU間のメモリ競合なし | |||||
| 65nm Q/C Opteron | △ | 単一 | △ | CPUクロックが低く性能が出ない (CPUが総合性能を律速) | |||
| CPU内並行 | △ | コア間のメモリ競合は中 (コア間メモリ競合が律速) | |||||
| System内並行 | ○ | CPU間のメモリ競合なし | |||||
| 90nm D/C Opteron | ○ | 単一 | △ | CPUの性能は低い (高クロックモデルを推奨) | |||
| CPU内並行 | ○ | コア間のメモリ競合なし | |||||
| System内並行 | ◎ | CPU間のメモリ競合なし | |||||
「SPEC CFP2006」は計算機の機種選定において強力な判断材料を提供するベンチマークテストです。SPEC CFP2006は17種類の浮動小数点演算アプリケーションを用いて計算機のベンチマークを行っています。このベンチマークにより計算機の「速度」と「スループット」の測定結果を、それぞれ「平均値」と「個別値」として公開しています。さらに、計算機、OS、開発環境、コンパイル方法などの詳細な情報が公開されており、公平性と透明性に優れた利用しやすいベンマチークテストです。計算機の高度化によりメーカー単独での網羅的なベンチマークテストは困難ですが、公平性と透明性に優れたSPEC CFP2006の結果は横断的な利用が容易なため、偏りが少なく、かつ深く踏み込んだ計算機評価が可能となります。
SPEC CFP2006では「速度」と「スループット」の2種類を測定しています。「SPECfp 2006」は「速度」の測定で、シリアルジョブを1ジョブ投入し経過時間を測定しています。「SPECfp rate2006」は「スループット」の測定で、シリアルジョブを複数ジョブ (搭載コア数と同数) 同時投入し平行処理の経過時間を測定しています。計算機選定ではこの「速度」と「スループット」の双方を評価して、真の性能を導き出すことが大切です。【資料: SPEC CFP2006ドキュメントへリンク】
※「並行処理」 (スループット) と「並列計算」との関係
「並行処理」はそのまま実行されることもありますが、「並列計算」の一部として実行されることもあります。一般的に並列処理では、前処理/後処理、通信処理、並行処理が繰り返して実行されています。このなかで純粋に並列動作している箇所は「並行処理」部だけで、残りは非並列処理です。SPEC CFP2006ではこの「並行処理」 (スループット) を切り出した形で評価しています。また、前処理/後処理部は「速度」として評価されています。しかし通信処理の部分は評価されていません。
SPEC CFP2006での速度とスループットの値は、17種類のアプリケーションの結果を幾何平均した「平均値」と、個別のアプリケーションの経過時間の生の値「個別値」の双方が公開されており、目的に応じて使い分けができます。
計算機の選定において、速度とスループットの「平均値」を基準とするか、あるいはアプリケーション毎の「個別値」を基準とするのかは判断に悩みます。そこで公開されているデータを調べたところ、「個別値」での性能は「アプリケーション特性」と「計算機アーキテクチャ特性」の影響により大きく変動していました。そのためピーク値だけに着目して計算機を選定すると、動作条件がピーク性能を発揮する領域から外れた場合に期待性能との乖離が大きくなることが予想されます。これに対して計算機の基本性能を忠実に反映させることを目的に設計された平均値は、この乖離を小さく抑えることができる優れた指標です。
SPEC CFP2006による計算機選定の基本は平均値の利用です。しかし、ボトルネックの調査や、用途をピンポイントで絞った専用計算機の選定では、「個別値」の検討も大切な作業です。個別値は計算機を深く検討する際に有用な指標です。
下の大きな表は、公開されている「SPECfp rate base2006: スループット」と「SPECfp base2006: 速度」の結果から、特定の計算機の評価に有用なデータを抜粋したものです。しかしこの表では、複数の要素が影響しているため理解が容易ではありません。そこで理解を助けるため「アプリケーション特性」に着目し、アプリケーションを「CPU処理が複雑 = メモリI/Oが少ない計算タイプ」と、「CPU処理が単純 = メモリI/Oが多い計算タイプ」の2種類に区分してみると、全体像が捉えやすくなります。
GAMESS、gromacs、namdなどはこのタイプの計算になります。CPU処理が複雑なため、結果的にメモリI/Oが少なく、メモリボトルネックが発生しにくいタイプの計算です。シリアル処理の経過時間と、並行処理の経過時間との差は僅差です。CPUコア性能が高くクロック速度も高速な45nm Xeonはシリアル計算でも並行計算でも高性能を発揮しています。CPUコア性能が並でクロック速度も低いOpteronはシリアル計算速度が並となり、平行計算速度もシリアル計算速度の影響で並の性能となっています。
流体計算や電磁界解析などはこのタイプの計算になります。CPU処理が単純なため、結果的にメモリI/Oが多く、メモリボトルネックが発生しやすいタイプの計算です。シリアル処理の経過時間と、並行処理の経過時間との差は非常に大きいです。