HPC-ProServer DPeM-Series (HPC Blade Server)
DPeM1000e: Blade Enclosure (Half Size Blade 16枚、Full Size Blade 8枚搭載可能)
DPeM610: Xeon 2socket 96GBメモリ Half Size Blade (16Blade 32CPU 128コア/筐体)
DPeM710: Xeon 2socket 144GBメモリ Full Size Blade (8Blade 16CPU 64コア/筐体)
DPeM605: Opteron 2socket 32GBメモリ Half Size Blade (16Blade 32CPU 128コア/筐体)
DPeM805: Opteron 2socket 64GBメモリ Full Size Blade (8Blade 16CPU 64コア/筐体)
DPeM905: Opteron 4socket 128GBメモリ Full Size Blade (8Blade 32CPU 128コア/筐体)
Xeon (Nehalem)、Opteron (Shanghai)に対応、低消費電力、省スペース、200V電源
DDR/QDR InfniBand対応、10GbE対応、ケーブルレス、集中管理、共通電源、KVMスイッチ
高い完成度のHPCシステムインテグレーションにて導入時からの本運用を実現
3年間の翌営業日オンサイト保守を標準提供、24時間365日当日4時間保守にも対応
HPC-ProServer DPeMシリーズ用のブレードサーバは多用な用途に対応できるようにOpteron搭載のブレードが3種類、Xeon搭載のブレードが1種類用意されています。これらの特徴を紹介します。
Opteronでの2wayあるいは4way構成のどちらを採用すれば良いのかを明確にしておきたいと考えています。そこでSPECfpの調査を行いました。基本性能の確認のため表の右側にて、単体コアの性能を確認しました。単体コア性能はほとんど同じです。
その上で並行処理でのスループットを調べ、表の左側にまとめました。スループットが落ちている計算と、落ちていない計算があるようです。もし計算が並行処理中心であるならば、性能が高く価格の安い2way計算機を選択される方が良いことがわかります。
しかしノード内の並列計算を8並列から16並列の規模で行われる場合は4way機は良い選択です。もし16並列以上の並列計算を計画される場合は通信効率、計算処理性能、価格などを考慮すると2way機の選択が良いと思われます。このテスト結果はそのような判断の材料に利用できます。
| DPe-R905 | SPEC CFP2006
Rates
(並行処理性能) |
SPEC CFP2006 (単体コア性能) | ||||
| 製品 | DPe M905 (blade) |
DPe M805 (M605) (blade) |
新Opteron 16コア機と 新Opteron 8コア機の 搭載コア数と同数の ジョブを平行実行時の 各アプリケーション別 経過時間増加率 (コア数は異なりますが そのままで割り算) |
DPe M905 (blade) |
DPe M805 (M605) (blade) |
新Opteron 16コア機と 新Opteron 8コア機の 1ジョブ実行時の 各アプリケーション別 経過時間増加率 |
| CPU | Opteron (shanghai) |
Opteron (shanghai) |
Opteron (shanghai) |
Opteron (shanghai) |
||
| 製造プロセス | 45nm | 45nm | 45nm | 45nm | ||
| CPU番号 | 8384 | 2384 | 8384 | 2384 | ||
| CPUクロック(GHz) (FSBクロック) |
2.7GHz | 2.7GHz | 2.7GHz | 2.7GHz | ||
| チップセット | - | - | - | - | ||
| メモリ(MHz) (キャッシュ容量) |
800MHz | 800MHz | 800MHz | 800MHz | ||
| OS | Linux | Linux | Linux | Linux | ||
| コンパイラ | PGI7.2 | PGI7.2 | PGI7.2 | PGI7.2 | ||
| CPU 数 | 4 | 2 | 4 | 2 | ||
| コア数 | 4 | 4 | 4 | 4 | ||
| 総コア数 | 16 | 8 | 16 | 8 | ||
| 投入ジョブ数 | 16 | 8 | 1 | 1 | ||
| SPECfp base値→ 各経過時間(秒)↓ |
189 | 104 | 18.3 | 18.5 | ||
| bwaves | 1437 | 1044 | 1.38 | 552 | 552 | 1.00 |
| gamess | 1170 | 1168 | 1.00 | 1171 | 1168 | 1.00 |
| milc | 1172 | 942 | 1.24 | 468 | 472 | 0.99 |
| zeusmp | 721 | 653 | 1.10 | 563 | 565 | 1.00 |
| gromacs | 476 | 472 | 1.01 | 468 | 457 | 1.02 |
| cactusADM | 898 | 806 | 1.11 | 579 | 575 | 1.01 |
| leslie3d | 1377 | 1154 | 1.19 | 521 | 520 | 1.00 |
| namd | 619 | 618 | 1.00 | 618 | 617 | 1.00 |
| dealII | 646 | 594 | 1.09 | 583 | 547 | 1.07 |
| soplex | 1075 | 930 | 1.16 | 581 | 584 | 0.99 |
| povray | 302 | 301 | 1.00 | 300 | 299 | 1.00 |
| calculix | 476 | 466 | 1.02 | 456 | 455 | 1.00 |
| GemsFDTD | 1433 | 1340 | 1.07 | 612 | 615 | 1.00 |
| tonto | 645 | 630 | 1.02 | 573 | 573 | 1.00 |
| lbm | 1788 | 1777 | 1.01 | 455 | 455 | 1.00 |
| wrf | 899 | 817 | 1.10 | 562 | 516 | 1.09 |
| sphinx3 | 1405 | 1119 | 1.26 | 1033 | 998 | 1.04 |
折角なので2way機での2.7GHzと2.4GHzの価格性能比も調べてみます。2way Half Size Bladeの16GBメモリ構成での2.7GHzの定価は約96万円、2.4GHzの定価は約76万円なので約1.26倍ほど高価です。しかしクロック速度比は約1.13倍の高速化ですから、速度への期待は薄いです。さて8並行処理のスループットを比較すると、平均値では約1.06倍しか高速化されていません。そこで個別値を参照すると全く高速化されていないものから、ほぼクロック速度向上に比例して性能向上しているものまであります。個人や研究室レベルで利用するHPC計算機の多くは特定のアプリケーションの専用機として利用されることが多いので、平均値よりも個別のアプリケーションでの効率が重要です。
しかし最も高速なアプリケーションでもクロック速度の向上率が上限ですから2.4GHzのプロセッサを選択したほうが良さそうです。もし並列計算を行われるなら、安くなった分の費用もあわせて高速なInfiniBandの導入に費やすことは検討に値すると考えられます。
| DPe-R905 | SPEC CFP2006
Rates
(並行処理性能) |
SPEC CFP2006 (単体コア性能) | ||||
| 製品 | DPe M805 (M605) (blade) |
2.7GHzと2.4GHzCPUの 16ジョブ平行実行時の 各アプリケーション別 経過時間増加率 2.7GHz 96万円 104spec 2.4GHz 76万円 97.5spec 2.7/2.4=1.13 96/76=1.26 104/97.5=1.06 |
DPe M805 (M605) (blade) |
2.7GHzと2.4GHzCPUの 1ジョブ実行時の 各アプリケーション別 経過時間増加率 2.7/2.4=1.13 |
||
| CPU | Opteron (shanghai) | Opteron (shanghai) | ||||
| 製造プロセス | 45nm | 45nm | ||||
| CPU番号 | 2384 | 2378 | 2384 | 2378 | ||
| CPUクロック(GHz) (FSBクロック) |
2.7GHz | 2.4GHz | 2.7GHz | 2.4GHz | ||
| チップセット | - | - | - | - | ||
| メモリ(MHz) | 800MHz | 800MHz | 800MHz | 800MHz | ||
| OS | Linux | Linux | Linux | Linux | ||
| コンパイラ | PGI7.2 | PGI7.2 | PGI7.2 | PGI7.2 | ||
| CPU 数 | 2 | 2 | 2 | 2 | ||
| コア数 | 4 | 4 | 4 | 4 | ||
| 総コア数 | 8 | 8 | 8 | 8 | ||
| 投入ジョブ数 | 8 | 8 | 1 | 1 | ||
| SPECfp base値→ 各経過時間(秒)↓ |
104 | 97.5 | 1.06 | 18.5 | 16.9 | 1.10 |
| bwaves | 1044 | 1057 | 1.01 | 552 | 604 | 1.09 |
| gamess | 1168 | 1313 | 1.12 | 1168 | 1314 | 1.13 |
| milc | 942 | 950 | 1.01 | 472 | 507 | 1.07 |
| zeusmp | 653 | 702 | 1.08 | 565 | 622 | 1.10 |
| gromacs | 472 | 531 | 1.13 | 457 | 525 | 1.15 |
| cactusADM | 806 | 854 | 1.06 | 575 | 625 | 1.09 |
| leslie3d | 1154 | 1168 | 1.01 | 520 | 559 | 1.08 |
| namd | 618 | 694 | 1.12 | 617 | 693 | 1.12 |
| dealII | 594 | 655 | 1.10 | 547 | 608 | 1.11 |
| soplex | 930 | 971 | 1.04 | 584 | 635 | 1.09 |
| povray | 301 | 339 | 1.13 | 299 | 338 | 1.13 |
| calculix | 466 | 520 | 1.12 | 455 | 511 | 1.12 |
| GemsFDTD | 1340 | 1371 | 1.02 | 615 | 654 | 1.06 |
| tonto | 630 | 694 | 1.10 | 573 | 641 | 1.12 |
| lbm | 1777 | 1779 | 1.00 | 455 | 494 | 1.09 |
| wrf | 817 | 851 | 1.04 | 516 | 567 | 1.10 |
| sphinx3 | 1119 | 1186 | 1.06 | 998 | 1049 | 1.05 |
Xeon 3.33GHz 16GBメモリ機は定価で113万円です。これに対してOpteron 2.4GHz機は76万円と安価です。そこで両者のスループットを比較してみます。すると、一部のアプリケーションではXeonが優れ、一部のアプリケーションではOpteronが優れています。さらに価格性能比で評価するとXeonでも良いですが、Opteronは圧勝しています。"Shanghai"世代になってようやくOpteronの真価が顕在化してきました。
| DPe-R905 | SPEC CFP2006
Rates
(並行処理性能) |
SPEC CFP2006 (単体コア性能) | |||||
| 製品 | DPe M805 (M605) (blade) |
DPe M600 (blade) |
2.4GHz Opteronと 3.33GHz Xeonの 16ジョブ平行実行時の 各アプリケーション別 経過時間増加率 |
価格 性能 比 |
DPe M805 (M605) (blade) |
DPe M600 (blade) |
2.4GHz Opteronと 3.33GHz Xeonの 1ジョブ実行時の 各アプリケーション別 経過時間増加率 |
| CPU | Opteron (shanghai) |
Xeon | Opteron (shanghai) |
Xeon | |||
| 製造プロセス | 45nm | 45nm | 45nm | 45nm | |||
| CPU番号 | 2378 | X5470 | 2378 | X5470 | |||
| CPUクロック(GHz) (FSBクロック) |
2.4GHz | 3.33GHz | 2.4GHz | 3.33GHz | |||
| チップセット | - | 5000P | - | 5000P | |||
| メモリ(MHz) | 800MHz | 667MHz | 800MHz | 667MHz | |||
| OS | Linux | Linux | Linux | Linux | |||
| コンパイラ | PGI7.2 | Intel11.0 | PGI7.2 | Intel11.0 | |||
| CPU 数 | 2 | 2 | 2 | 2 | |||
| コア数 | 4 | 4 | 4 | 4 | |||
| 総コア数 | 8 | 8 | 8 | 8 | |||
| 投入ジョブ数 | 8 | 8 | 1 | 1 | |||
| SPECfp base値→ 各経過時間(秒)↓ |
97.5 | 74.2 | 1.31 | 1.95 | 16.9 | 24.9 | 0.68 |
| bwaves | 1057 | 3205 | 3.03 | 4.51 | 604 | 399 | 0.66 |
| gamess | 1313 | 789 | 0.60 | 0.89 | 1314 | 861 | 0.66 |
| milc | 950 | 1982 | 2.09 | 3.10 | 507 | 557 | 1.10 |
| zeusmp | 702 | 990 | 1.41 | 2.10 | 622 | 420 | 0.68 |
| gromacs | 531 | 349 | 0.66 | 0.98 | 525 | 324 | 0.62 |
| cactusADM | 854 | 1186 | 1.39 | 2.06 | 625 | 105 | 0.17 |
| leslie3d | 1168 | 2472 | 2.12 | 3.15 | 559 | 466 | 0.83 |
| namd | 694 | 447 | 0.64 | 0.96 | 693 | 444 | 0.64 |
| dealII | 655 | 693 | 1.06 | 1.57 | 608 | 374 | 0.62 |
| soplex | 971 | 1776 | 1.83 | 2.72 | 635 | 574 | 0.90 |
| povray | 339 | 195 | 0.58 | 0.86 | 338 | 194 | 0.57 |
| calculix | 520 | 384 | 0.74 | 1.10 | 511 | 344 | 0.67 |
| GemsFDTD | 1371 | 3041 | 2.22 | 3.30 | 654 | 478 | 0.73 |
| tonto | 694 | 658 | 0.95 | 1.41 | 641 | 488 | 0.76 |
| lbm | 1779 | 4171 | 2.34 | 3.49 | 494 | 576 | 1.17 |
| wrf | 851 | 1751 | 2.06 | 3.06 | 567 | 497 | 0.88 |
| sphinx3 | 1186 | 2225 | 1.88 | 2.79 | 1049 | 655 | 0.62 |
ブレードサーバと通常サーバはSPECfpテストにより相違が少ないことが確認できています。そこで、既に行った通常サーバの検討を参考にしても問題はありません。以下のリンクにある他のページも参考にしてください。
SPECfpでは、シリアルジョブの性能テストと、搭載コア数と同数のジョブを並行処理させた場合の経過時間によるスループット性能テストを行っています。最近のLinux OSはマルチコア環境にも対応しており、複数のジョブを投入すると、搭載されているCPUとコアの構成に応じて最適なジョブ投入順序を選択し、理想的なパターンでの実行となっています。その結果、Opteronのようなメモリバス非共有型のアーキテクチャで懸念されるローカルメモリとリモートメモリでのメモリ帯域の差やメモリレイテンシーの違いなどによる性能低下は抑えられていました。
ところが、並列処理を行う際にはCPU間でのデータ共有が必要なため、リモートメモリをアクセスする場合があり、この頻度が増えると計算性能に影響を与えるようになることが考えられます。しかし最初に述べましたようにSPECfpはCPU間のデータ通信性能をテスト評価するようには設計されていません。もし、小さなデータを高い頻度でCPU間通信させる必要があるようなアプリケーションをご利用でしたら、この点には注意が必要です。
現在の並列化は数値演算ライブラリ並列、OpenMP並列、MPI並列が階層的に利用されるようになってきています。これからの計算機のメモリシステムはNUMAが採用されてゆきますが、その計算機を利用する際のメモリ速度の不均一さは、階層的な並列化の最適化によってクリアされてゆくと考えられています。
(単体コア性能)では、1ジョブだけ流し、終了までの経過時間により、単体コアの性能を評価。
★ (並行処理性能)では、搭載するコア数と同数のジョブを流し、終了までの経過時間により、システムのスループット性能を評価。
⇒ 各アプリ別で、(単体コア性能)と(並行処理性能)の比が小さい場合はスループット性能が高く、比が大きい場合はスループット性能が低い。
(シリアル処理で100秒の計算が、8並行処理で100秒なら、スループットは8倍で理想的)
(シリアル処理で100秒の計算が、8並行処理で400秒なら、スループットは2倍で非効率)
⇒ XeonとOpteronを比較するとアプリケーション毎に性能が大きく異なり、プロセッサの適否を判断。
(gamess、namd、gromacsなどはXeon、Opteron共に高性能、leslie3d、GemsFDTDなどはOpteronのみが高性能)
⇒ 並列計算の内部は、シリアル処理部、並行処理部、通信処理部から構成され、通信処理部を除いた部分まで評価可能。
※ 公開されているSPEC CFP2006、SPEC CFP2006 Ratesよりデータを抜粋しています。
※ SPEC CFP2006のジョブは1GB以下のメモリで動作しています。
※ インテルプロセッサにてFSBが未表記の場合はFSB1333MHzです。FSB1600MHzの場合は(F1600)、FSB1066MHzの場合は(F1066)と略記しています。