HPC-ProServer DPeR905
Hexa-Core / Quad-Core Opteron搭載の4socket HPCサーバ
最大256GBのメモリを搭載可能、最大5基のSASディスクを搭載可能
商用ジョブスケジューラLSF対応、冗長化電源、ホットプラグディスク、冗長化ストレージに対応
3年間の当日4時間オンサイト保守と部品保証を無償実施、技術・運用支援も無償実施
計算機の選定においてCPUクロック速度の選択はコストとの兼ね合いで悩みます。そこで、クロック速度の効果を確かめるため2.7GHz機と2.4GHz機の性能比較をアプリケーション別に行いました。ここで大切な指標は16並列処理のスループット性能です。さて、SPECfpを参照しての比較では、平均で約9%の性能向上が確認できます。ところがシステムの定価は4CPU + 64GBメモリ構成で比較すると約30%も高価となります。ですから絶対性能を優先する場合を除いてはコストパフォーマンスが高い2.4GHzモデルの選択がお勧めです。
参考として、単体コア性能の比較も行いました。表で比較すると単体コア性能向上がそのまま16平行処理性能向上に及んでおり、キャシュやメモリシステムの完成度の高さと、更にはAMDの選択したNUMA構造が良い選択であったことが理解できます。
| DPe-R905 | SPEC CFP2006
Rates
(並行処理性能) |
SPEC CFP2006 (単体コア性能) | ||||
| 製品 | DPe R905 |
2.7GHzと2.4GHzCPUの 16ジョブ平行実行時の 各アプリケーション別 経過時間増加率 |
DPe R905 |
2.7GHzと2.4GHzCPUの 1ジョブ実行時の 各アプリケーション別 経過時間増加率 |
||
| CPU | Opteron (shanghai) | Opteron (shanghai) | ||||
| 製造プロセス | 45nm | 45nm | ||||
| CPU番号 | 8384 | 8378 | 8384 | 8378 | ||
| CPUクロック(GHz) (FSBクロック) |
2.7GHz | 2.4GHz | 2.7GHz | 2.4GHz | ||
| チップセット | - | - | - | - | ||
| メモリ(MHz) | 800MHz | 800MHz | 800MHz | 800MHz | ||
| OS | Linux | Linux | Linux | Linux | ||
| コンパイラ | PGI7.2 | PGI7.2 | PGI7.2 | PGI7.2 | ||
| CPU 数 | 4 | 4 | 4 | 4 | ||
| コア数 | 4 | 4 | 4 | 4 | ||
| 総コア数 | 16 | 16 | 16 | 16 | ||
| 投入ジョブ数 | 16 | 16 | 1 | 1 | ||
| SPECfp base値→ 各経過時間(秒)↓ |
188 | 172 | 1.09 | 18.6 | 17.0 | 1.09 |
| bwaves | 1448 | 1563 | 1.08 | 556 | 606 | 1.09 |
| gamess | 1173 | 1316 | 1.12 | 1173 | 1318 | 1.12 |
| milc | 1183 | 1280 | 1.08 | 478 | 505 | 1.06 |
| zeusmp | 730 | 787 | 1.08 | 571 | 622 | 1.09 |
| gromacs | 478 | 535 | 1.12 | 469 | 526 | 1.12 |
| cactusADM | 916 | 970 | 1.06 | 580 | 625 | 1.08 |
| leslie3d | 1378 | 1517 | 1.10 | 526 | 560 | 1.06 |
| namd | 622 | 696 | 1.12 | 619 | 695 | 1.12 |
| dealII | 643 | 711 | 1.11 | 550 | 608 | 1.11 |
| soplex | 1090 | 1167 | 1.07 | 589 | 636 | 1.08 |
| povray | 302 | 339 | 1.12 | 301 | 338 | 1.12 |
| calculix | 477 | 532 | 1.12 | 457 | 512 | 1.12 |
| GemsFDTD | 1427 | 1552 | 1.09 | 622 | 653 | 1.05 |
| tonto | 645 | 713 | 1.11 | 573 | 640 | 1.12 |
| lbm | 1786 | 1864 | 1.04 | 460 | 495 | 1.08 |
| wrf | 904 | 985 | 1.09 | 520 | 568 | 1.09 |
| sphinx3 | 1426 | 1554 | 1.09 | 839 | 922 | 1.10 |
Opteron 4way 16コア機にて、メモリクロック周波数を667MHzと800MHzに変化させ、同時に16ジョブを投入し各アプリケーションの経過時間をSPECfpにて調べています。メモリクロック速度は1.2倍に高速化していますから、16並行処理では大きな効果が期待できそうです。
表の右欄は経過時間の増加率です。結果を見ると効果が得られるアプリケーションと得られないアプリケーションに分かれました。
※ 但しこの表では注意が必要です。SPECfpに用いているアプリケーションの多くはパフォーマンスチューニングを施されていることが考えられCPU律速となる傾向が強い半面メモリ速度へ依存度は低くなっているケースが含まれていると考えられます。ところが継続的な開発が続けられているユーザプログラムの多くは、開発効率やメンテナンス性に配慮し控えめなパフォーマンスチューニングしか行われていない場合も多く、その場合はメモリ律速の傾向が強くなるケースも考えられます。そのようなケースでは高速な800MHzメモリの効果的は大きくなります。(弊社のシステムは全て800MHzメモリを標準搭載しています。)
| DPe-R905 | SPEC CFP2006 Rates (並行処理性能) | SPEC CFP2006 (単体コア性能) (参考) |
||
| 製品 | DPe R905 |
同一CPUクロックの 新Opteronにて メモリクロック周波数を 800MHzと 667MHzにて 個別アプリの性能を比較 (経過時間の増加率) |
DPe R905 |
|
| CPU | Opteron (shanghai) | Opteron (shanghai) |
||
| 製造プロセス | 45nm | 45nm | ||
| CPU番号 | 8384 | 8384 | ||
| CPUクロック(GHz) | 2.7GHz | 2.7GHz | ||
| チップセット | - | - | ||
| メモリ(MHz) | 800MHz | 667MHz | 800MHz | |
| OS | Linux | Linux | ||
| コンパイラ | PGI7.2 | PGI7.2 | ||
| CPU 数 | 4 | 4 | ||
| コア数 | 4 | 4 | ||
| 総コア数 | 16 | 16 | ||
| 投入ジョブ数 | 16 | 1 | ||
| SPECfp base値→ 各経過時間(秒)↓ |
188 | 183 | 1.03 | 18.6 |
| bwaves | 1448 | 1453 | 1.00 | 556 |
| gamess | 1173 | 1173 | 1.00 | 1173 |
| milc | 1183 | 1178 | 1.00 | 478 |
| zeusmp | 730 | 749 | 1.03 | 571 |
| gromacs | 478 | 478 | 1.00 | 469 |
| cactusADM | 916 | 942 | 1.03 | 580 |
| leslie3d | 1378 | 1394 | 1.01 | 526 |
| namd | 622 | 621 | 1.00 | 619 |
| dealII | 643 | 649 | 1.01 | 550 |
| soplex | 1090 | 1134 | 1.04 | 589 |
| povray | 302 | 303 | 1.00 | 301 |
| calculix | 477 | 479 | 1.00 | 457 |
| GemsFDTD | 1427 | 1604 | 1.12 | 622 |
| tonto | 645 | 661 | 1.02 | 573 |
| lbm | 1786 | 2117 | 1.19 | 460 |
| wrf | 904 | 965 | 1.07 | 520 |
| sphinx3 | 1426 | 1438 | 1.01 | 839 |
同一クロックの新旧Opteronプロセッサを用いて、1ジョブ実行時の性能と16ジョブ並行処理時の性能を比較しました。新Opteron "Shanghai" を用いると1ジョブでも平均20%以上の性能向上があり、16ジョブ並行処理時のスループットも平均15%の伸びを示しています。個別のアプリケーションでは20%以上の性能向上がみられるものもあります。新Opteron "Shanghai" は高速です。6MBキャッシュの効果が大きいのかもわかりません。
| DPe-R905 | SPEC CFP2006
Rates
(並行処理性能) |
SPEC CFP2006 (単体コア性能) | ||||
| 製品 | DPe R905 |
新旧Opteronの 16ジョブ平行実行時の 各アプリケーション別 経過時間増加率 |
DPe R905 |
新旧Opteronの 1ジョブ実行時の 各アプリケーション別 経過時間増加率 |
||
| CPU | Opteron (shanghai) |
Opteron | Opteron (shanghai) |
Opteron | ||
| 製造プロセス | 45nm | 65nm | 45nm | 65nm | ||
| CPU番号 | 8380 | 8360SE | 8380 | 8360SE | ||
| CPUクロック(GHz) (FSBクロック) |
2.5GHz | 2.5GHz | 2.5GHz | 2.5GHz | ||
| チップセット | - | - | - | - | ||
| メモリ(MHz) (キャッシュ容量) |
800MHz (6MBcache) |
667MHz (2MBcache) |
800MHz (6MBcache) |
667MHz (2MBcache) |
||
| OS | Linux | Linux | Linux | Linux | ||
| コンパイラ | PGI7.2 | PGI7.2 | PGI7.2 | PGI7.2 | ||
| CPU 数 | 4 | 4 | 4 | 4 | ||
| コア数 | 4 | 4 | 4 | 4 | ||
| 総コア数 | 16 | 16 | 16 | 16 | ||
| 投入ジョブ数 | 16 | 16 | 1 | 1 | ||
| SPECfp base値→ 各経過時間(秒)↓ |
175 | 152 | 1.15 | 17.2 | 14.1 | 1.22 |
| bwaves | 1568 | 1849 | 1.18 | 594 | 669 | 1.13 |
| gamess | 1263 | 1279 | 1.01 | 1267 | 1554 | 1.23 |
| milc | 1284 | 1404 | 1.09 | 506 | 557 | 1.10 |
| zeusmp | 777 | 858 | 1.10 | 609 | 664 | 1.09 |
| gromacs | 515 | 619 | 1.20 | 507 | 635 | 1.25 |
| cactusADM | 964 | 1134 | 1.18 | 616 | 963 | 1.56 |
| leslie3d | 1505 | 1697 | 1.13 | 555 | 678 | 1.22 |
| namd | 669 | 698 | 1.04 | 669 | 806 | 1.20 |
| dealII | 695 | 862 | 1.24 | 593 | 716 | 1.21 |
| soplex | 1158 | 1356 | 1.17 | 705 | 776 | 1.10 |
| povray | 325 | 343 | 1.06 | 325 | 338 | 1.04 |
| calculix | 513 | 556 | 1.08 | 504 | 566 | 1.12 |
| GemsFDTD | 1546 | 1873 | 1.21 | 651 | 787 | 1.21 |
| tonto | 691 | 801 | 1.16 | 620 | 709 | 1.14 |
| lbm | 1866 | 2294 | 1.23 | 485 | 800 | 1.65 |
| wrf | 973 | 1066 | 1.10 | 555 | 684 | 1.23 |
| sphinx3 | 1525 | 2368 | 1.55 | 904 | 1339 | 1.48 |
単体コア性能ではXeonとOpteronは拮抗しています。ところがマルチジョブのスループットを比較するとOpteronの圧勝です。さらにシステムの価格差を考慮したコストパフォーマンスはOpteronは多くのアプリケーションで突出しています。しかし、Xeonが勝っているアプリケーションもあります。基本的にはアプリケーションよってXeonとOpteronを使い分ける必要があります。Gamess、Gromacs、NamdなどはXeonの牙城です。
| DPe-R905 | SPEC CFP2006
Rates
(並行処理性能) |
SPEC CFP2006 (単体コア性能) | |||||
| 製品 | DPe R905 |
DPe R900 |
新Opteron 16コア機と Xeon 24コア機 16ジョブ平行実行時の 各アプリケーション別 経過時間増加率 (コア数が異なるので Xeonの実行時間に 16/24を掛け簡易補正) |
価格 性能比 Xeon360万 Opte.270万 価格を加味 した評価 |
DPe R905 |
DPe R900 |
新Opteron 16コア機と Xeon 24コア機 1ジョブ実行時の 各アプリケーション別 経過時間増加率 |
| CPU | Opteron (shanghai) |
Xeon | Opteron (shanghai) |
Xeon | |||
| 製造プロセス | 45nm | 45nm | 45nm | 45nm | |||
| CPU番号 | 8378 | X7450 | 8378 | E7450 | |||
| CPUクロック(GHz) (FSBクロック) |
2.4GHz | 2.4GHz | 2.4GHz | 2.40GHz | |||
| チップセット | - | 7300 | - | 7300 | |||
| メモリ(MHz) (キャッシュ容量) |
800MHz | 667MHz | 800MHz | 667MHz | |||
| OS | Linux | Linux | Linux | Linux | |||
| コンパイラ | PGI7.2 | Intel11.0 | PGI7.2 | Intel11.0 | |||
| CPU 数 | 4 | 4 | 4 | 4 | |||
| コア数 | 4 | 6 | 4 | 6 | |||
| 総コア数 | 16 | 24 | 16 | 24 | |||
| 投入ジョブ数 | 16 | 24 | 1 | 1 | |||
| SPECfp base値→ 各経過時間(秒)↓ |
172 | 127 | 1.35 | 1.80 | 17.0 | 20.2 | 0.84 |
| bwaves | 1563 | 5731 | 2.44 | 3.25 | 606 | 302 | 0.50 |
| gamess | 1316 | 1101 | 0.56 | 0.75 | 1318 | 1234 | 0.94 |
| milc | 1280 | 3356 | 1.75 | 2.33 | 505 | 867 | 1.72 |
| zeusmp | 787 | 1719 | 1.46 | 1.95 | 622 | 532 | 0.86 |
| gromacs | 535 | 523 | 0.65 | 0.87 | 526 | 450 | 0.86 |
| cactusADM | 970 | 2100 | 1.44 | 1.92 | 625 | 77.1 | 0.12 |
| leslie3d | 1517 | 4390 | 1.93 | 2.57 | 560 | 661 | 1.18 |
| namd | 696 | 627 | 0.60 | 0.80 | 695 | 616 | 0.89 |
| dealII | 711 | 1235 | 1.16 | 1.55 | 608 | 529 | 0.87 |
| soplex | 1167 | 3307 | 1.89 | 2.52 | 636 | 817 | 1.28 |
| povray | 339 | 273 | 0.54 | 0.72 | 338 | 271 | 0.80 |
| calculix | 532 | 626 | 0.78 | 1.04 | 512 | 477 | 0.93 |
| GemsFDTD | 1552 | 5348 | 2.30 | 3.07 | 653 | 434 | 0.66 |
| tonto | 713 | 1419 | 1.33 | 1.77 | 640 | 760 | 1.19 |
| lbm | 1864 | 8966 | 3.21 | 4.28 | 495 | 449 | 0.91 |
| wrf | 985 | 3038 | 2.06 | 2.75 | 568 | 706 | 1.24 |
| sphinx3 | 1554 | 5682 | 2.44 | 3.25 | 922 | 852 | 0.92 |
新Opteron 4way機とXeon 4way機の価格表を比較目的で掲載しました。これは定価であり実勢価格とは異なりますが傾向は把握できます。Opteron 2.4GHz 4CPU 16コア 128GBメモリ機の270万円に対し、Xeon 2.4GHz 4CPU 24コア 128GBメモリ機は360万円ですからXeonは約1.3倍高価です。 この補正を上記の比較表に加えると上表の赤数字のようなコストパフォーマンス度が得られます。導入時のご参考にされたらいかがでしょうか。なおシステムの実勢価格は弊社営業までお問い合わせお願いします。
| HPC-ProServer DPeR905 (Opteron 4way) 標準価格 (価格には下記項目も含む) | |||||||||||
| DPeR905- | CPU 型番 |
クロック 周波数 |
Cache | CPU 総数 |
コア 総数 |
メモリ 周波数 |
メモリ 容量 |
メモリ 構成 |
SAS 15krpm |
サポート レベル |
販売価格 (税込) |
| 8384-4P32G | 8384 | 2.7GHz | 6MB | 4CPU | 16コア | 800MHz | 32GB | 4GBx8 | 146GB | 当日4H+ | 2,644,950 |
| 8384-4P64G | 8384 | 2.7GHz | 6MB | 4CPU | 16コア | 800MHz | 64GB | 4GBx16 | 146GB | 当日4H+ | 2,913,750 |
| 8384-4P128G | 8384 | 2.7GHz | 6MB | 4CPU | 16コア | 800MHz | 128GB | 4GBx32 | 146GB | 当日4H+ | 3,484,950 |
| 8384-4P256G | 8384 | 2.7GHz | 6MB | 4CPU | 16コア | 667MHz | 256GB | 8GBx32 | 146GB | 当日4H+ | 8,592,150 |
| 8380-4P32G | 8380 | 2.5GHz | 6MB | 4CPU | 16コア | 800MHz | 32GB | 4GBx8 | 146GB | 当日4H+ | 2,173,500 |
| 8380-4P64G | 8380 | 2.5GHz | 6MB | 4CPU | 16コア | 800MHz | 64GB | 4GBx16 | 146GB | 当日4H+ | 2,442,300 |
| 8380-4P128G | 8380 | 2.5GHz | 6MB | 4CPU | 16コア | 800MHz | 128GB | 4GBx32 | 146GB | 当日4H+ | 3,013,500 |
| 8380-4P256G | 8380 | 2.5GHz | 6MB | 4CPU | 16コア | 667MHz | 256GB | 8GBx32 | 146GB | 当日4H+ | 8,120,700 |
| 8378-4P32G | 8378 | 2.4GHz | 6MB | 4CPU | 16コア | 800MHz | 32GB | 4GBx8 | 146GB | 当日4H+ | 1,907,850 |
| 8378-4P64G | 8378 | 2.4GHz | 6MB | 4CPU | 16コア | 800MHz | 64GB | 4GBx16 | 146GB | 当日4H+ | 2,176,650 |
| 8378-4P128G | 8378 | 2.4GHz | 6MB | 4CPU | 16コア | 800MHz | 128GB | 4GBx32 | 146GB | 当日4H+ | 2,747,850 |
| 8378-4P256G | 8378 | 2.4GHz | 6MB | 4CPU | 16コア | 667MHz | 256GB | 8GBx32 | 146GB | 当日4H+ | 7,855,050 |
| HPC-ProServer DPeR900 (Xeon 4way) 標準価格 (価格には下記項目も含む) | |||||||||||||
| CPU 型番 |
クロック 周波数 |
L2cache /CPU |
L3cache /CPU |
コア数 /CPU |
CPU 総数 |
コア 総数 |
FSB 周波数 |
メモリ 周波数 |
メモリ 容量 |
メモリ 構成 |
ディスク 容量 |
サポート レベル |
販売価格 (税込) |
| X7460 | 2.66GHz | 3MBx3 | 16MB | 6コア | 4CPU | 24コア | 1066MHz | 667MHz | 32GB | 4GBx8 | 146GB | 当日4H+ | 3,035,550 |
| X7460 | 2.66GHz | 3MBx3 | 16MB | 6コア | 4CPU | 24コア | 1066MHz | 667MHz | 64GB | 4GBx16 | 146GB | 当日4H+ | 3,337,950 |
| X7460 | 2.66GHz | 3MBx3 | 16MB | 6コア | 4CPU | 24コア | 1066MHz | 667MHz | 96GB | 4GBx24 | 146GB | 当日4H+ | 3,468,150 |
| X7460 | 2.66GHz | 3MBx3 | 16MB | 6コア | 4CPU | 24コア | 1066MHz | 667MHz | 128GB | 4GBx32 | 146GB | 当日4H+ | 3,909,150 |
| X7460 | 2.66GHz | 3MBx3 | 16MB | 6コア | 4CPU | 24コア | 1066MHz | 667MHz | 256GB | 8GBx32 | 146GB | 当日4H+ | 11,569,950 |
| E7450 | 2.4GHz | 3MBx3 | 12MB | 6コア | 4CPU | 24コア | 1066MHz | 667MHz | 32GB | 4GBx8 | 146GB | 当日4H+ | 2,751,000 |
| E7450 | 2.4GHz | 3MBx3 | 12MB | 6コア | 4CPU | 24コア | 1066MHz | 667MHz | 64GB | 4GBx16 | 146GB | 当日4H+ | 3,053,400 |
| E7450 | 2.4GHz | 3MBx3 | 12MB | 6コア | 4CPU | 24コア | 1066MHz | 667MHz | 80GB | 4GBx20 | 146GB | 当日4H+ | 3,183,600 |
| E7450 | 2.4GHz | 3MBx3 | 12MB | 6コア | 4CPU | 24コア | 1066MHz | 667MHz | 128GB | 4GBx32 | 146GB | 当日4H+ | 3,624,600 |
| E7450 | 2.4GHz | 3MBx3 | 12MB | 6コア | 4CPU | 24コア | 1066MHz | 667MHz | 256GB | 8GBx32 | 146GB | 当日4H+ | 11,285,400 |
| E7420 | 2.13GHz | 3MBx2 | 8MB | 4コア | 4CPU | 16コア | 1066MHz | 667MHz | 32GB | 4GBx8 | 146GB | 当日4H+ | 1,919,400 |
| E7420 | 2.13GHz | 3MBx2 | 8MB | 4コア | 4CPU | 16コア | 1066MHz | 667MHz | 64GB | 4GBx16 | 146GB | 当日4H+ | 2,221,800 |
| E7420 | 2.13GHz | 3MBx2 | 8MB | 4コア | 4CPU | 16コア | 1066MHz | 667MHz | 80GB | 4GBx20 | 146GB | 当日4H+ | 2,352,000 |
| E7420 | 2.13GHz | 3MBx2 | 8MB | 4コア | 4CPU | 16コア | 1066MHz | 667MHz | 128GB | 4GBx32 | 146GB | 当日4H+ | 2,793,000 |
| E7420 | 2.13GHz | 3MBx2 | 8MB | 4コア | 4CPU | 16コア | 1066MHz | 667MHz | 256GB | 8GBx32 | 146GB | 当日4H+ | 10,453,800 |
SPEC CFP2006で利用されている浮動小数点演算アプリケーションの一覧。(公開されているSPEC CFP2006より転記しています。)
bwaves (Fortran) : Computational Fluid Dynamics
gamess (Fortran) : Quantum chemical computations
milc (C) : Physics/Quantum Chromodynamics
zeusmp (Fortran) : Physics/Magnetohydrodynamics
gromacs (Fortran and C) : Chemistry/Molecular Dynamics
cactusADM (Fortran and C) : Physics/General Relativity
leslie3d (Fortran) : Computational Fluid Dynamics
namd (C++) : Classical Molecular Dynamics Simulation
dealII (C++) : Adaptive Finite Element Method
soplex (C++) : Simplex Linear Program (LP) Solver
povray (C++) : Computer Visualization
calculix (Fortran and C) : Structural Mechanics
GemsFDTD (Fortran) : Computational Electromagnetics
tonto (Fortran) : Quantum Crystallography
lbm (C) : Computational Fluid Dynmaics
wrf (Fortran and C) : Weather Forecasting
sphinx3 (C) : Speech Recognition