HPC-ProServer DPeT605
45nmプロセス採用 Opteron 2way HPCサーバ、DDR2 800MHzメモリ搭載
最大32GBのメモリを搭載可能、最大4TB (1TB x4) ストレージ搭載可能
3年間の長期保証 (翌営業日オンサイト保守、部品保証、技術・運用支援) (最長5年まで延長可)
45nmプロセスを採用した新Opteron (開発コード "Shanghai") の特徴をご紹介します。まず最初にOpteronの特徴を復習します。最初の特徴はOpteronはCPUにメモリコントローラを内蔵することで、CPU数の増加に比例してメモリ帯域が増大することです。そのためメモリ性能に律速される傾向のアプリケーションを並行動作させた場合は、一般にXeonよりも高いスループットが得られます。次の特徴はOpteronはCPUの動作クロック周波数が低くCPU性能はXeonに大きく劣ります。そのため、CPU性能に律速される傾向のアプリケーションを並行動作させた場合のスループットはXeonが勝ります。
次に45nmプロセスの採用により改良された新Opteronをご紹介します。改良されたポイントとしてはCPUクロック速度の2.7GHzへの向上、キャッシュ容量の2MBから6MBへの増大、メモリクロック周波数の667MHzから800MHzへの向上の3点を挙げることができます。この改良の効果を確認するため、同一クロック速度での旧Opteron (65nm)と新Opteron (45nm)のアプリケーション別性能比較をSPECfp2006を用いて行います。
新旧Opteronは双方とも2.5GHzと同じクロック速度ですが、総合性能評価では約1.3倍もの差が出ています。詳細なアプリケーション別の比較でも1.1倍から1.8倍の性能向上が確認できました。キャッシュ容量の増大とメモリクロック周波数の効果が出ています。
| DPe-R805 | SPEC CFP2006 (単体コア性能) | ||
| 製品 | DPeR805 (T605) | DPeM805 | 同一クロックでの 旧Opteron (65nm)と 新Opteron (45nm)の アプリケーション別 性能比較 (比) |
| CPU | 新Opteron (shanghai) | 旧Opteron | |
| 製造プロセス | 45nm | 65nm | |
| CPU番号 | 2380 | 2360SE | |
| CPUクロック(GHz) | 2.5GHz | 2.5GHz | |
| チップセット | - | - | |
| メモリ(MHz) | 800MHz | 667MHz | |
| OS | Linux | Linux | |
| コンパイラ | PGI 7.2 | PGI 7.2 | |
| CPU 数 | 2 | 2 | |
| コア数 | 4 | 4 | |
| 総コア数 | 8 | 8 | |
| 投入ジョブ数 | 1 | 1 | |
| SPECfp base値→ 各経過時間(秒)↓ |
17.5 | 13.7 | 1.3 |
| bwaves | 590 | 888 | 1.5 |
| gamess | 1261 | 1446 | 1.1 |
| milc | 500 | 588 | 1.2 |
| zeusmp | 606 | 663 | 1.1 |
| gromacs | 504 | 663 | 1.3 |
| cactusADM | 612 | 918 | 1.5 |
| leslie3d | 550 | 679 | 1.2 |
| namd | 666 | 809 | 1.2 |
| dealII | 590 | 691 | 1.2 |
| soplex | 625 | 781 | 1.2 |
| povray | 324 | 357 | 1.1 |
| calculix | 492 | 593 | 1.2 |
| GemsFDTD | 646 | 877 | 1.4 |
| tonto | 616 | 670 | 1.1 |
| lbm | 482 | 877 | 1.8 |
| wrf | 552 | 684 | 1.2 |
| sphinx3 | 899 | 1307 | 1.5 |
さらに別の視点から性能評価を行うためOpteron 2.7GHzとXeon 3.4GHzの単体コア性能の比較を行いました。単体コア性能の比較では新Opteronを用いても最高速のXeonに大きく引き離され、約1.4倍の性能差が出ています。アプリケーション別にみても殆どのアプリケーションでXeonに負けています。単体コアは決して速くはありません。
| DPe-R805 | SPEC CFP2006 (単体コア性能) | ||
| 製品 | DPrT7400 | DPe T605 (R805) | 新Opteron 2.7GHz (45nm)と Xeon 3.4GHzの アプリケーション別 性能比較 (比) |
| CPU | Xeon | Opteron (shanghai) | |
| 製造プロセス | 45nm | 45nm | |
| CPU番号 | X5492 | 2384 | |
| CPUクロック(GHz) | 3.4GHz | 2.7GHz | |
| チップセット | 5400 | - | |
| メモリ(MHz) | 800MHz | 800MHz | |
| OS | WinVis | Linux | |
| コンパイラ | Intel11.0 | PGI 7.2 | |
| CPU 数 | 2 | 2 | |
| コア数 | 4 | 4 | |
| 総コア数 | 8 | 8 | |
| 投入ジョブ数 | 1 | 1 | |
| SPECfp base値→ 各経過時間(秒)↓ |
25.8 | 18.8 | 1.4 |
| bwaves | 320 | 548 | 1.7 |
| gamess | 883 | 1170 | 1.3 |
| milc | 758 | 460 | 0.6 |
| zeusmp | 376 | 563 | 1.5 |
| gromacs | 311 | 469 | 1.5 |
| cactusADM | 141 | 574 | 4.1 |
| leslie3d | 453 | 516 | 1.1 |
| namd | 434 | 617 | 1.4 |
| dealII | 452 | 546 | 1.2 |
| soplex | 565 | 576 | 1.0 |
| povray | 197 | 301 | 1.5 |
| calculix | 339 | 456 | 1.3 |
| GemsFDTD | 358 | 606 | 1.7 |
| tonto | 440 | 573 | 1.3 |
| lbm | 347 | 454 | 1.3 |
| wrf | 471 | 511 | 1.1 |
| sphinx3 | 635 | 827 | 1.3 |
上記のSPECfpによる単体コア性能だけをみると新OpteronはHPCには不向きに思えます。しかしSPECfpによるスループット性能の比較では様相が大きく変わり、Opteronの真価が遺憾なく発揮されています。
下の表は、OpteronとXeonを搭載した2wayマシンにより、8ジョブを並行処理した際の経過時間を、アプリケーション別に比較したものです。ここで注目していただきたい点は、価格がXeonの半額でしかない新Opteronが幾つかのアプリケーションに限ってですがXeonに対して1.5倍〜2.5倍のスループットを発揮しています。価格性能比ではXeonに対して2倍〜5倍もの大差をつけています。
| 製品 | DPeT605 (Opteron 2.3GHz 16GBメモリ) |
DPrT7400 (Xeon 3.4GHz 16GBメモリ) |
Xeon vs Opteron アプリ別 8ジョブ 並行処理 性能比 Opteronが Xeonより n倍高性能 |
価格 性能 比 |
| 税込みの定価 | 483,000 | 1,040,550 | ||
| CPU | Opteron (shanghai) | Xeon | ||
| 製造プロセス | 45nm | 45nm | ||
| CPU番号 | 2376 | X5492 | ||
| CPUクロック(GHz) (FSBクロック) |
2.3GHz | 3.4GHz (FSB1600) |
||
| チップセット | - | 5000X | ||
| メモリ(MHz) | 800MHz | 800MHz | ||
| OS | Linux | WinVis | ||
| コンパイラ | PGI7.2 | Intel11.0 | ||
| CPU 数 | 2 | 2 | ||
| コア数 | 2 | 4 | ||
| 総コア数 | 8 | 8 | ||
| 投入ジョブ数 | 8 | 8 | ||
| 各経過時間(秒)↓ | ||||
| bwaves | 1058 | 2507 | 2.4 | 5.1 |
| gamess | 1371 | 808 | 0.6 | 1.3 |
| milc | 949 | 2173 | 2.3 | 4.9 |
| zeusmp | 711 | 779 | 1.1 | 2.4 |
| gromacs | 553 | 325 | 0.6 | 1.3 |
| cactusADM | 859 | 929 | 1.1 | 2.3 |
| leslie3d | 1167 | 1840 | 1.6 | 3.4 |
| namd | 724 | 444 | 0.6 | 1.3 |
| dealII | 680 | 628 | 0.9 | 2.0 |
| soplex | 965 | 1587 | 1.6 | 3.5 |
| povray | 354 | 201 | 0.6 | 1.2 |
| calculix | 538 | 363 | 0.7 | 1.5 |
| GemsFDTD | 1353 | 2210 | 1.6 | 3.5 |
| tonto | 720 | 615 | 0.9 | 1.8 |
| lbm | 1779 | 2743 | 1.5 | 3.3 |
| wrf | 852 | 1309 | 1.5 | 3.3 |
| sphinx3 | 1193 | 2215 | 1.9 | 4.0 |
以下の表はOpteronとXeonのスループット性能向上の違いを明確に判断していただくため、各アプリケーション別に8コア並行処理の経過時間を1コア処理の経過時間で割ったものです。値が1に近いと性能が高いことを示し、値が大きくなり8に近づくにつれて性能が劣化していることを表しています。
第一印象はOpteronの性能劣化が少ないことです。これこそOpteron
| 製品 | DPe T605 | DPrT7400 | ||||
| CPU | Opteron (shanghai) |
Opteron 1ジョブ vs 8ジョブ 性能比較 |
Xeon | Xeon 1ジョブ vs 8ジョブ 性能比較 |
||
| 製造プロセス | 45nm | 45nm | ||||
| CPU番号 | 2376 | X5492 | ||||
| CPUクロック(GHz) (FSBクロック) |
2.3GHz | 3.4GHz (FSB1600) |
||||
| チップセット | - | 5000X | ||||
| メモリ(MHz) | 800MHz | 800MHz | ||||
| OS | Linux | WinVis | ||||
| コンパイラ | PGI7.2 | Intel11.0 | ||||
| CPU 数 | 2 | 2 | ||||
| コア数 | 2 | 4 | ||||
| 総コア数 | 8 | 8 | ||||
| 投入ジョブ数 | 8 | 1 | 8 | 1 | ||
| 各経過時間(秒)↓ | ||||||
| bwaves | 1058 | 614 | 1.7 | 2507 | 320 | 7.8 |
| gamess | 1371 | 1372 | 1.0 | 808 | 883 | 0.9 |
| milc | 949 | 500 | 1.9 | 2173 | 758 | 2.9 |
| zeusmp | 711 | 631 | 1.1 | 779 | 376 | 2.1 |
| gromacs | 553 | 548 | 1.0 | 325 | 311 | 1.0 |
| cactusADM | 859 | 637 | 1.3 | 929 | 141 | 6.6 |
| leslie3d | 1167 | 561 | 2.1 | 1840 | 453 | 4.1 |
| namd | 724 | 723 | 1.0 | 444 | 434 | 1.0 |
| dealII | 680 | 621 | 1.1 | 628 | 452 | 1.4 |
| soplex | 965 | 629 | 1.5 | 1587 | 565 | 2.8 |
| povray | 354 | 353 | 1.0 | 201 | 197 | 1.0 |
| calculix | 538 | 531 | 1.0 | 363 | 339 | 1.1 |
| GemsFDTD | 1353 | 648 | 2.1 | 2210 | 358 | 6.2 |
| tonto | 720 | 665 | 1.1 | 615 | 440 | 1.4 |
| lbm | 1779 | 508 | 3.5 | 2743 | 347 | 7.9 |
| wrf | 852 | 578 | 1.5 | 1309 | 471 | 2.8 |
| sphinx3 | 1193 | 926 | 1.3 | 2215 | 635 | 3.5 |
これまでの調査により、HPC-ProServer DPeT605はエントリークラスの2.3GHz機の8並行処理スループット性能が、最高性能のXeon 3.4GHz FSB1600MHz機よりも2倍程度高速 (価格性能比では4倍) に達するアプリケーションが何種類も存在しており、これらのアプリケーションや同じ傾向のアプリケーションの並列計算環境や平行計算環境として非常に優れていることが確認されました。
システムインテグレーションとしては、この計算機を単体で用いることはもちろん、ワイヤーラック等に搭載し、フロントエンド機に汎用のジョブスケジューラなどを実装した並列処理環境を構築することを推奨いたします。
商用アプリケーションで適当なサンプルを調べていましたら著名な流体計算アプリのFLUENTの12.0 betaのベンチマーク結果が公開されており、新旧OpteronとXeonの並列処理性能が比較されていました。その結果を拝見すると、1node 2CPU 8コア機による並列処理比較で、新Opteron 2.7GHz機はXeon 3.0GHz機に比肩する性能を発揮していました。
SPECfpベンチマークを用いてOpteronとXeonの性能比較を少し詳しく行いました。この比較は近い将来に発売される予定の、新しいアーキテクチャを採用した新Xeonプロセッサが登場した場合まで射程距離を伸ばしており、その性能の傾向をいち早く把握する際に有効です。
【資料】 SPEC CFP2006で利用されている浮動小数点演算アプリケーション一覧
(SPEC CFP2006より転記)
bwaves (Fortran) : Computational Fluid Dynamics
gamess (Fortran) : Quantum chemical computations
milc (C) : Physics/Quantum Chromodynamics
zeusmp (Fortran) : Physics/Magnetohydrodynamics
gromacs (Fortran and C) : Chemistry/Molecular Dynamics
cactusADM (Fortran and C) : Physics/General Relativity
leslie3d (Fortran) : Computational Fluid Dynamics
namd (C++) : Classical Molecular Dynamics Simulation
dealII (C++) : Adaptive Finite Element Method
soplex (C++) : Simplex Linear Program (LP) Solver
povray (C++) : Computer Visualization
calculix (Fortran and C) : Structural Mechanics
GemsFDTD (Fortran) : Computational Electromagnetics
tonto (Fortran) : Quantum Crystallography
lbm (C) : Computational Fluid Dynmaics
wrf (Fortran and C) : Weather Forecasting
sphinx3 (C) : Speech Recognition