お問い合わせ | 導入事例 | HPC計算機 | 管理サーバ/ファイルサーバ | オプション | OS/開発環境 | アプリ | システム構築 | サポート | FAQ | ベンチ | 技術情報 | 購入案内
⇒ プロセッサ番号一覧表
S.B. Xeon Rack Server
DPeR210II 1S 32GB 2HD 価格
DPeR620 2S 768GB 10HD 1U 価格
DPeR720 2S 768GB 16HD 2U 価格
DPeR820 4S 1536GB 16D 2U 価格
S.B. Xeon Tower Server
DPeT620 2S 768GB 32HD 5U 価格
S.B Xeon WorkStation
DPrT1600 1S 16GB 2HD 価格
S.B. Xeon Blade Server
Blade Enclosure DPeM1000e 価格
DPeM620 2S 512GB 2HD 価格
 
Xeon Rack Server
DPeR410 2S 96GB 4HD 1U 価格
DPeR610 2S 192GB 8HD 1U 価格
DPeR710 2S 288GB 8HD 2U 価格
DPeR910 4S 2TB 16HD 4U 価格
Xeon Tower Server
DPeT410 2S 96GB 6HD 価格
DPeT610 2S 192GB 8HD 価格
DPeT710 2S 192GB 16HD 価格
Xeon WorkStation
DPrT3500 1S 24GB 3HD 価格
DPrT5500 2S 48GB 4HD 価格
DPrT7500 2S 192GB 4HD 価格
Opteron Rack Server
DPeR715 2S 512GB 6HD 2U 価格
DPeR815 4S 1024GB 6HD 2U 価格
Xeon/Opteron Blade Server
Blade Enclosure DPeM1000e 価格
DPeM610 2S 192GB 2HD 価格
DPeM610X 2S 192GB GPGPU 価格
DPeM710 2S 288GB 4HD 価格
DPeM915 4S Opteron 512GB 価格
GPGPU System
Tesla C2050 WS (T7500)
Tesla S2050 Cluster (R410/R610)
Tesla M2050 HD Cluster (C410x)
Tesla M2050 Blade (M610X)
Host/File Server (Rack)
FS R410 2S 2TBx4HD 1U 価格
FS R610 2S 1TBx6HD 1U 価格
FS R710 2S 1TBx8HD 2U 価格
FS R510 2S 2TBx12HD 2U 価格
Host/File Server (Tower)
FS T410 2S 2TBx6HD 価格
FS T610 2S 2TBx8HD 価格
FS T710 2S 1TBx16HD 価格
Storage Rack Enclosure
DPvMD1200 DAS 12x3TB HDD 価格
DPvMD1220 DAS 24x1TB HDD 価格
DPvMD32xx RAID 12HD/24HD 価格
DPvMD32xxi RAID 12HD/24HD 価格
⇒ 研究室のストレージ構築法
⇒ インテルコンパイラ価格表
r905

HPC-ProServer DPeR905

Hexa-Core / Quad-Core Opteron搭載の4socket HPCサーバ
最大256GBのメモリを搭載可能、最大5基のSASディスクを搭載可能
商用ジョブスケジューラLSF対応、
冗長化電源、ホットプラグディスク、冗長化ストレージに対応
3年間の当日4時間オンサイト保守と部品保証を無償実施、技術・運用支援も無償実施

製品特長 | 基本性能 | 性能評価 | システム構築 | 構成例 | 導入事例 | サポート | 価格 | 仕様 | カタログ

16並列時のCPUクロック速度の効果

計算機の選定においてCPUクロック速度の選択はコストとの兼ね合いで悩みます。そこで、クロック速度の効果を確かめるため2.7GHz機と2.4GHz機の性能比較をアプリケーション別に行いました。ここで大切な指標は16並列処理のスループット性能です。さて、SPECfpを参照しての比較では、平均で約9%の性能向上が確認できます。ところがシステムの定価は4CPU + 64GBメモリ構成で比較すると約30%も高価となります。ですから絶対性能を優先する場合を除いてはコストパフォーマンスが高い2.4GHzモデルの選択がお勧めです。

参考として、単体コア性能の比較も行いました。表で比較すると単体コア性能向上がそのまま16平行処理性能向上に及んでおり、キャシュやメモリシステムの完成度の高さと、更にはAMDの選択したNUMA構造が良い選択であったことが理解できます。

DPe-R905 SPEC CFP2006 Rates (並行処理性能)
SPEC CFP2006 (単体コア性能)
製品 DPe
R905
2.7GHzと2.4GHzCPUの
16ジョブ平行実行時の
各アプリケーション別
経過時間増加率
DPe
R905
2.7GHzと2.4GHzCPUの
1ジョブ実行時の
各アプリケーション別
経過時間増加率
CPU Opteron (shanghai) Opteron (shanghai)
製造プロセス 45nm 45nm
CPU番号 8384 8378 8384 8378
CPUクロック(GHz)
(FSBクロック)
2.7GHz 2.4GHz 2.7GHz 2.4GHz
チップセット - - - -
メモリ(MHz) 800MHz 800MHz 800MHz 800MHz
OS Linux Linux Linux Linux
コンパイラ PGI7.2 PGI7.2 PGI7.2 PGI7.2
CPU 数 4 4 4 4
コア数 4 4 4 4
総コア数 16 16 16 16
投入ジョブ数 16 16 1 1
SPECfp base値→
各経過時間(秒)↓
188 172 1.09 18.6 17.0 1.09
bwaves 1448 1563 1.08 556 606 1.09
gamess 1173 1316 1.12 1173 1318 1.12
milc 1183 1280 1.08 478 505 1.06
zeusmp 730 787 1.08 571 622 1.09
gromacs 478 535 1.12 469 526 1.12
cactusADM 916 970 1.06 580 625 1.08
leslie3d 1378 1517 1.10 526 560 1.06
namd 622 696 1.12 619 695 1.12
dealII 643 711 1.11 550 608 1.11
soplex 1090 1167 1.07 589 636 1.08
povray 302 339 1.12 301 338 1.12
calculix 477 532 1.12 457 512 1.12
GemsFDTD 1427 1552 1.09 622 653 1.05
tonto 645 713 1.11 573 640 1.12
lbm 1786 1864 1.04 460 495 1.08
wrf 904 985 1.09 520 568 1.09
sphinx3 1426 1554 1.09 839 922 1.10

 

Opteron "shanghai" での800MHz高速メモリの効果

Opteron 4way 16コア機にて、メモリクロック周波数を667MHzと800MHzに変化させ、同時に16ジョブを投入し各アプリケーションの経過時間をSPECfpにて調べています。メモリクロック速度は1.2倍に高速化していますから、16並行処理では大きな効果が期待できそうです。

表の右欄は経過時間の増加率です。結果を見ると効果が得られるアプリケーションと得られないアプリケーションに分かれました。

※ 但しこの表では注意が必要です。SPECfpに用いているアプリケーションの多くはパフォーマンスチューニングを施されていることが考えられCPU律速となる傾向が強い半面メモリ速度へ依存度は低くなっているケースが含まれていると考えられます。ところが継続的な開発が続けられているユーザプログラムの多くは、開発効率やメンテナンス性に配慮し控えめなパフォーマンスチューニングしか行われていない場合も多く、その場合はメモリ律速の傾向が強くなるケースも考えられます。そのようなケースでは高速な800MHzメモリの効果的は大きくなります。(弊社のシステムは全て800MHzメモリを標準搭載しています。)

DPe-R905 SPEC CFP2006 Rates (並行処理性能) SPEC CFP2006
(単体コア性能)
(参考)
製品 DPe
R905
同一CPUクロックの
新Opteronにて
メモリクロック周波数を
800MHzと
667MHzにて
個別アプリの性能を比較
(経過時間の増加率)
DPe
R905
CPU Opteron (shanghai) Opteron
(shanghai)
製造プロセス 45nm 45nm
CPU番号 8384 8384
CPUクロック(GHz) 2.7GHz 2.7GHz
チップセット - -
メモリ(MHz) 800MHz 667MHz 800MHz
OS Linux Linux
コンパイラ PGI7.2 PGI7.2
CPU 数 4 4
コア数 4 4
総コア数 16 16
投入ジョブ数 16 1
SPECfp base値→
各経過時間(秒)↓
188 183 1.03 18.6
bwaves 1448 1453 1.00 556
gamess 1173 1173 1.00 1173
milc 1183 1178 1.00 478
zeusmp 730 749 1.03 571
gromacs 478 478 1.00 469
cactusADM 916 942 1.03 580
leslie3d 1378 1394 1.01 526
namd 622 621 1.00 619
dealII 643 649 1.01 550
soplex 1090 1134 1.04 589
povray 302 303 1.00 301
calculix 477 479 1.00 457
GemsFDTD 1427 1604 1.12 622
tonto 645 661 1.02 573
lbm 1786 2117 1.19 460
wrf 904 965 1.07 520
sphinx3 1426 1438 1.01 839

 

同一クロックでOpteron "Shanghai" と旧Opteronの性能比較 (参考)

同一クロックの新旧Opteronプロセッサを用いて、1ジョブ実行時の性能と16ジョブ並行処理時の性能を比較しました。新Opteron "Shanghai" を用いると1ジョブでも平均20%以上の性能向上があり、16ジョブ並行処理時のスループットも平均15%の伸びを示しています。個別のアプリケーションでは20%以上の性能向上がみられるものもあります。新Opteron "Shanghai" は高速です。6MBキャッシュの効果が大きいのかもわかりません。

DPe-R905 SPEC CFP2006 Rates (並行処理性能)
SPEC CFP2006 (単体コア性能)
製品 DPe
R905
新旧Opteronの
16ジョブ平行実行時の
各アプリケーション別
経過時間増加率
DPe
R905
新旧Opteronの
1ジョブ実行時の
各アプリケーション別
経過時間増加率
CPU Opteron
(shanghai)
Opteron Opteron
(shanghai)
Opteron
製造プロセス 45nm 65nm 45nm 65nm
CPU番号 8380 8360SE 8380 8360SE
CPUクロック(GHz)
(FSBクロック)
2.5GHz 2.5GHz 2.5GHz 2.5GHz
チップセット - - - -
メモリ(MHz)
(キャッシュ容量)
800MHz
(6MBcache)
667MHz
(2MBcache)
800MHz
(6MBcache)
667MHz
(2MBcache)
OS Linux Linux Linux Linux
コンパイラ PGI7.2 PGI7.2 PGI7.2 PGI7.2
CPU 数 4 4 4 4
コア数 4 4 4 4
総コア数 16 16 16 16
投入ジョブ数 16 16 1 1
SPECfp base値→
各経過時間(秒)↓
175 152 1.15 17.2 14.1 1.22
bwaves 1568 1849 1.18 594 669 1.13
gamess 1263 1279 1.01 1267 1554 1.23
milc 1284 1404 1.09 506 557 1.10
zeusmp 777 858 1.10 609 664 1.09
gromacs 515 619 1.20 507 635 1.25
cactusADM 964 1134 1.18 616 963 1.56
leslie3d 1505 1697 1.13 555 678 1.22
namd 669 698 1.04 669 806 1.20
dealII 695 862 1.24 593 716 1.21
soplex 1158 1356 1.17 705 776 1.10
povray 325 343 1.06 325 338 1.04
calculix 513 556 1.08 504 566 1.12
GemsFDTD 1546 1873 1.21 651 787 1.21
tonto 691 801 1.16 620 709 1.14
lbm 1866 2294 1.23 485 800 1.65
wrf 973 1066 1.10 555 684 1.23
sphinx3 1525 2368 1.55 904 1339 1.48

 

Opteron "Shanghai" 4way機とXeon 4way機の価格性能比を算出

単体コア性能ではXeonとOpteronは拮抗しています。ところがマルチジョブのスループットを比較するとOpteronの圧勝です。さらにシステムの価格差を考慮したコストパフォーマンスはOpteronは多くのアプリケーションで突出しています。しかし、Xeonが勝っているアプリケーションもあります。基本的にはアプリケーションよってXeonとOpteronを使い分ける必要があります。Gamess、Gromacs、NamdなどはXeonの牙城です。

DPe-R905 SPEC CFP2006 Rates (並行処理性能)
SPEC CFP2006 (単体コア性能)
製品 DPe
R905
DPe
R900
新Opteron 16コア機と
Xeon 24コア機
16ジョブ平行実行時の
各アプリケーション別
経過時間増加率

(コア数が異なるので
Xeonの実行時間に
16/24を掛け簡易補正)
価格
性能比


Xeon360万
Opte.270万
価格を加味
した評価
DPe
R905
DPe
R900
新Opteron 16コア機と
Xeon 24コア機
1ジョブ実行時の
各アプリケーション別
経過時間増加率
CPU Opteron
(shanghai)
Xeon Opteron
(shanghai)
Xeon
製造プロセス 45nm 45nm 45nm 45nm
CPU番号 8378 X7450 8378 E7450
CPUクロック(GHz)
(FSBクロック)
2.4GHz 2.4GHz 2.4GHz 2.40GHz
チップセット - 7300 - 7300
メモリ(MHz)
(キャッシュ容量)
800MHz 667MHz 800MHz 667MHz
OS Linux Linux Linux Linux
コンパイラ PGI7.2 Intel11.0 PGI7.2 Intel11.0
CPU 数 4 4 4 4
コア数 4 6 4 6
総コア数 16 24 16 24
投入ジョブ数 16 24 1 1
SPECfp base値→
各経過時間(秒)↓
172 127 1.35 1.80 17.0 20.2 0.84
bwaves 1563 5731 2.44 3.25 606 302 0.50
gamess 1316 1101 0.56 0.75 1318 1234 0.94
milc 1280 3356 1.75 2.33 505 867 1.72
zeusmp 787 1719 1.46 1.95 622 532 0.86
gromacs 535 523 0.65 0.87 526 450 0.86
cactusADM 970 2100 1.44 1.92 625 77.1 0.12
leslie3d 1517 4390 1.93 2.57 560 661 1.18
namd 696 627 0.60 0.80 695 616 0.89
dealII 711 1235 1.16 1.55 608 529 0.87
soplex 1167 3307 1.89 2.52 636 817 1.28
povray 339 273 0.54 0.72 338 271 0.80
calculix 532 626 0.78 1.04 512 477 0.93
GemsFDTD 1552 5348 2.30 3.07 653 434 0.66
tonto 713 1419 1.33 1.77 640 760 1.19
lbm 1864 8966 3.21 4.28 495 449 0.91
wrf 985 3038 2.06 2.75 568 706 1.24
sphinx3 1554 5682 2.44 3.25 922 852 0.92

 

価格も魅力的 Opteron 4wayとXeon 4wayの価格比較

新Opteron 4way機とXeon 4way機の価格表を比較目的で掲載しました。これは定価であり実勢価格とは異なりますが傾向は把握できます。Opteron 2.4GHz 4CPU 16コア 128GBメモリ機の270万円に対し、Xeon 2.4GHz 4CPU 24コア 128GBメモリ機は360万円ですからXeonは約1.3倍高価です。 この補正を上記の比較表に加えると上表の赤数字のようなコストパフォーマンス度が得られます。導入時のご参考にされたらいかがでしょうか。なおシステムの実勢価格は弊社営業までお問い合わせお願いします。

HPC-ProServer DPeR905 (Opteron 4way) 標準価格 (価格には下記項目も含む)
DPeR905- CPU
型番
クロック
周波数
Cache CPU
総数
コア
総数
メモリ
周波数
メモリ
容量
メモリ
構成
SAS
15krpm
サポート
レベル
販売価格
(税込)
8384-4P32G 8384 2.7GHz 6MB 4CPU 16コア 800MHz 32GB 4GBx8 146GB 当日4H+ 2,644,950
8384-4P64G 8384 2.7GHz 6MB 4CPU 16コア 800MHz 64GB 4GBx16 146GB 当日4H+ 2,913,750
8384-4P128G 8384 2.7GHz 6MB 4CPU 16コア 800MHz 128GB 4GBx32 146GB 当日4H+ 3,484,950
8384-4P256G 8384 2.7GHz 6MB 4CPU 16コア 667MHz 256GB 8GBx32 146GB 当日4H+ 8,592,150
                       
8380-4P32G 8380 2.5GHz 6MB 4CPU 16コア 800MHz 32GB 4GBx8 146GB 当日4H+ 2,173,500
8380-4P64G 8380 2.5GHz 6MB 4CPU 16コア 800MHz 64GB 4GBx16 146GB 当日4H+ 2,442,300
8380-4P128G 8380 2.5GHz 6MB 4CPU 16コア 800MHz 128GB 4GBx32 146GB 当日4H+ 3,013,500
8380-4P256G 8380 2.5GHz 6MB 4CPU 16コア 667MHz 256GB 8GBx32 146GB 当日4H+ 8,120,700
                       
8378-4P32G 8378 2.4GHz 6MB 4CPU 16コア 800MHz 32GB 4GBx8 146GB 当日4H+ 1,907,850
8378-4P64G 8378 2.4GHz 6MB 4CPU 16コア 800MHz 64GB 4GBx16 146GB 当日4H+ 2,176,650
8378-4P128G 8378 2.4GHz 6MB 4CPU 16コア 800MHz 128GB 4GBx32 146GB 当日4H+ 2,747,850
8378-4P256G 8378 2.4GHz 6MB 4CPU 16コア 667MHz 256GB 8GBx32 146GB 当日4H+ 7,855,050

 

HPC-ProServer DPeR900 (Xeon 4way) 標準価格 (価格には下記項目も含む)
CPU
型番
クロック
周波数
L2cache
/CPU
L3cache
/CPU
コア数
/CPU
CPU
総数
コア
総数
FSB
周波数
メモリ
周波数
メモリ
容量
メモリ
構成
ディスク
容量
サポート
レベル
販売価格
(税込)
X7460 2.66GHz 3MBx3 16MB 6コア 4CPU 24コア 1066MHz 667MHz 32GB 4GBx8 146GB 当日4H+ 3,035,550
X7460 2.66GHz 3MBx3 16MB 6コア 4CPU 24コア 1066MHz 667MHz 64GB 4GBx16 146GB 当日4H+ 3,337,950
X7460 2.66GHz 3MBx3 16MB 6コア 4CPU 24コア 1066MHz 667MHz 96GB 4GBx24 146GB 当日4H+ 3,468,150
X7460 2.66GHz 3MBx3 16MB 6コア 4CPU 24コア 1066MHz 667MHz 128GB 4GBx32 146GB 当日4H+ 3,909,150
X7460 2.66GHz 3MBx3 16MB 6コア 4CPU 24コア 1066MHz 667MHz 256GB 8GBx32 146GB 当日4H+ 11,569,950
                           
E7450 2.4GHz 3MBx3 12MB 6コア 4CPU 24コア 1066MHz 667MHz 32GB 4GBx8 146GB 当日4H+ 2,751,000
E7450 2.4GHz 3MBx3 12MB 6コア 4CPU 24コア 1066MHz 667MHz 64GB 4GBx16 146GB 当日4H+ 3,053,400
E7450 2.4GHz 3MBx3 12MB 6コア 4CPU 24コア 1066MHz 667MHz 80GB 4GBx20 146GB 当日4H+ 3,183,600
E7450 2.4GHz 3MBx3 12MB 6コア 4CPU 24コア 1066MHz 667MHz 128GB 4GBx32 146GB 当日4H+ 3,624,600
E7450 2.4GHz 3MBx3 12MB 6コア 4CPU 24コア 1066MHz 667MHz 256GB 8GBx32 146GB 当日4H+ 11,285,400
                           
E7420 2.13GHz 3MBx2 8MB 4コア 4CPU 16コア 1066MHz 667MHz 32GB 4GBx8 146GB 当日4H+ 1,919,400
E7420 2.13GHz 3MBx2 8MB 4コア 4CPU 16コア 1066MHz 667MHz 64GB 4GBx16 146GB 当日4H+ 2,221,800
E7420 2.13GHz 3MBx2 8MB 4コア 4CPU 16コア 1066MHz 667MHz 80GB 4GBx20 146GB 当日4H+ 2,352,000
E7420 2.13GHz 3MBx2 8MB 4コア 4CPU 16コア 1066MHz 667MHz 128GB 4GBx32 146GB 当日4H+ 2,793,000
E7420 2.13GHz 3MBx2 8MB 4コア 4CPU 16コア 1066MHz 667MHz 256GB 8GBx32 146GB 当日4H+ 10,453,800

参考

SPEC CFP2006で利用されている浮動小数点演算アプリケーションの一覧。(公開されているSPEC CFP2006より転記しています。)
bwaves (Fortran) : Computational Fluid Dynamics
gamess (Fortran) : Quantum chemical computations
milc (C) : Physics/Quantum Chromodynamics
zeusmp (Fortran) : Physics/Magnetohydrodynamics
gromacs (Fortran and C) : Chemistry/Molecular Dynamics
cactusADM (Fortran and C) : Physics/General Relativity
leslie3d (Fortran) : Computational Fluid Dynamics
namd (C++) : Classical Molecular Dynamics Simulation
dealII (C++) : Adaptive Finite Element Method
soplex (C++) : Simplex Linear Program (LP) Solver
povray (C++) : Computer Visualization
calculix (Fortran and C) : Structural Mechanics
GemsFDTD (Fortran) : Computational Electromagnetics
tonto (Fortran) : Quantum Crystallography
lbm (C) : Computational Fluid Dynmaics
wrf (Fortran and C) : Weather Forecasting
sphinx3 (C) : Speech Recognition