お問い合わせ | 導入事例 | HPC計算機 | 管理サーバ/ファイルサーバ | オプション | OS/開発環境 | アプリ | システム構築 | サポート | FAQ | ベンチ | 技術情報 | 購入案内
⇒ プロセッサ番号一覧表
S.B. Xeon Rack Server
DPeR210II 1S 32GB 2HD 価格
DPeR620 2S 768GB 10HD 1U 価格
DPeR720 2S 768GB 16HD 2U 価格
DPeR820 4S 1536GB 16D 2U 価格
S.B. Xeon Tower Server
DPeT620 2S 768GB 32HD 5U 価格
S.B Xeon WorkStation
DPrT1600 1S 16GB 2HD 価格
S.B. Xeon Blade Server
Blade Enclosure DPeM1000e 価格
DPeM620 2S 512GB 2HD 価格
 
Xeon Rack Server
DPeR410 2S 96GB 4HD 1U 価格
DPeR610 2S 192GB 8HD 1U 価格
DPeR710 2S 288GB 8HD 2U 価格
DPeR910 4S 2TB 16HD 4U 価格
Xeon Tower Server
DPeT410 2S 96GB 6HD 価格
DPeT610 2S 192GB 8HD 価格
DPeT710 2S 192GB 16HD 価格
Xeon WorkStation
DPrT3500 1S 24GB 3HD 価格
DPrT5500 2S 48GB 4HD 価格
DPrT7500 2S 192GB 4HD 価格
Opteron Rack Server
DPeR715 2S 512GB 6HD 2U 価格
DPeR815 4S 1024GB 6HD 2U 価格
Xeon/Opteron Blade Server
Blade Enclosure DPeM1000e 価格
DPeM610 2S 192GB 2HD 価格
DPeM610X 2S 192GB GPGPU 価格
DPeM710 2S 288GB 4HD 価格
DPeM915 4S Opteron 512GB 価格
GPGPU System
Tesla C2050 WS (T7500)
Tesla S2050 Cluster (R410/R610)
Tesla M2050 HD Cluster (C410x)
Tesla M2050 Blade (M610X)
Host/File Server (Rack)
FS R410 2S 2TBx4HD 1U 価格
FS R610 2S 1TBx6HD 1U 価格
FS R710 2S 1TBx8HD 2U 価格
FS R510 2S 2TBx12HD 2U 価格
Host/File Server (Tower)
FS T410 2S 2TBx6HD 価格
FS T610 2S 2TBx8HD 価格
FS T710 2S 1TBx16HD 価格
Storage Rack Enclosure
DPvMD1200 DAS 12x3TB HDD 価格
DPvMD1220 DAS 24x1TB HDD 価格
DPvMD32xx RAID 12HD/24HD 価格
DPvMD32xxi RAID 12HD/24HD 価格
⇒ 研究室のストレージ構築法
⇒ インテルコンパイラ価格表

m1000eHPC-ProServer DPeM-Series (HPC Blade Server)

DPeM1000e: Blade Enclosure (Half Size Blade 16枚、Full Size Blade 8枚搭載可能)
DPeM610: Xeon 2socket 96GBメモリ Half Size Blade (16Blade 32CPU 128コア/筐体)
DPeM710: Xeon 2socket 144GBメモリ Full Size Blade (8Blade 16CPU 64コア/筐体)
DPeM605: Opteron 2socket 32GBメモリ Half Size Blade (16Blade 32CPU 128コア/筐体)
DPeM805: Opteron 2socket 64GBメモリ Full Size Blade (8Blade 16CPU 64コア/筐体)
DPeM905: Opteron 4socket 128GBメモリ Full Size Blade (8Blade 32CPU 128コア/筐体)
Xeon (Nehalem)、Opteron (Shanghai)に対応、低消費電力、省スペース、200V電源
DDR/QDR InfniBand対応、10GbE対応、ケーブルレス、集中管理、共通電源、KVMスイッチ
高い完成度のHPCシステムインテグレーションにて導入時からの本運用を実現
3年間の翌営業日オンサイト保守を標準提供、24時間365日当日4時間保守にも対応

特徴 | システム構築 | 構成例 | 導入事例 | サポート | 機器説明 | 価格 | 仕様 | カタログ

2way Opteronと4way Opteron比較の必要性

HPC-ProServer DPeMシリーズ用のブレードサーバは多用な用途に対応できるようにOpteron搭載のブレードが3種類、Xeon搭載のブレードが1種類用意されています。これらの特徴を紹介します。

Opteron "Shanghai" 搭載の2wayと4way環境のスループット比較

Opteronでの2wayあるいは4way構成のどちらを採用すれば良いのかを明確にしておきたいと考えています。そこでSPECfpの調査を行いました。基本性能の確認のため表の右側にて、単体コアの性能を確認しました。単体コア性能はほとんど同じです。

その上で並行処理でのスループットを調べ、表の左側にまとめました。スループットが落ちている計算と、落ちていない計算があるようです。もし計算が並行処理中心であるならば、性能が高く価格の安い2way計算機を選択される方が良いことがわかります。

しかしノード内の並列計算を8並列から16並列の規模で行われる場合は4way機は良い選択です。もし16並列以上の並列計算を計画される場合は通信効率、計算処理性能、価格などを考慮すると2way機の選択が良いと思われます。このテスト結果はそのような判断の材料に利用できます。

DPe-R905 SPEC CFP2006 Rates (並行処理性能)
SPEC CFP2006 (単体コア性能)
製品 DPe
M905
(blade)
DPe
M805
(M605)
(blade)
新Opteron 16コア機と
新Opteron 8コア機の
搭載コア数と同数の
ジョブを平行実行時の
各アプリケーション別
経過時間増加率

(コア数は異なりますが
そのままで割り算)
DPe
M905
(blade)
DPe
M805
(M605)
(blade)
新Opteron 16コア機と
新Opteron 8コア機の
1ジョブ実行時の
各アプリケーション別
経過時間増加率
CPU Opteron
(shanghai)
Opteron
(shanghai)
Opteron
(shanghai)
Opteron
(shanghai)
製造プロセス 45nm 45nm 45nm 45nm
CPU番号 8384 2384 8384 2384
CPUクロック(GHz)
(FSBクロック)
2.7GHz 2.7GHz 2.7GHz 2.7GHz
チップセット - - - -
メモリ(MHz)
(キャッシュ容量)
800MHz 800MHz 800MHz 800MHz
OS Linux Linux Linux Linux
コンパイラ PGI7.2 PGI7.2 PGI7.2 PGI7.2
CPU 数 4 2 4 2
コア数 4 4 4 4
総コア数 16 8 16 8
投入ジョブ数 16 8 1 1
SPECfp base値→
各経過時間(秒)↓
189 104   18.3 18.5  
bwaves 1437 1044 1.38 552 552 1.00
gamess 1170 1168 1.00 1171 1168 1.00
milc 1172 942 1.24 468 472 0.99
zeusmp 721 653 1.10 563 565 1.00
gromacs 476 472 1.01 468 457 1.02
cactusADM 898 806 1.11 579 575 1.01
leslie3d 1377 1154 1.19 521 520 1.00
namd 619 618 1.00 618 617 1.00
dealII 646 594 1.09 583 547 1.07
soplex 1075 930 1.16 581 584 0.99
povray 302 301 1.00 300 299 1.00
calculix 476 466 1.02 456 455 1.00
GemsFDTD 1433 1340 1.07 612 615 1.00
tonto 645 630 1.02 573 573 1.00
lbm 1788 1777 1.01 455 455 1.00
wrf 899 817 1.10 562 516 1.09
sphinx3 1405 1119 1.26 1033 998 1.04

 

2way Opteronでの2.7GHzと2.4GHzのスループット比較

折角なので2way機での2.7GHzと2.4GHzの価格性能比も調べてみます。2way Half Size Bladeの16GBメモリ構成での2.7GHzの定価は約96万円、2.4GHzの定価は約76万円なので約1.26倍ほど高価です。しかしクロック速度比は約1.13倍の高速化ですから、速度への期待は薄いです。さて8並行処理のスループットを比較すると、平均値では約1.06倍しか高速化されていません。そこで個別値を参照すると全く高速化されていないものから、ほぼクロック速度向上に比例して性能向上しているものまであります。個人や研究室レベルで利用するHPC計算機の多くは特定のアプリケーションの専用機として利用されることが多いので、平均値よりも個別のアプリケーションでの効率が重要です。

しかし最も高速なアプリケーションでもクロック速度の向上率が上限ですから2.4GHzのプロセッサを選択したほうが良さそうです。もし並列計算を行われるなら、安くなった分の費用もあわせて高速なInfiniBandの導入に費やすことは検討に値すると考えられます。

DPe-R905 SPEC CFP2006 Rates (並行処理性能)
SPEC CFP2006 (単体コア性能)
製品 DPe
M805
(M605)
(blade)
2.7GHzと2.4GHzCPUの
16ジョブ平行実行時の
各アプリケーション別
経過時間増加率

2.7GHz 96万円 104spec
2.4GHz 76万円 97.5spec

2.7/2.4=1.13
96/76=1.26
104/97.5=1.06
DPe
M805
(M605)
(blade)
2.7GHzと2.4GHzCPUの
1ジョブ実行時の
各アプリケーション別
経過時間増加率

2.7/2.4=1.13
CPU Opteron (shanghai) Opteron (shanghai)
製造プロセス 45nm 45nm
CPU番号 2384 2378 2384 2378
CPUクロック(GHz)
(FSBクロック)
2.7GHz 2.4GHz 2.7GHz 2.4GHz
チップセット - - - -
メモリ(MHz) 800MHz 800MHz 800MHz 800MHz
OS Linux Linux Linux Linux
コンパイラ PGI7.2 PGI7.2 PGI7.2 PGI7.2
CPU 数 2 2 2 2
コア数 4 4 4 4
総コア数 8 8 8 8
投入ジョブ数 8 8 1 1
SPECfp base値→
各経過時間(秒)↓
104 97.5 1.06 18.5 16.9 1.10
bwaves 1044 1057 1.01 552 604 1.09
gamess 1168 1313 1.12 1168 1314 1.13
milc 942 950 1.01 472 507 1.07
zeusmp 653 702 1.08 565 622 1.10
gromacs 472 531 1.13 457 525 1.15
cactusADM 806 854 1.06 575 625 1.09
leslie3d 1154 1168 1.01 520 559 1.08
namd 618 694 1.12 617 693 1.12
dealII 594 655 1.10 547 608 1.11
soplex 930 971 1.04 584 635 1.09
povray 301 339 1.13 299 338 1.13
calculix 466 520 1.12 455 511 1.12
GemsFDTD 1340 1371 1.02 615 654 1.06
tonto 630 694 1.10 573 641 1.12
lbm 1777 1779 1.00 455 494 1.09
wrf 817 851 1.04 516 567 1.10
sphinx3 1119 1186 1.06 998 1049 1.05

 

2way Opteron 2.4GHzと2way Xeon3.33GHzのスループット比較

Xeon 3.33GHz 16GBメモリ機は定価で113万円です。これに対してOpteron 2.4GHz機は76万円と安価です。そこで両者のスループットを比較してみます。すると、一部のアプリケーションではXeonが優れ、一部のアプリケーションではOpteronが優れています。さらに価格性能比で評価するとXeonでも良いですが、Opteronは圧勝しています。"Shanghai"世代になってようやくOpteronの真価が顕在化してきました。

 

DPe-R905 SPEC CFP2006 Rates (並行処理性能)
SPEC CFP2006 (単体コア性能)
製品 DPe
M805
(M605)
(blade)
DPe
M600
(blade)
2.4GHz Opteronと
3.33GHz Xeonの
16ジョブ平行実行時の
各アプリケーション別
経過時間増加率
価格
性能
DPe
M805
(M605)
(blade)
DPe
M600
(blade)
2.4GHz Opteronと
3.33GHz Xeonの
1ジョブ実行時の
各アプリケーション別
経過時間増加率
CPU Opteron
(shanghai)
Xeon Opteron
(shanghai)
Xeon
製造プロセス 45nm 45nm 45nm 45nm
CPU番号 2378 X5470 2378 X5470
CPUクロック(GHz)
(FSBクロック)
2.4GHz 3.33GHz 2.4GHz 3.33GHz
チップセット - 5000P - 5000P
メモリ(MHz) 800MHz 667MHz 800MHz 667MHz
OS Linux Linux Linux Linux
コンパイラ PGI7.2 Intel11.0 PGI7.2 Intel11.0
CPU 数 2 2 2 2
コア数 4 4 4 4
総コア数 8 8 8 8
投入ジョブ数 8 8 1 1
SPECfp base値→
各経過時間(秒)↓
97.5 74.2 1.31 1.95 16.9 24.9 0.68
bwaves 1057 3205 3.03 4.51 604 399 0.66
gamess 1313 789 0.60 0.89 1314 861 0.66
milc 950 1982 2.09 3.10 507 557 1.10
zeusmp 702 990 1.41 2.10 622 420 0.68
gromacs 531 349 0.66 0.98 525 324 0.62
cactusADM 854 1186 1.39 2.06 625 105 0.17
leslie3d 1168 2472 2.12 3.15 559 466 0.83
namd 694 447 0.64 0.96 693 444 0.64
dealII 655 693 1.06 1.57 608 374 0.62
soplex 971 1776 1.83 2.72 635 574 0.90
povray 339 195 0.58 0.86 338 194 0.57
calculix 520 384 0.74 1.10 511 344 0.67
GemsFDTD 1371 3041 2.22 3.30 654 478 0.73
tonto 694 658 0.95 1.41 641 488 0.76
lbm 1779 4171 2.34 3.49 494 576 1.17
wrf 851 1751 2.06 3.06 567 497 0.88
sphinx3 1186 2225 1.88 2.79 1049 655 0.62

 

OpteronとXeonの比較は他のページも行っている

ブレードサーバと通常サーバはSPECfpテストにより相違が少ないことが確認できています。そこで、既に行った通常サーバの検討を参考にしても問題はありません。以下のリンクにある他のページも参考にしてください。

SPECfpとNou-Uniform Memory Access (NUMA)

SPECfpでは、シリアルジョブの性能テストと、搭載コア数と同数のジョブを並行処理させた場合の経過時間によるスループット性能テストを行っています。最近のLinux OSはマルチコア環境にも対応しており、複数のジョブを投入すると、搭載されているCPUとコアの構成に応じて最適なジョブ投入順序を選択し、理想的なパターンでの実行となっています。その結果、Opteronのようなメモリバス非共有型のアーキテクチャで懸念されるローカルメモリとリモートメモリでのメモリ帯域の差やメモリレイテンシーの違いなどによる性能低下は抑えられていました。

ところが、並列処理を行う際にはCPU間でのデータ共有が必要なため、リモートメモリをアクセスする場合があり、この頻度が増えると計算性能に影響を与えるようになることが考えられます。しかし最初に述べましたようにSPECfpはCPU間のデータ通信性能をテスト評価するようには設計されていません。もし、小さなデータを高い頻度でCPU間通信させる必要があるようなアプリケーションをご利用でしたら、この点には注意が必要です。

現在の並列化は数値演算ライブラリ並列、OpenMP並列、MPI並列が階層的に利用されるようになってきています。これからの計算機のメモリシステムはNUMAが採用されてゆきますが、その計算機を利用する際のメモリ速度の不均一さは、階層的な並列化の最適化によってクリアされてゆくと考えられています。

 

SPECテストについて

(単体コア性能)では、1ジョブだけ流し、終了までの経過時間により、単体コアの性能を評価。
★ (並行処理性能)では、搭載するコア数と同数のジョブを流し、終了までの経過時間により、システムのスループット性能を評価。

⇒ 各アプリ別で、(単体コア性能)と(並行処理性能)の比が小さい場合はスループット性能が高く、比が大きい場合はスループット性能が低い。
(シリアル処理で100秒の計算が、8並行処理で100秒なら、スループットは8倍で理想的)
(シリアル処理で100秒の計算が、8並行処理で400秒なら、スループットは2倍で非効率)
⇒ XeonとOpteronを比較するとアプリケーション毎に性能が大きく異なり、プロセッサの適否を判断。
(gamess、namd、gromacsなどはXeon、Opteron共に高性能、leslie3d、GemsFDTDなどはOpteronのみが高性能)
⇒ 並列計算の内部は、シリアル処理部、並行処理部、通信処理部から構成され、通信処理部を除いた部分まで評価可能。

※ 公開されているSPEC CFP2006、SPEC CFP2006 Ratesよりデータを抜粋しています。
※ SPEC CFP2006のジョブは1GB以下のメモリで動作しています。
※ インテルプロセッサにてFSBが未表記の場合はFSB1333MHzです。FSB1600MHzの場合は(F1600)、FSB1066MHzの場合は(F1066)と略記しています。