お問い合わせ | 導入事例 | HPC計算機 | 管理サーバ/ファイルサーバ | オプション | OS/開発環境 | アプリ | システム構築 | サポート | FAQ | ベンチ | 技術情報 | 購入案内
他のSPEC性能表へジャンプ TOP
Xeon 1way T3400 T100 R300
Xeon 2way T5400 R5400 T7400
Xeon 2way 1950III 2950III 2900III
Xeon 4way R900    
Opte. 2way T605 R805  
Opte. 4way R905    
Blade Xeon Opteron2/4w

m1000eHPC-ProServer DPeM-Series (HPC Blade Server)

DPeM1000e: Blade Enclosure (Half Size Blade 16枚、Full Size Blade 8枚搭載可能)
DPeM610: Xeon 2socket 96GBメモリ Half Size Blade (16Blade 32CPU 128コア/筐体)
DPeM710: Xeon 2socket 144GBメモリ Full Size Blade (8Blade 16CPU 64コア/筐体)
DPeM605: Opteron 2socket 32GBメモリ Half Size Blade (16Blade 32CPU 128コア/筐体)
DPeM805: Opteron 2socket 64GBメモリ Full Size Blade (8Blade 16CPU 64コア/筐体)
DPeM905: Opteron 4socket 128GBメモリ Full Size Blade (8Blade 32CPU 128コア/筐体)
Xeon (Nehalem)、Opteron (Shanghai)に対応、低消費電力、省スペース、200V電源
DDR/QDR InfniBand対応、10GbE対応、ケーブルレス、集中管理、共通電源、KVMスイッチ
高い完成度のHPCシステムインテグレーションにて導入時からの本運用を実現
3年間の翌営業日オンサイト保守を標準提供、24時間365日当日4時間保守にも対応

特徴 | システム構築 | 構成例 | 導入事例 | サポート | 機器説明 | 価格 | 仕様 | カタログ

SPEC CFP2006よりデータを抜粋 (09/01/06)

DPeM905
(Opteron 4way)
SPEC CFP2006 Rates (並行処理性能) SPEC CFP2006 (単体コア性能)
製品 DPe
M905
(blade)
DPe
M905
(blade)
DPe
M905
(blade)
DPe
M805
(M605)
(blade)
DPe
R900
DPe
M905
(blade)
DPe
M905
(blade)
DPe
M905
(blade)
DPe
M805
(M605)
(blade)
DPe
R900
CPU Opteron
(shanghai)
Opteron
(shanghai)
Opteron Opteron
(shanghai)
Xeon Opteron
(shanghai)
Opteron
(shanghai)
Opteron Opteron
(shanghai)
Xeon
製造プロセス 45nm 45nm 65nm 45nm 45nm 45nm 45nm 65nm 45nm 45nm
CPU番号 8384 8378 8360SE 2384 X7460 8384 8356 8360SE 2384 X7460
CPUクロック(GHz)
(FSBクロック)
2.7GHz 2.4GHz 2.5GHz 2.7GHz 2.66GHz 2.7GHz 2.4GHz 2.5GHz 2.7GHz 2.66GHz
チップセット - - - - 7300 - - - - 7300
メモリ(MHz) 800MHz 800MHz 667MHz 800MHz 667MHz 800MHz 800MHz 667MHz 800MHz 667MHz
OS Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux
コンパイラ PGI7.2 PGI7.2 PGI7.2 PGI7.2 Intel11.0 PGI7.2 PGI7.2 PGI7.2 PGI7.2 Intel11.0
CPU 数 4 4 4 2 4 4 4 4 2 4
コア数 4 4 4 4 6 4 4 4 4 6
総コア数 16 16 16 8 24 16 16 16 8 24
投入ジョブ数 16 16 16 8 24 1 1 1 1 1
SPECfp base値→
各経過時間(秒)↓
189 172 152 104 142 18.3 17.0 14.1 18.5 22.0
bwaves
1437 1563 1849 1044 5198 552 606 669 552 289
gamess 1170 1316 1279 1168 991 1171 1318 1554 1168 1119
milc 1172 1280 1404 942 3172 468 505 557 472 811
zeusmp 721 787 858 653 1579 563 622 664 565 495
gromacs 476 535 619 472 464 468 526 635 457 405
cactusADM 898 970 1134 806 1929 579 625 963 575 73.3
leslie3d 1377 1517 1697 1154 4063 521 560 678 520 609
namd 619 696 698 618 563 618 695 806 617 553
dealII 646 711 862 594 1095 583 608 716 547 482
soplex 1075 1167 1356 930 2893 581 636 776 584 702
povray 302 339 343 301 246 300 338 338 299 244
calculix 476 532 556 466 550 456 512 566 455 424
GemsFDTD 1433 1552 1873 1340 5164 612 654 787 615 415
tonto 645 713 801 630 1159 573 640 709 573 690
lbm 1788 1864 2294 1777 8805 455 495 800 455 449
wrf 899 985 1066 817 2861 562 568 684 516 642
sphinx3 1405 1554 2368 1119 4147 1033 922 1339 998 750

 

SPEC CFP2006よりデータを抜粋 (09/01/06)

DPeM805
DPeM605
(Opteron 2way)
SPEC CFP2006 Rates (並行処理性能) SPEC CFP2006 (単体コア性能)
製品 DPe
M805
(M605)
(blade)
DPe
M805
(M605)
(blade)
DPe
M805
(M605)
(blade)
DPe
M905
(blade)
DPe
M805
(M605)
(blade)
DPe
M600
(blade)
DPe
M805
(M605)
(blade)
DPe
M805
(M605)
(blade)
DPe
(M805)
M605
(blade)
DPe
M905
(blade)
DPe
M805
(M605)
(blade)
DPe
M600
(blade)
CPU Opteron
(shanghai)
Opteron
(shanghai)
Opteron
(shanghai)
Opteron
(shanghai)
Opteron Xeon Opteron
(shanghai)
Opteron
(shanghai)
Opteron
(shanghai)
Opteron
(shanghai)
Opteron Xeon
製造プロセス 45nm 45nm 45nm 45nm 65nm 45nm 45nm 45nm 45nm 45nm 65nm 45nm
CPU番号 2384 2378 2376 8384 2360SE X5470 2384 2378 2376 8384 2360SE X5470
CPUクロック(GHz)
(FSBクロック)
2.7GHz 2.4GHz 2.3GHz 2.7GHz 2.5GHz 3.33GHz 2.7GHz 2.4GHz 2.3GHz 2.7GHz 2.5GHz 3.33GHz
チップセット - - - - - 5000P - - - - - 5000P
メモリ(MHz) 800MHz 800MHz 800MHz 800MHz 667MHz 667MHz 800MHz 800MHz 800MHz 800MHz 667MHz 667MHz
OS Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux Linux
コンパイラ PGI7.2 PGI7.2 PGI7.2 PGI7.2 PGI7.2 Intel11.0 PGI7.2 PGI7.2 PGI7.2 PGI7.2 PGI7.2 Intel11.0
CPU 数 2 2 2 4 2 2 2 2 2 4 2 2
コア数 4 4 4 4 4 4 4 4 4 4 4 4
総コア数 8 8 8 16 8 8 8 8 8 16 8 8
投入ジョブ数 8 8 8 16 8 8 1 1 1 1 1 1
SPECfp base値→
各経過時間(秒)↓
104 97.5 95.5 189 81.9 74.2 18.5 16.9 16.6 18.3 13.7 24.9
bwaves
1044 1057 1060 1437 1416 3205 552 604 616 552 888 399
gamess 1168 1313 1370 1170 1271 789 1168 1314 1370 1171 1446 861
milc 942 950 951 1172 1219 1982 472 507 501 468 588 557
zeusmp 653 702 718 721 789 990 565 622 633 563 663 420
gromacs 472 531 554 476 607 349 457 525 547 468 663 324
cactusADM 806 854 868 898 1053 1186 575 625 636 579 918 105
leslie3d 1154 1168 1168 1377 1480 2472 520 559 563 521 679 466
namd 618 694 725 619 693 447 617 693 723 618 809 444
dealII 594 655 674 646 769 693 547 608 624 583 691 374
soplex 930 971 974 1075 1212 1776 584 635 631 581 781 574
povray 301 339 354 302 341 195 299 338 352 300 357 194
calculix 466 520 541 476 539 384 455 511 531 456 593 344
GemsFDTD 1340 1371 1371 1433 1792 3041 615 654 652 612 877 478
tonto 630 694 717 645 780 658 573 641 665 573 670 488
lbm 1777 1779 1778 1788 2339 4171 455 494 507 455 877 576
wrf 817 851 860 899 1001 1751 516 567 579 562 684 497
sphinx3 1119 1186 1204 1405 1961 2225 998 1049 928 1033 1307 655

 

★ (単体コア性能)では、1ジョブだけ流し、終了までの経過時間により、単体コアの性能を評価。
★ (並行処理性能)では、搭載するコア数と同数のジョブを流し、終了までの経過時間により、システムのスループット性能を評価。

⇒ 各アプリ別で、(単体コア性能)と(並行処理性能)の比が小さい場合はスループット性能が高く、比が大きい場合はスループット性能が低い。
(シリアル処理で100秒の計算が、8並行処理で100秒なら、スループットは8倍で理想的)
(シリアル処理で100秒の計算が、8並行処理で400秒なら、スループットは2倍で非効率)
⇒ XeonとOpteronを比較するとアプリケーション毎に性能が大きく異なり、プロセッサの適否を判断。
(gamess、namd、gromacsなどはXeon、Opteron共に高性能、leslie3d、GemsFDTDなどはOpteronのみが高性能)
⇒ 並列計算の内部は、シリアル処理部、並行処理部、通信処理部から構成され、通信処理部を除いた部分まで評価可能。

※ 公開されているSPEC CFP2006、SPEC CFP2006 Ratesよりデータを抜粋しています。
※ SPEC CFP2006のジョブは1GB以下のメモリで動作しています。
※ インテルプロセッサにてFSBが未表記の場合はFSB1333MHzです。FSB1600MHzの場合は(F1600)、FSB1066MHzの場合は(F1066)と略記しています。

「アプリケーション特性」に即した計算機アーキテクチャ評価を表に展開

アプリケーション特性 計算機
アーキテクチャ
総合
評価
ジョブ
投入方法
評価 コメント
コメント CPU処理 メモリI/O
CPUの処理は複雑
速度はCPUクロックに比例
スループットはコア数に比例
データ入出力は少い

GAMESS、gromacs、namd
などはこのタイプの計算
複雑 45nm Q/C Xeon 単一 CPUは高速
並行 コア間のメモリ競合小 
CPU間のメモリ競合小 
45nm D/C Xeon 単一 CPUは高速
並行 コア間のメモリ競合小 
CPU間のメモリ競合小 
65nm Q/C Xeon 単一 CPUは少し低速 (CPU律速)
並行 コア間のメモリ競合小 
CPU間のメモリ競合小 
45nm Q/C Opteron 単一 CPUクロックが向上し性能が出る
CPU内並行 コア間のメモリ競合なし
System内並行 CPU間のメモリ競合なし
65nm Q/C Opteron 単一 × CPUクロックが低く性能が出ない (CPUが総合性能を律速)
CPU内並行 コア間のメモリ競合なし
System内並行 CPU間のメモリ競合なし
90nm D/C Opteron 単一 × CPUの性能が低い (CPUが総合性能を律速)
CPU内並行 コア間のメモリ競合なし
System内並行 CPU間のメモリ競合なし
CPUの処理は単純
速度はCPUクロックに依存
データ入出力が多い
スループットは
FSB/メモリ帯域に依存
(メモリボトルネック)

CFDはメモリの影響中
GemsFDTDはメモリの影響大
単純 45nm Q/C Xeon 単一 CPUは高速
並行 X コア間のメモリ競合大 (コア間メモリ競合が律速)
CPU間のメモリ競合小 (コア間メモリ競合が律速 (2CPU2コア分の性能))
(チップセット性能が顕在化、メモリクロック効果は潜在的)
45nm D/C Xeon 単一 CPUは高速
並行 X コア間のメモリ競合大
CPU間のメモリ競合小 (コア間メモリ競合が律速 (2CPU2コア分の性能))
(チップセット性能が顕在化、メモリクロック効果は潜在的)
65nm Q/C Xeon 単一 CPUは少し低速
並行 × コア間のメモリ競合大
CPU間のメモリ競合小 (コア間メモリ競合が律速 (2CPU2コア分の性能))
45nm Q/C Opteron 単一 CPUクロックが向上し性能が出る
CPU内並行 コア間のメモリ競合なし
System内並行 CPU間のメモリ競合なし
65nm Q/C Opteron 単一 CPUクロックが低く性能が出ない (CPUが総合性能を律速) 
CPU内並行 コア間のメモリ競合は中 (コア間メモリ競合が律速)
System内並行 CPU間のメモリ競合なし
90nm D/C Opteron 単一 CPUの性能は低い (高クロックモデルを推奨)
CPU内並行 コア間のメモリ競合なし
System内並行 CPU間のメモリ競合なし

 

計算機選定ベンチマークの基本はSPEC CFP2006の検討から

SPEC CFP2006について

「SPEC CFP2006」は計算機の機種選定において強力な判断材料を提供するベンチマークテストです。SPEC CFP2006は17種類の浮動小数点演算アプリケーションを用いて計算機のベンチマークを行っています。このベンチマークにより計算機の「速度」と「スループット」の測定結果を、それぞれ「平均値」と「個別値」として公開しています。さらに、計算機、OS、開発環境、コンパイル方法などの詳細な情報が公開されており、公平性と透明性に優れた利用しやすいベンマチークテストです。計算機の高度化によりメーカー単独での網羅的なベンチマークテストは困難ですが、公平性と透明性に優れたSPEC CFP2006の結果は横断的な利用が容易なため、偏りが少なく、かつ深く踏み込んだ計算機評価が可能となります。

「速度」と「スループット」

SPEC CFP2006では「速度」と「スループット」の2種類を測定しています。「SPECfp 2006」は「速度」の測定で、シリアルジョブを1ジョブ投入し経過時間を測定しています。「SPECfp rate2006」は「スループット」の測定で、シリアルジョブを複数ジョブ (搭載コア数と同数) 同時投入し平行処理の経過時間を測定しています。計算機選定ではこの「速度」と「スループット」の双方を評価して、真の性能を導き出すことが大切です。【資料: SPEC CFP2006ドキュメントへリンク

※「並行処理」 (スループット) と「並列計算」との関係
「並行処理」はそのまま実行されることもありますが、「並列計算」の一部として実行されることもあります。一般的に並列処理では、前処理/後処理、通信処理、並行処理が繰り返して実行されています。このなかで純粋に並列動作している箇所は「並行処理」部だけで、残りは非並列処理です。SPEC CFP2006ではこの「並行処理」 (スループット) を切り出した形で評価しています。また、前処理/後処理部は「速度」として評価されています。しかし通信処理の部分は評価されていません。

「平均値」と「個別値」

SPEC CFP2006での速度とスループットの値は、17種類のアプリケーションの結果を幾何平均した「平均値」と、個別のアプリケーションの経過時間の生の値「個別値」の双方が公開されており、目的に応じて使い分けができます。

計算機選定には「平均値」の利用を推奨

計算機の選定において、速度とスループットの「平均値」を基準とするか、あるいはアプリケーション毎の「個別値」を基準とするのかは判断に悩みます。そこで公開されているデータを調べたところ、「個別値」での性能は「アプリケーション特性」と「計算機アーキテクチャ特性」の影響により大きく変動していました。そのためピーク値だけに着目して計算機を選定すると、動作条件がピーク性能を発揮する領域から外れた場合に期待性能との乖離が大きくなることが予想されます。これに対して計算機の基本性能を忠実に反映させることを目的に設計された平均値は、この乖離を小さく抑えることができる優れた指標です。

個別のアプリケーションの経過時間「個別値」は計算機の深い検討に有用な指標

SPEC CFP2006による計算機選定の基本は平均値の利用です。しかし、ボトルネックの調査や、用途をピンポイントで絞った専用計算機の選定では、「個別値」の検討も大切な作業です。個別値は計算機を深く検討する際に有用な指標です。

「アプリケーション特性」を2つに区分して全体像を捉える

下の大きな表は、公開されている「SPECfp rate base2006: スループット」と「SPECfp base2006: 速度」の結果から、特定の計算機の評価に有用なデータを抜粋したものです。しかしこの表では、複数の要素が影響しているため理解が容易ではありません。そこで理解を助けるため「アプリケーション特性」に着目し、アプリケーションを「CPU処理が複雑 = メモリI/Oが少ない計算タイプ」と、「CPU処理が単純 = メモリI/Oが多い計算タイプ」の2種類に区分してみると、全体像が捉えやすくなります。

CPU処理が複雑 = メモリI/Oが少ない計算タイプ

GAMESS、gromacs、namdなどはこのタイプの計算になります。CPU処理が複雑なため、結果的にメモリI/Oが少なく、メモリボトルネックが発生しにくいタイプの計算です。シリアル処理の経過時間と、並行処理の経過時間との差は僅差です。CPUコア性能が高くクロック速度も高速な45nm Xeonはシリアル計算でも並行計算でも高性能を発揮しています。CPUコア性能が並でクロック速度も低いOpteronはシリアル計算速度が並となり、平行計算速度もシリアル計算速度の影響で並の性能となっています。

CPU処理が単純 = メモリI/Oが多い計算タイプ

流体計算や電磁界解析などはこのタイプの計算になります。CPU処理が単純なため、結果的にメモリI/Oが多く、メモリボトルネックが発生しやすいタイプの計算です。シリアル処理の経過時間と、並行処理の経過時間との差は非常に大きいです。