お問い合わせ | 導入事例 | HPC計算機 | 管理サーバ/ファイルサーバ | オプション | OS/開発環境 | アプリ | システム構築 | サポート | FAQ | ベンチ | 技術情報 | 購入案内
他のSPEC性能表へジャンプ TOP
Xeon 1way T3400 T100 R300
Xeon 2way T5400 R5400 T7400
Xeon 2way 1950III 2950III 2900III
Xeon 4way R900    
Opte. 2way T605 R805  
Opte. 4way R905    
Blade Xeon Opteron2/4w
r905

HPC-ProServer DPeR905

4, 6 Core Opteron搭載の4 Socket HPCサーバ
最大256GBのメモリを搭載可能、最大5基のSASディスクを搭載可能
商用ジョブスケジューラLSF対応、
冗長化電源、ホットプラグディスク、冗長化ストレージに対応
3年間の当日4時間オンサイト保守と部品保証を無償実施、技術・運用支援も無償実施

製品特長 | 基本性能 | 性能評価 | システム構築 | 構成例 | 導入事例 | サポート | 価格 | 仕様 | カタログ
SPECベンチマークの結果を参照しての
Opteon 4CPU機のスループット性能調査

4, 6 Core Opteron 4CPU機の利用

 4, 6 Core Opteron 4CPU 128GBメモリ機で「CPU性能律速型アプリケーション」を利用すると高いコストパフォーマンスが得られます。その理由はOpteronの平行処理は処理効率が高いからです。さらに、Opteron 4CPU機の廉価さと、メモリ価格低下もコストパフォーマンスの向上に貢献しています。ところが「メモリ性能律速型アプリケーション」の利用ではコストパフォーマンスは良くありません。その理由はOpteron 4CPU機の総メモリ帯域幅が51.2GB/s (6.4GB/s x2ch. x4CPU) と狭く、メモリボトルネックにより性能向上が停滞向上しているためです。

4 Core Xeon 2.26GHz 2CPU機を基準にし、Opteron 4CPU機のスループット性能を調査

 下の図はSPECfpベンチマークの引用を元に、4 Core Xeon 2.26GHz 2CPU機を基準にとり、4, 6 Core Opteron 4CPU機のSPECfp ratesベンチマーク性能向上率を縦軸に、CPU クロック速度 (コア数) を横軸にして、各アプリケーション別のスループット性能向上率をグラフ化したものです。 

青い太線は「理論メモリ帯域幅を示す補助線」

 青い太線は各計算機の理論メモリ帯域幅を示す補助線です。XeonはCPUあたり25.6GB/sのメモリ帯域幅、2CPUで51.2GB/sの総メモリ帯域幅を持っています。これに対してOpteronはCPUあたり12.8GB/sのメモリ帯域幅 (6.4GB/s x2ch.)、4CPUで51.2GB/sの総メモリ帯域幅を持っています。

青い細線は「メモリ性能律速型アプリケーション」

 青い細線は「メモリ性能律速型アプリケーション」に分類されるアプリケーションを示します。Xeon 2CPUとOpteron 4CPUの総メモリ帯域幅は51.2GB/sと同じです。そのため「メモリ性能律速型アプリケーション」での実性能は同じ筈です。この点をグラフの青い細線で確認します。すると確かに青い細線は青い太線に沿って表示されており、CPU数が異なるにもかかわらず大差はついていません。メモリ性能が支配的です。しかし細かく見るとOpteronシリーズの中で性能向上しています。CPU内部では細かい改良が続いていることが推察できます。

赤い太線は「総スループットの理想値を示す補助線」

 赤い太線は「総スループットの理想値」を示す補助線です。アーキテクチャの異なるXeon 2CPUとOpteron 4CPUのスループットを比較するためCPUクロック速度を補正しています。具体的には、4 Core Opteron 4CPUはCPUクロック速度をXeonの2倍に換算し、6 Core OpteronについてはXeonの3倍に換算してグラフ化しています。

赤い細線は「CPU性能律速型アプリケーション」

 赤い細線は「CPU性能律速型アプリケーション」に分類されるアプリケーションを示します。Opteron 4CPU 16, 24 Core機は、Xeon 2CPU 8 Core機をコア総数で圧倒しています。総スループットの理想値 (赤い太線) は最大で370%にも達しています。Opteronの「CPU性能律速型アプリケーション」での実効性能は、理想値には届かず150%強の効率ですが、最大性能を発揮する6 Core Opteron 4CPU 2.8GHz機まで順調に性能を向上させています。

Opteron

 

 

6 Core Opteron 4CPU機はコストパフォーマンスが高い

Opteron 4CPUの価格上昇率を「太いピンク線」で追記

 大容量メモリを搭載したOpteron 4CPUは廉価になっています。そこでコストパフォーマンスを一瞥で評価してただけるように、上掲のグラフに「6, 4 Core Opteron 4CPU 128GBメモリ機」のXeon 2CPU機を基準とした価格上昇率を「太いピンク線」で追記しました。さらに10%値引き、20%値引き、30%値引のケースも点線で追記しました。

「CPU性能律速型アプリケーション」はコストパフォーマンスが高い

 赤色い細線で表記されている「CPU性能律速型アプリケーション」は「太いピンク線」よりも上に位置しており、コストパフォーマンスで勝っています。

「メモリ性能律速型アプリケーション」も少の値引きでコストパフォーマンスが向上

 青色の細線で表記している「メモリ性能律速型アプリケーション」は「太いピンク線」よりも下に位置しており、コストパフォーマンスで劣っています。しかし、20%値引きではコストパフォーマンスは互角となり、30%値引きではコストパフォーマンスで勝ることがわかります。

6 Core Opteron 4CPU機のコストパフォーマンスは全方位的に高い

 大量の平行処理ではスループット性能が重要です。また並列処理オーバーヘッドの小さい並列処理用でもスループット性能は重要です。価格が廉価になっている 6 Core Opteron 4CPU機は優れた計算機です。

 opteron

 

(参考-1) Xeonのベンチマーク結果を同じスケールで作図

Xeon 2CPU 144GBメモリ搭載機の比較結果

 Xeon 2CPU 144GBメモリ搭載機のベンチマーク結果を上図と同じスケールで参考用に作図しました。4 Core Xeon 2CPU機の性能カバーレンジと価格カバーレンジが良くわかります。 

over

 

(参考-2) 将来の理想的な4 Socket Server

メモリの高速化

 現在のOpteronのメモリ仕様は、メモリ帯域幅6.4GB/sのDDR2 800MHzメモリを2チャンネルで接続し、CPU毎に12.8GB/sのメモリ帯域幅を実現しています。しかしこの値は、32GB/sのメモリ帯域幅を実現しているXeonに大きく見劣りします。

 そこで今後登場するOpteronには大幅なメモリ帯域幅の向上を期待します。具体的にはDDR3 800MHzメモリを4チャンネルで接続し、メモリ帯域幅はCPU毎に51.2GB/s、4CPU構成では204.8GB/sの性能が欲しいです。これは現行の2CPU機の約4倍の性能を持つことになります。

大規模マルチコア化の追及 

 マルチコア化が進むと「CPU性能律速型アプリケーション」の性能は順調に伸びると期待されます。もし近い将来、8コアを超え12コアや16コアのプロセッサが登場すると、4 Socket機なら48コアから64コアの共有メモリ計算機が実現します。これは現行の2CPU機の約8倍の性能を持つことになります。

性能スケールの様子をグラフにプロット

 メモリ帯域幅の数字やコア数を書いているだけではイメージが湧きません。そこで上掲のグラフを元に、「未来の理想的なOpteron 4CPU機」の期待性能を追加しみました。赤い楕円は「CPU性能律速型アプリケーション」の推定性能です。青い楕円は「メモリ性能律速型アプリケーション」の推定性能です。

ideal

 

整数演算について

 大規模な整数演算を行うHPC分野としてバイオインフォマティクスなどがあります。今後の登場が期待される、CPUコアを24コア基から64基と、高速大容量メモリを搭載する次世代Opteronは、どのような整数パフォーマンスを実現するのでしょうか。それを確認するため、同じフォーマットでグラフ化しました。

HMMER

 遺伝子解析で用いられるHMMERはCPUクロックに比例して性能を伸ばしています。コア数が増えても順調な性能向上が続いています。Opteronのマルチコア化の恩恵を最もダイレクトに受けると思われます。

殆どのアプリケーション

 SPECベンチマークで用いられている殆どの整数演算アプリケーションも「CPU性能律速型アプリケーション」のようです。

int

 

評価のポイント

アプリケーションを特性別に2種類に区分

 実用的な計算機評価は容易ではありません。しかし、アプリケーションのボトルネックに着目すると、複雑なCPU処理を行うアプリケーションではCPUボトルネックを起こしやすい反面メモリボトルネックを起こしにくいアプリケーションと、簡単なCPU処理を行うためCPUボトルネックは起きにくい反面メモリボトルネックを起こしやすいアプリケーションの2系統に区分することができ、計算機とアプリケーションの相互関係を整理しやすくなります。

「CPU性能律速型アプリケーション」

 gamess、gromacs、namdなどがこのタイプの計算に該当します。CPUのクロック速度向上、CPUのコア数増加などで比較的リニアに性能向上します。しかし、メモリシステムの性能向上の影響は少ないです。

 CPUのスパースカラー性能が高く、CPUの搭載コア数が多く、システムに搭載するCPU数が多く、並列計算ノード数が多いシステムである程高速です。

「メモリ性能律速型アプリケーション」

 流体計算や電磁界解析などはこのタイプの計算になります。CPU処理が単純なため、結果的にメモリI/Oが多く、メモリボトルネックが発生しやすいタイプの計算です。なり

 メモリ性能が重要です。並列処理もメモリ性能重視のシステム設計が求められます。搭載コア数の多さだけでは十分な性能が得られないからです。

 

【SPEC CPU2006の公開データを資料として引用】

SPEC, SPECint and SPECfp are resistered trademarks of the Standard Performance Evaluation Corporation. For more information on this SPEC benchmarks see www.spe.org. SPEC and the benchmark name SPEC CPU2006 are registered trademarks of the Standard Performance Evaluation Corporation. Competitive benchmark results stated above reflect results published on www.spec.org as of April 03, 2009. The comparison presented above is based on the best performing 2-cpu servers currently shipping by Intel Corporation and Dell Inc. For the latest SPEC CPU2006 benchmark results, visit http://www.spec.org/cpu2006/