お問い合わせ | 導入事例 | HPC計算機 | 管理サーバ/ファイルサーバ | オプション | OS/開発環境 | アプリ | システム構築 | サポート | FAQ | ベンチ | 技術情報 | 購入案内

◆ プロセッサの性能調査

・ もくじ

・ X86系CPUの特徴

・ SPECベンチを利用した計算機調査

◆ XeonDPの性能調査

1-1 Westmere-DPの性能を調査(速報)

1-2 歴代Xeon DPの性能を俯瞰

1-3 最新Westmere-EPの性能を俯瞰

1-4 Xeon DPとXeon MPの性能を調査

1-5 将来のXeon DPの性能を予想

1-6 シリアル性能の調査

◆ Xeon MPの性能調査

2-1 Nehalem-EXの性能を調査(速報)

2-2 歴代Xeon MPの性能を俯瞰

2-3 最新Nehalem-EXの性能を俯瞰

2-4 Xeon MPとXeon DPの性能を調査

2-5 将来のXeon MPの性能を予測

2-6 シリアル性能の調査

◆ Opteron MPの性能調査

3-1 Magny-Coreの性能調査

◆ その他の性能調査

3-1 TopCrunchスループット性能調査

歴代Xeon DP #5100, #5200, #5300, #5400, #5500, #5600のスループット性能調査

 新しく発表されたXeon DP 5600番台プロセッサの浮動小数点演算性能を把握するため、歴代のXeon DPシリーズについて、主要なHPCアプリケーションによるスループット性能の調査を、「SPEC CFP2006 Rates」に公開されている結果を引用して行いました。このシリーズのプロセッサは次のような特徴があります。これらの性能を俯瞰することで、アーキテクチャの改良が浮動小数点演算性能の平行処理能力に及ぼす効果を知ることができます。

製造プロセス マイクロアーキテクチャ CPU番号 コア数 開発コード メモリシステム
65nm Core MA 5100番台 2 Woodcrest フロントサイドバス
DDR2 FB-DIMM
10.6GB/s/CPU
5300番台 4 Clovertown
45nm 5200番台 2 Wolfdale-DP
5400番台 4 Harpertown
45nm Nehalem MA 5500番台 2 Nehalem-EP CPU上のメモリコントローラ
DDR3 SDRAM
32GB/s/CPU
4 Nehalem-EP
32nm 5600番台 4 Westmere-EP 4C
6 Westmere-EP 6C

Xeon DPシリーズ全体を俯瞰するグラフ

 次に全体を俯瞰するグラフを掲載します。グラフの横軸は左から右に向かって歴代の主要プロセッサをクロック速度別に並べています。グラフの縦軸は基準計算機「Westmere-EP Xeon X5660 2.8GHz 2CPU 12Core」での各アプリ別の平行処理スループット性能を100パーセントとした場合の相対性能を表しています。また補助線として「CPU理論性能」を表す線を赤の破線で表示し、「メモリ理論性能」を表す線を青の破線で表示しています。

Core Microarchitecture と Nehalem Microarchitecture の差異

 ではグラフを観察します。Core Microarchitectureのプロセッサ5400番台と、Nehalem Microarchitectureのプロセッサ5500番台の間には大きな性能の飛躍があります。メモリ性能が約3倍も高速化されたことでで「メモリ律速型アプリ」と呼ばれる青い線で表記したアプリケーションの性能がメモリの高速化に追従していることがわかります。また、「CPU性能律速アプリ」と呼ばれる赤い線で表記したアプリケーションの性能は「CPU理論性能 (スーパースカラー性能、クロック速度、搭載コア数の積)」の高速化に追従していることがわかります。

Nehalem-EP と Westmere-EP との差異

 Nehalem-EPとWestmere-EPは共にNehalem Microarchitectureに属するプロセッサですから、特性に大きな違いはありません。ただ、製造プロセスが32nmへい微細化したことで、搭載できるコア数が6コアへと増加したこと、3次キャッシュ容量が12MBへ増えたこと、最高クロック周波数が3.46GHzへと向上したことなどです。最も気になる点は、コア数の増加とクロック速度の上昇による理論性能の向上に対応して、アプリケーションの処理性能が向上しているのか否かということです。その答えはグラフを見れば一目瞭然です。多くの「CPU性能律速アプリ」は追従していますが、「メモリ律速型アプリ」は追従していません。予想通りの結果が得られています。

歴代Xeon DPプロセッサ俯瞰からみるシステム導入の指針

 2006年から2008年にかけて提供されたCore MAに属する5100番台から5400番台のプロセッサとそれ以降のNehalem MAのプロセッサでは、利用アプリケーションによって性能向上の度合いが決定的に違います。「メモリ律速型アプリ」を利用されている場合にシステムの処理速度でお困りの場合はNehalem MAで解決できます。また、設置スペースや消費電力、メモリサイズなどでお困りの場合もNehalem MAで解決できます。「CPU性能律速アプリ」を利用されている場合は、システムの性能向上はなだらかに上向いていますから、定期的なシステム更新で対応できます。

トピックス (QPIとメモリ帯域幅)

 Nehalem MAから新たに登場した「QPI (QuickPath Interconnect)」はCPU間を接続する通信デバイスとして知られています。その速度は4.86GT/s、5.86GT/s、6.4GT/sの3種類があり、これらはCPU側で決められているとのことです。またメモリ速度もQPIの速度によって律速され、高速なメモリを搭載していてもQPIの速度が低い場合は自動的にQPIの速度に合わせられる仕様になっています。では、QPIの性能と実際のアプリケーションの性能にはどのような相関関係があるのでしょうか。

 幸いなことに、上記のグラフを見るとQPI速度が「メモリ律速型アプリ」の実行速度と強い相関関係を持っていることを示していました。グラフの中で青の破線で表示している「メモリ理論性能」はQPIの速度でもあるからです。「メモリ律速型アプリ」用の計算機を選択する場合はQPIの速度にも注意が必要です。

平行処理性能を評価する「SPEC CFP2006 Rates」について

 計算機はシリアル計算処理能力の高さに関心が寄せられます。しかしHPC計算機で重要な性能は平行処理能力の高さです。マルチコア化が進行中の現在では計算速度の向上はマルチコアを利用した並列処理が中心となるからです。平行処理能力が高いと、スループット性能のみならず、並列計算の高速化も実現できるということになるのです。この平行処理性能を測定するベンチマークテストがSPECfpベンチマークの中の「SPEC CFP2006 Rates」 (以下「SPECrate」と略) と呼ばれるテストです。

 SPECrateで行われているテストの概要をお伝えします。SPECrateはHPCを代表する17種類のアプリケーションを用いて計算機のテストを行いスループット性能を導き出しています。その具体的な方法は、各アプリケーション別に対象となる計算機上で、最もスループットが高くなるような数のジョブを平行に動作させ、全てのジョブが完了するまでの時間を測定し、その幾何平均値から性能を得ています。しかしこのSPECrate値は平均値であるため、個別のアプリケーションでの性能を表してはいません。特にマルチコア化が進んだ現在では、「メモリ性能ボトルネック」による性能停滞と「CPU性能ボトルネック」による性能停滞が発生するアプリケーションが異なるので、これらが混ざった幾何平均値は計算機の評価には適さなくなっています。

 しかし幸いなことに、SPECrateの結果報告の中では各アプリケーション毎の経過時間が詳細に公開されています。このデータを利用することで各アプリケーション毎の計算機の性能を確認することができます。そこで当ページでは個々のアプリケーションの処理時間を引用することで現実的なCPUの性能の調査を目指しています。

※ 上記グラフはSPEC CFP2006に公開されている資料を参照して作成しています。

SPEC CFP2006で利用されている浮動小数点演算アプリケーションの一覧。
(公開されているSPEC CFP2006より転記しています。)

bwaves (Fortran) : Computational Fluid Dynamics
gamess (Fortran) : Quantum chemical computations
milc (C) : Physics/Quantum Chromodynamics
zeusmp (Fortran) : Physics/Magnetohydrodynamics
gromacs (Fortran and C) : Chemistry/Molecular Dynamics
cactusADM (Fortran and C) : Physics/General Relativity
leslie3d (Fortran) : Computational Fluid Dynamics
namd (C++) : Classical Molecular Dynamics Simulation
dealII (C++) : Adaptive Finite Element Method
soplex (C++) : Simplex Linear Program (LP) Solver
povray (C++) : Computer Visualization
calculix (Fortran and C) : Structural Mechanics
GemsFDTD (Fortran) : Computational Electromagnetics
tonto (Fortran) : Quantum Crystallography
lbm (C) : Computational Fluid Dynmaics
wrf (Fortran and C) : Weather Forecasting
sphinx3 (C) : Speech Recognition

本サイト記載の会社名および製品名は、それぞれ各社の商標または登録商標です。

【SPEC CPU2006の公開データを資料として引用】

SPEC, SPECint and SPECfp are resistered trademarks of the Standard Performance Evaluation Corporation. For more information on this SPEC benchmarks see www.spe.org. SPEC and the benchmark name SPEC CPU2006 are registered trademarks of the Standard Performance Evaluation Corporation. Competitive benchmark results stated above reflect results published on www.spec.org as of March, 2010. The comparison presented above is based on the best performing 2-cpu servers currently shipping by Fujitsu Limited and Dell Inc. For the latest SPEC CPU2006 benchmark results, visit http://www.spec.org/cpu2006/