お問い合わせ | 導入事例 | HPC計算機 | 管理サーバ/ファイルサーバ | オプション | OS/開発環境 | アプリ | システム構築 | サポート | FAQ | ベンチ | 技術情報 | 購入案内

◆ プロセッサの性能調査

・ もくじ

・ X86系CPUの特徴

・ SPECベンチを利用した計算機調査

◆ XeonDPの性能調査

1-1 Westmere-DPの性能を調査(速報)

1-2 歴代Xeon DPの性能を俯瞰

1-3 最新Westmere-EPの性能を俯瞰

1-4 Xeon DPとXeon MPの性能を調査

1-5 将来のXeon DPの性能を予想

1-6 シリアル性能の調査

◆ Xeon MPの性能調査

2-1 Nehalem-EXの性能を調査(速報)

2-2 歴代Xeon MPの性能を俯瞰

2-3 最新Nehalem-EXの性能を俯瞰

2-4 Xeon MPとXeon DPの性能を調査

2-5 将来のXeon MPの性能を予測

2-6 シリアル性能の調査

◆ Opteron MPの性能調査

3-1 Magny-Coreの性能調査

◆ その他の性能調査

3-1 TopCrunchスループット性能調査

歴代のXeon MPと最新Nehalem-EXの性能特性をSPEC CFP2006を利用して調査

 2ソケット版のXeon DPプロセッサが「Nehalem Microarchitecture」に切り替わった後も、4ソケット版のXeon MPプロセッサは前世代の「Core Microarchitecture」の使用を継続していました。このCore Microarchitectureは全てのプロセッサが単一メモリバスを共有するため、プロセッサ数やコア数の増加に対応したメモリバンド幅の拡大が難しいという課題を持っていました。そのため、「CPU性能律速型アプリケーション」では性能の向上が期待できましたが、「メモリ性能律速型アプリケーション」ではメモリ性能ボトルネックが発生し性能向上が停滞していました。

 このXeon MPプロセッサが待望のモデルチェンジを行いました。今回採用されたNehalem Microarchitectureは各プロセッサが個々にメモリコントローラを持ちプロセッサ数に比例したメモリバンド幅を実現できます。さらに各プロセッサに搭載されるメモリコントローラは4本のチャンネルを持ち約42.5GB/sのメモリ帯域幅を実現しています。これは2ソケットのXeon DPでの32GB/sよりも高速です。その結果、4ソケットのシステム全体では約170GB/sの総メモリバンド幅を実現しています。

インテル系の4ソケット機がHPC用途で最高の性能を達成

 下記のグラフはSPEC fp-rateで公開されている各CPUのベンチマーク結果から、該当CPUのアプリケーション別の処理時間を抽出したうえで、比較の基準値としてXeon X7550 2.26GHz 32Coreの結果を用い、比較対象となるプロセッサでのアプリケーション別のスループット性能との比率をグラフ化したものです。なお、グラフを分かりやすくするために補助線を追加しています。赤の破線はCPUの理論性能をあらわす補助線、青の破線はメモリの理論性能をあらわす補助線です。

 このグラフの最左端は「NetBurst Microarchitecture」の計算機、次が「Core Microarchitecture」に属する歴代の計算機が並べられています。この両者は、赤い破線であらわしたCPUの理論性能は順調に向上しています。「CPU性能律速型アプリケーション」の実効性能もそれに倣って向上しています。ところが、青い破線であらわした「理論メモリ帯域幅」は向上していません。そのため「メモリ性能律速型アプリケーション」の実効性能は向上していません。

 これら過去の計算機に対してグラフの右端の3台の計算機は最新のNehalem Microarchitectureを採用したものです。これらの計算機は急激な性能向上をしています。QPI 性能が6.4GT/sと表記されているプロセッサは各プロセッサあたり42.5GB/sの理論メモリ帯域幅を持ち、4ソケットのシステム全体では170GB/sのメモリ帯域幅を持っています。そのため青い破線であらわしたメモリ帯域幅は素晴らしく高い性能を示しています。当然、「メモリ性能律速型アプリケーション」の実効性能の向上も素晴らしい結果です。遂にインテル系の4ソケット機がHPC用途で最高の性能を達成しました。

 ここで注意していただきたいのはこれらの計算機のCPUクロック速度は2GHzと低い周波数で動いていることです。トランジスター数が増加したことで全体の消費電力が増大したため、やむを得ずクロック速度の低下に踏み切ったようです。その結果折角コア数が増えたのに、その性能上昇を打ち消すような事態になっています。これは現在のNehalem-EXが従来型の45nmの製造プロセスを採用しており、消費電力の制約からこのクロック速度が限界のようなのです。しかし近い将来、製造プロセスが32nmへと移行すると、CPUクロック速度の向上が行われ、このジレンマが解消されると考えられます。

 

※ 上記グラフはSPEC CFP2006に公開されている資料を参照して作成しています。

SPEC CFP2006で利用されている浮動小数点演算アプリケーションの一覧。
(公開されているSPEC CFP2006より転記しています。)

bwaves (Fortran) : Computational Fluid Dynamics
gamess (Fortran) : Quantum chemical computations
milc (C) : Physics/Quantum Chromodynamics
zeusmp (Fortran) : Physics/Magnetohydrodynamics
gromacs (Fortran and C) : Chemistry/Molecular Dynamics
cactusADM (Fortran and C) : Physics/General Relativity
leslie3d (Fortran) : Computational Fluid Dynamics
namd (C++) : Classical Molecular Dynamics Simulation
dealII (C++) : Adaptive Finite Element Method
soplex (C++) : Simplex Linear Program (LP) Solver
povray (C++) : Computer Visualization
calculix (Fortran and C) : Structural Mechanics
GemsFDTD (Fortran) : Computational Electromagnetics
tonto (Fortran) : Quantum Crystallography
lbm (C) : Computational Fluid Dynmaics
wrf (Fortran and C) : Weather Forecasting
sphinx3 (C) : Speech Recognition

本サイト記載の会社名および製品名は、それぞれ各社の商標または登録商標です。

【SPEC CPU2006の公開データを資料として引用】

SPEC, SPECint and SPECfp are resistered trademarks of the Standard Performance Evaluation Corporation. For more information on this SPEC benchmarks see www.spe.org. SPEC and the benchmark name SPEC CPU2006 are registered trademarks of the Standard Performance Evaluation Corporation. Competitive benchmark results stated above reflect results published on www.spec.org as of March, 2010. The comparison presented above is based on the best performing 2-cpu servers currently shipping by Dell Inc. For the latest SPEC CPU2006 benchmark results, visit http://www.spec.org/cpu2006/