お問い合わせ | 導入事例 | HPC計算機 | 管理サーバ/ファイルサーバ | オプション | OS/開発環境 | アプリ | システム構築 | サポート | FAQ | ベンチ | 技術情報 | 購入案内

◆ プロセッサの性能調査

・ もくじ

・ X86系CPUの特徴

・ SPECベンチを利用した計算機調査

◆ XeonDPの性能調査

1-1 Westmere-DPの性能を調査(速報)

1-2 歴代Xeon DPの性能を俯瞰

1-3 最新Westmere-EPの性能を俯瞰

1-4 Xeon DPとXeon MPの性能を調査

1-5 将来のXeon DPの性能を予想

1-6 シリアル性能の調査

◆ Xeon MPの性能調査

2-1 Nehalem-EXの性能を調査(速報)

2-2 歴代Xeon MPの性能を俯瞰

2-3 最新Nehalem-EXの性能を俯瞰

2-4 Xeon MPとXeon DPの性能を調査

2-5 将来のXeon MPの性能を予測

2-6 シリアル性能の調査

◆ Opteron MPの性能調査

3-1 Magny-Coreの性能調査

◆ その他の性能調査

3-1 TopCrunchスループット性能調査

TopCrunch (http://www.topcrunch.org/) のベンチ結果を引用してCPU特性を観察

The TopCrunch project (http://www.topcrunch.org/)

 「The TopCrunch project (http://www.topcrunch.org/) 」は「LS-DYNA」による計算機システムのベンチマークテスト結果を継続的に収集・公開しているサイトです。そこで本ページでは、TopCrunchに公開されているベンチマーク結果を引用し、最新のXeon DP Westmerer-EPと、Xeon MP Nehalem-EXによってLS-DYNAの並列性能が向上している様子を、ノード内並列性能と、ネットワーク並列性能の双方について観察します。また引用したデータをグラフ化することで、アーキテクチャ、メモリバンド幅、CPUコア数、CPUクロック速度などの違いによって、LS-DYNAの並列性能がどのように変化するのかということを直観的に理解しやすくしています。なお補助線として、「CPUの総理論性能」を赤色の破線で、「メモリの総理論性能」を青色の破線で示します。これらの補助線はSPECベンチマークによる性能観察のグラフで用いている補助線と同じ算出方法で描いていますから、SPEC値グラフとTopCrunch値グラフの比較を容易に行えます。

Xeon DP単体機によるLS-DYNAノード内並列性能のグラフ

 最初のグラフは4世代にわたるXeon DP単体機上でのTopCrunch標準ベンチマークテストのひとつ、「LS-DYNAでの3Vehicle Collisionモデル」によるノード内並列性能ベンチマークテスト結果のグラフです。緑色の線がLS-DYNAの並列性能です。縦軸は基準となるXeon DP Westmere-EP X5670 2.93GHz 12Core機による12並列処理性能を100%とした場合の他の計算機の処理性能を比率で表しています。横軸は各計算機を登場年月順での性能順に並べています。また参考にXeon MP Nehalem-EX 4CPU 32Coreの結果も一番右側に掲載しています。

 最初の世代はCore Microarchitecture 65nmプロセス世代に属するDual-Core Xeon 5100番台とQuad-Core Xeon 5300番台です。次の世代は、同じくCore Microarchitecture 45nmプロセス世代に属するDual-Core Xeon 5200番台とQuad-Core Xeon 5400番台です。これら両世代はフロントサイドバス方式を採用しているため、CPUのメモリバンド幅が10GB/s強しか与えられておらず、「メモリ性能律速型アプリケーション」では並列性能の向上に限界がありました。事実グラフを見ると、CPUコア数が4コア化しても僅かしか性能向上していません。そのため、この世代の計算機で並列性能を得るためにはネットワーク並列を利用して総メモリ帯域幅を増やし、「メモリ性能律速」を解消する必要がありました。

 ところが3世代目のNehalem Microarchitecture 45nmプロセス世代に属するQuad-Core Xeon 5500番台や、4世代目の同じくNehalem Microarchitecture 32nmプロセス世代に属するOctal-Core Xeon 5600番台は大きな並列性能の向上を示しています。その理由は、アーキテクチャの更新によるメモリ帯域幅の大幅な向上によるものです。Nehalem Microarchitectureは各プロセッサに3基のメモリチャンネルを持つメモリコントローラを搭載し32GB/sのメモリバンド幅を持っています。これはCore Microarchitectureと比較すると3倍の性能向上です。さらに、CPU間の通信にはQPIと呼ばれる専用の通信デバイスを経由して行っています。その結果マルチコアによる並列処理の効率が向上しています。

 ここで注目していただきたい点として、6コアを実現したNehalem Microarchitecture 32nm機での並列性能です。メモリ帯域幅が増えたことで6コア化による大きな性能向上が期待されましたが、実際の性能向上は理論性能の約半分です。これは並列化ボトルネックとメモリボトルネックの影響が複合していると考えられます。

 また別に注目していただきたい点があります。それはXeon E5560 2.8GHz 8コアとXeon X5570 2.93GHz 8コアでの並列性能の上昇率はクロック速度の上昇率と同水準であるということです。メモリボトルネックは発生していないようです。

 これらの結果を総合すると、ネットワーク並列に頼らずノード内並列計算によって性能を求める場合は、ライセンス費まで含めたコストパフォーマンスを考える必要があります。さらにこれ以上の性能を求める場合は最新の4ソケット32コア機が控えています。面倒なネットワーク並列を利用することなくさらなる高速化が可能です。

Xeon DPによるLS-DYNAネットワーク並列性能のグラフ

 そこで次にネットワーク並列の場合はどのような傾向を示すのでしょうか。そこで、歴代の2ソケット系Xeon DP計算機のネットワーク並列性能の結果を「TopCrunch (http://www.topcrunch.org/) 」より引用してグラフ化しました。さらに、参考として4ソケット例Xeon MP Nehalem-EX 1node 4CPU 32coreの結果も追記しました。また補助線として、「CPUの総理論性能」を赤色の破線で、「メモリの総理論性能」を青色の破線で示します。なおこれらの補助線はSPECベンチマークによる性能観察グラフで用いているものと同じ値です。

 LS-DYNAはネットワーク並列の効率は良いようです。2ノード24並列程度の計算ならGbEでも十分性能が出るようです。ネットワーク並列を利用することで、総合メモリ帯域幅を優先して確保し、CPU性能も獲得するという方法がコストパフォーマンスが良いようです。Xeon DP 2node 4CPU 24Core GbE 24並列とXeon MP 1node 4CPU 32Core 32並列の性能は同水準ですから、ライセンス費を考慮するとネットワーク並列に軍配が上がりそうです。

 Nehalem-EX 1node 4CPU 32coreによる32並列も相応の性能が出ています。ネットワーク並列を利用しないので運用の自由度が高くシステムもシンプルです。メモリ帯域幅も十分にあります。しかしこのプロセッサは現在は45nmプロセスを利用しているためCPUクロック速度を高くできません。その結果現状では6コア搭載モデルであるX7542 2.66GHzを選択する方がトータルのコストパフォーマンスは良くなると考えられます。このプロセッサが32nmプロセスを採用しクロック速度を高めることができるようになるとHPC計算機の主流が2ソケット機から4ソケット機に移る可能性が十分にあります。唯一の課題はアーキテクチャ更新のタイムラグです。

 

 

 

【出典】

このページのグラフは「TopCrunch (http://www.topcrunch.org/) 」に公開されているデータを引用して作成しています。より詳細なベンチマーク情報は「TopCrunch (http://www.topcrunch.org/) 」をご覧ください。