お問い合わせ | 導入事例 | HPC計算機 | 管理サーバ/ファイルサーバ | オプション | OS/開発環境 | アプリ | システム構築 | サポート | FAQ | ベンチ | 技術情報 | 購入案内

◆ プロセッサの性能調査

・ もくじ

・ X86系CPUの特徴

・ SPECベンチを利用した計算機調査

◆ XeonDPの性能調査

1-1 Westmere-DPの性能を調査(速報)

1-2 歴代Xeon DPの性能を俯瞰

1-3 最新Westmere-EPの性能を俯瞰

1-4 Xeon DPとXeon MPの性能を調査

1-5 将来のXeon DPの性能を予想

1-6 シリアル性能の調査

◆ Xeon MPの性能調査

2-1 Nehalem-EXの性能を調査(速報)

2-2 歴代Xeon MPの性能を俯瞰

2-3 最新Nehalem-EXの性能を俯瞰

2-4 Xeon MPとXeon DPの性能を調査

2-5 将来のXeon MPの性能を予測

2-6 シリアル性能の調査

◆ Opteron MPの性能調査

3-1 Magny-Coreの性能調査

◆ その他の性能調査

3-1 TopCrunchスループット性能調査

新Opteron (Interlagos)の性能をSPECfp2006の結果を引用して調査

新Opteron (Interlagos)の性能を
SPECfp2006の結果を引用して調査
(2011.11.17〜)

はじめに

新Opteron (Interlagos) の発表

 新Opteron 「開発コード名:Interlagos」(以下、Interlagos)が発表され、あわせてSPECfp 2006のベンチマークサイトにもInterlagosのテスト結果が公表されました。

 Interlagosの性能については「すごく速そうだ」とか、「いやそれほどでもない」とか、これまでさまざまな憶測が飛び交ってきました。これはInterlagosについての正確な情報が少なかったことが原因です。しかしInterlagosのテスト結果がSPECfp 2006のベンチマークサイトに公表されたことで、ようやく実際の性能が明らかになってきました。

Interlagosの第一印象

 最初にSPECfp 2006ベンチマーク結果の全体を俯瞰して、Interlagosの基本性能を確認したところ、次のような印象を受けました。

・ Interlagosは半導体製造プロセスを32nmへと微細化し、搭載するトランジスタ数とコア数が増加
・ Interlagosはコア数に比例し、CPU性能律速型アプリの浮動小数点演算性能と整数演算性能が高速化
・ Interlagosはメモリ動作周波数が高速化し、それに比例してメモリ性能律速型アプリが高速化
・ 半導体製造プロセスが32nmへ微細化したことでコストパフォーマンスと消費電力性能が向上
・ Interlagosは手堅い性能向上を追及、新機軸による性能向上は先送り

競合プロセッサの状況 (WestmereとSandy Bridgeのこと)

 ここで視点を変え、競合プロセッサの状況を確認します。昨年のXeon系製品の将来予想では、2ソケット版のSandy Bridge (以下、Sandy Brisge 2S) は今年後半から販売が始まる予定でした。ところが、Sandy Bridge 2Sは新技術を採用するなどの影響で製品化に予想以上の時間がかかり、製品化の時期は来年前半までズレこむとの観測されています。これはInterlagosにとって幸運なことです。それまでの間、Interlagosは現Xeon 「開発コード名:Westmere」(以下、Westmere) と競争するだけで済むからです。

 そのスケジュールが遅れているSandy Bridge 2Sとはどのようなプロセッサなのでしょうか、どこが優れているのでしょうか。1つ目の特徴は、「AVX」と呼ばれる256bit幅の新命令セットを採用し、浮動小数点演算性能を倍増させていることです。2つ目の特徴は、今後のシステムの高速化に備え、CPU内部の通信方式をスイッチ方式からリングバス方式に変更し、内部通信性能の向上の余地を確保したことです。将来の高速化を見越した設計の改良です。

 もちろんこのような改良の効果は、Sandy Bridgeを導入するだけで直ぐに得られるものではありません。そのためには、アプリケーションのAVXへの最適化や開発環境の改良が必要であり、その完成には長い時間かかります。このタイミングを見極めたうえでシステムを設計することが重要です。

 なお、インテルの公式プレスリリースによると、Sandy Bridge 2Sプロセッサは、既に一部の大型センターに対しては先行して提供が始まっているようです。しかし、市場への本格的な提供は2012の上半期になるようです。このことから製品の歩留まりが問題になっているのかもしれません。

主要なプロセッサの基本性能表

 さらに視点を広げ、現在の主要なプロセッサの状況を知るため、それらの基本性能を一覧表にしました。未発表のSandy Bridge 2Sも推定値として記載しています。

 この表で、Interlagos 2SとWestmere 2Sを比較すると、InterlagosのCPU総理論性能は8割高く、メモリ総理論性能も6割高いのです。またInterlagos 4SとWestmere 4Sを比較すると、InterlagosのCPU総理論性能は5割高く、メモリ総理論性能も3割高いのです。このように、InterlagosとWestmereを比較すると、Interlagosの理論性能は非常に高く、強い競争力を持つプロセッサであることがわかります。

 次に、InterlagosとSandy Bridgeを比較すると、広く利用されている128bit命令セットで動作するアプリケーションを使う場合はInterlagosが優位ですが、新しい256bitのAVX命令セットで動作するアプリケーションを使う場合は、Sandy Bridgeが優位性になる可能性があります。

 計算機の利用期間の全体を考慮すると、アプリケーションがAVXへ移行するタイミングが重要です。、アプリケーションが早期にAVXに対応すると予想できるなら早期のSandy Bridgeの導入が賢明です。AVX対応に時間がかかると予想されるならInterlagosの導入が賢明です。次期の本命はSandy Bridge 2Sであることは疑いようがありません。Interlagosはそれが登場するまでの中継ぎであり、その活用手腕が課題です。

プロセッサ CPU総理論性能
(GFLOPS)
メモリ総理論性能
(GB/s)
2S Xeon X5690 3.46GHz DDR3-1333MHz 2p 12c (32nm Westmere 2S) 166 64
Opteron 6176 2.3GHz DDR3-1333MHz 2p 24c (45nm Magny-Cours 2S) 221 85
Opteron 6276 2.3GHz DDR3-1600MHz 2p 32c (32nm Interlagos 2S) 294
(AVX : 294)
102
(未) (E5 2.8GHz DDR3-1600MHz 2p 16c (Sandy Bridge)) * 179
(AVX : 358)*
(102) *
4S Xeon E7-4870 2.4GHz DDR3-1066MHz 4p 40c (32nm Westmere 4S) 384 157
Opteron 6176 2.3GHz DDR3-1333MHz 4p 48c (45nm Magny-Cours 4S) 442 170
Opteron 6276 2.3GHz DDR3-1600MHz 4p 64c (32nm Interlagos 4S) 589 205


* インテルのプレスリリースを基本に推定値を交えた値

SPECfp 2006を用いて理論性能と実効性能の違いを確認

 しかし、Interlagosの理論性能がいくら高くても、実効性能が伴わなければ絵に描いた餅です。そこでSPECfp 2006の結果を引用して、Interlagosの実効性能をアプリケーション別に調査します。調査の報告は三部構成とします。

 第一部の報告は、新旧Opteronの性能比較です。旧Opteron 45nm Magny Coursから、新Opteron 32nm Interlagosに更新されたことで、Interlagosの性能のどこがどれほど向上したのかを明らかにします。具体的にはクロック速度の異なるプロセッサの比較や、バンド幅が異なるメモリの比較を行います。これらの結果の比較によってOpteronの基本特性を深い所から明らかにします。

 第二部の報告は、サーバーベンダー別のシステムレベルの比較です。ここでは性能の優劣を議論するのではなく、サーバの設計思想につてい考えます。

 第三部の報告は、新Opteron Interlagosと競合プロセッサXeon Westmereとの比較です。理論性能ではInterlagosが圧勝していますが、アプリケーションの種類や利用方法によっては、Xeon Westmereを選択する方が良い場合もあります。場合によってはSandy Bridge 1Sを導入した方が良い場合もあります。ここではそのための判断材料となるよう、幅広いサーバを比較します。

SPECfp 2006ベンチマークテストを用いた性能調査の概要

 次は、SPECfp 2006ベンチマークテストに詳しくない方のために、このテストの概略をお伝えします。もしSPECfp 2006に詳しい方はこの節は読み飛ばしてください。

 SPECfp 2006はHPC分野を代表する17種類のアプリケーションのソースコードで構成されたベンチマークテストセットです。テストする際には、これらのアプリケーションをソースコードから無改造でコンパイルし、そこで生成された実行モジュールを使って計算機をテストしなければなりません。また、ベンチマークで使用したハードウェアやOS、開発環境、コンパイルオプションなどについては再現性を担保するため内容を詳細に公開しなければなりません。

 SPECfp 2006は2種類の異なる実行方法でテストされます。1番目のテストは、計算機のシリアル処理性能を調査する「SPECfp 2006」です。このテストでは異なる17本のアプリケーションをそれぞれシリアル処理させ、その経過時間を幾何平均した値を計算機の性能とします。2番目のテストは、計算機のスループット性能を調査する「SPECfp 2006 rate」です。このテストでは異なる17本のアプリケーションをそれぞれスループットが最高になるように同時平行処理させ、その経過時間を幾何平均した値を計算機の性能とします。

 しかし、平均値による評価では、計算機の性能の全体的な傾向は把握できますが、個々のアプリケーションごとに絞った傾向は把握できません。平均値による計算機の評価は不特定多数のユーザがランダムにジョブを投入する大型計算センターの計算機を選定する作業には適していますが、ひとつのアプリケーションを動作させ続ける専用計算機を選定する作業には適していません。

 ところが幸いなことに、SPECfp 2006のサイトでは、各計算機のテスト結果ごとに、各アプリケーション別の経過時間が公表されています。これを用いると計算機の性能をアプリケーション別に評価することができます。そのためSPECfp 2006のテスト結果は専用計算機のベンチマークテストとしても十分に活用することができます。

 また、もしお客様が使われているアプリケーションがSPECfp 2006の17種類のアプリケーションに含まれていなくても、SPECfp 2006による計算機テスト結果を計算機選択の的確な指針として利用することができます。それは具体的には次のようにします。

 SPECfp 2006で用いられている各アプリケーションは、それぞれのおおまかな特性がわかっています。すなわち、どのアプリケーションがCPU性能律速型であり、どのアプリケーションがメモリ性能律速型であるかということがわかっているということです。これを利用して、もしお客様のアプリケーションの特性がわかっているなら、それと近い傾向を持つアプリケーションの結果を参考にすることで、計算機を新しくした場合の性能向上の見当を付けることが可能になります。

SPECfp 2006ベンチマーク結果を使ったグラフ

 このような考えに基づき、SPECfp 2006の結果を引用して、各プロセッサについてのアプリケーション別の性能評価グラフを視点を変えて何点か作りました。これらのグラフは次のような方法で作成しています。

・ 基準となる計算機を定め、それを100%として、そこからの性能向上率を縦軸にとりアプリケーション別にプロット
・ グラフの色は、赤色がCPU性能律速型アプリを表し、青色がメモリ性能律速型アプリを表す
・ 補助線として、赤色の太破線はCPU総理論性能を表し、青色の太破線はメモリ総理論性能を表す


第一部 新旧Opteronの性能比較

InterlagosはMagny-Coursよりも
どれだけ速くなったのか

 このグラフは新旧Opteron同士の比較です。旧Opteron 45nm Magny-Coureから、新Opteron 32nm Interlagosになったことで性能がどれほど向上したのかをアプリケーション別にプロットしています。

 基準機は、45nm Magny-Cours 6176 2.3GHz 2CPU 24-coreです。このグラフは2ソケット機の比較と、4ソケット機の比較を左右に並べて表記しています。

 このグラフではサーバメーカの違いによるマザーボードの性能差の影響を排除するため、A社のサーバに限定してグラフに使っています。ただし、A社のサーバの特性を確認するためB社のサーバを一台だけ比較用に追加しています。

 グラフの計算機を左から順に説明します。1番目の計算機は、基準機となる旧45nm Magny-Cours 6176 2.3GHz 2CPU 24-core DDR3-1333MHzです。

 2番目の計算機は、新Interlagos 6220 3.0GHz 2CPU 16-coreです。基準機と比較するとクロック速度は速くなっていますがコア数が少なくなり、CPU総理論性能は低下しています。そのためCPU性能律速型アプリケーションのスループット性能も低下しています。

 2番目の計算機で不思議なことが起こっています。赤色の太破線で示したCPU総理論性能よりも、いくつかのCPU性能律速型アプリケーションの実行性能が低くなっていることです。これは予想外のことです。

 そこで、CPU性能律速型アプリケーションについて、理論値からどれだけ性能が低下しているのかを確認するため、各アプリケーションについての理論値からの性能低下率を記した下表を作成しました。

 欄の説明をすると、左端の欄は「アプリケーション名」、次は「基準機からの変化率の値」、3番目は「CPU総理論性能から「基準機からの変化率」を引いた値」、4番目は「アプリケーションの内容」です。

アプリケーション名

基準機
からの変化率

CPU総理論性能から
基準機からの変化率を
引いた値
アプリケーションの内容
CPU総理論性能 87% 0% Total Ideal Speed
dealII  95% -8% Adaptive Finite Element Method
cactusADM 86% 1% Physics/General Relativity
gromacs  84% 3% Chemistry/Molecular Dynamics
zeusmp  83% 4% Physics/Magnetohydrodynamics
calculix 81% 6% Structural Mechanics
namd 71% 16% Classical Molecular Dynamics Simulation
tonto 68% 19% Quantum Crystallography
povray 64% 23% Computer Visualization
gamess 55% 32% Quantum chemical computations

 「アプリケーション名」欄の背景色がクリーム色の4本のアプリケーションが性能低下の著しいものです。これらはInterlagosとの相性が良くありません。特に相性の良くないアプリケーションがGamessです。注意が必要です。

 しかしこの4本のアプリケーションの性能低下は、A社のサーバに固有の問題かもしれません。そこで念のため、他社のサーバとも比較します。そのため3番目のB社の計算機を追加しました。この計算機はメモリがDDR3 1333MHzであること以外はA社の計算機と同じ仕様です。

 2番目と3番目のサーバを比較すると、CPU性能律速型アプリケーションの性能低下は同じ傾向を示しています。このことから、この性能低下は一般的な傾向でした。

 次に、2番目の計算機のメモリ性能律速型アプリケーションの性能を調べます。青色の太破線はメモリ総理論性能を示しています。Interlagosはメモリバンド幅が102GB/sになりMagny-Coursでの性能を20%も上回っています。そのため青色の線で示したメモリ性能律速型アプリケーションは理想的な性能向上を示すことを期待していました。しかし、グラフを見ると理想値を大幅に下回っていました。

 この現象もA社のサーバに固有の現象である可能性があるので、隣のB社のサーバと比較すると、B社のサーバでも同じような傾向を示していました。この性能低下は一般的な傾向のようです。(もっともB社のサーバはDDR3 1333MHzメモリを搭載しているため説得力は弱いです)

 この結果だけを見ると「Interlagosはメモリ性能律速型アプリケーションとの相性は良くない」という印象を受けます。しかし、さらに右側にある24コアや32コアでのテスト結果を見ると性能は回復しています。

 これらのことから、Interlagos 6220を搭載した計算機は、HPC計算には適していないことがわかります。例外はシリアル処理の絶対性能の高さが求める場合に限られます。

 4番目の計算機は、Interlagos 6238 2.6GHz 2CPU 24-coreです。クロック速度はさらに低くなりましたが、コア数が増えたため、CPU総理論性能は旧Opteron 6176を13%も上回っています。そのためCPU性能律速型アプリケーションは軒並み性能が向上しています。メモリ総理論性能も旧Opteronを20%も上回り、メモリ性能律速型アプリケーションの実効性能も向上しています。このプロセッサはHPC用途に適しています。

 5番目の計算機は、Interlagos 6276 2.3GHz 2CPU 32-coreです。クロック速度はさらに低くなっていますが、コア数がさらに増え32個になったため、CPU総理論性能は旧Opteron 6176を33%も上回っています。そのためCPU性能律速型アプリは軒並み性能が向上しています。しかしメモリ総理論性能は同じです。そのためメモリ性能律速型アプリの性能は変化していません。このプロセッサもHPC用途に適しています。

 6番目の計算機は、Interlagos 6282SE 2.6GHz 2CPU 32-corです。クロック速度は再び上昇し、コア数は32個です。CPU総理論性能は旧Opteron 6176を51%も上回っています。そのためCPU性能律速型アプリは軒並み性能が向上しています。しかしメモリ総理論性能は同じです。そのためメモリ性能律速型アプリの性能は変化していません。このプロセッサもHPC用途に適しています。しかし消費電力が大きく熱問題を誘発するリスクがあります。

 ここまでが2ソケット機についての説明です。ここまでの調査でOpteronがMagny-CoursからInterlagosへ世代交代したことによる性能の基本的な変化を把握していただけたと思います。

 次に4ソケット機の説明です。

 7番目の計算機は4ソケットの旧45nm Magny-Cours 6176 2.3GHz 4CPU 48-coreです。計算機が4ソケット化するとCPU総理論性能とメモリ総理論性能はそれぞれ2倍に増加します。そのため全ての4ソケットの計算機は、同じプロセッサを搭載する2ソケットのプロセッサの2倍の性能を発揮する筈です。

 そこで、7番目以降の計算機は、個々の計算機の性能の変化を見るよりも、2ソケット機と4ソケット機の性能比較を行い、その差を評価することで、より有益な情報が得られると考えました。

 これを受けて、同じ仕様の2ソケット機と4ソケット機同士の性能を比較した結果を表にまとめました。具体的には、4ソケット機の性能向上率から2ソケット機の性能向上率を2倍にして差を求めています。

 この表を見ると、"provray"という可視化のアプリケーションを除く他の全てのアプリケーションのスループット性能が2ソケット機のほぼ2倍の性能を示していることがわかります。4ソケット機は理想的な性能向上を示しています。個々のプロセッサについては、2ソケット機の評価を流用できます。

  2ソケット機と4ソケット機の効率の差
CPU 6176 6220 6238 6276 6282SE
アプリケーション
bwaves   -1% 1% -1% 1% -1%
gamess  0% 0% 0% 0% -3%
milc  -2% 1% 1% 2% 0%
zeusmp  0% 0% 0% -1% -2%
gromacs  0% 0% 0% 0% 0%
cactusADM  -2% -1% -1% 0% -2%
leslie3d  -2% 0% 1% 2% 0%
namd  0% 0% 0% -2% 1%
dealII  0% -1% -7% -4% -5%
soplex  -5% -2% 5% -2% 0%
povray  -1% -3% -5% -18% -28%
calculix  0% 0% 0% 0% -2%
GemsFDTD  -2% 1% 1% 3% 1%
tonto  -1% 0% -1% 0% -1%
lbm  -1% 0% 1% 1% 1%
wrf  -3% -2% 1% 2% 0%
sphinx3  -1% -1% -2% -4% -3%

 以上でInterlagosとMagny Coursの性能比較は終わります。

 なお、今回はグラフ化していませんが整数演算性能についてもこの傾向は同じです。バイオインフォマティクス計算などで大量の整数演算を実施されるお客様は弊社に連絡していただけたら資料をご提供します。


 

DDR3 1600MHzメモリを使うと
アプリケーションは本当に速くなるのか

 次はInterlagosの特徴のひとつであるDDR3 1600MHzという高速メモリに関する調査です。InterlagosはDDR3 1600MHzという従来のDDR3 1333メモリよりも20%も高速なメモリを搭載できます。この高速なメモリがメモリ性能律速型アプリケーションにどれほど効果があるかは関心の集まるところです。

 幸いになことにSPECfp 2006のサイトには、DDR3 1600MHzメモリを使ったA社のサーバ群と、DDR3 1333MHzメモリを使ったB社のサーバ群による網羅的なテスト結果が公開されています。この両社のサーバの結果を比較することでメモリ性能の向上がメモリ性能律速型アプリケーションにどれほど効果があるかを調べることができます。そこでさっそくアプリケーション別に両者の性能を比較するグラフを作成しました。

 このグラフの基準機は左から3番目のB社のOpteron 6276 2.3GHz DDR3 1333MHz 2CPU 32-coreです。グラフはこれを基準の100%としてアプリケーション別の相対性能を計算機ごとにプロットしています。

 またグラフは、メモリの速度別に左右に分かれています。グラフの左側はDDR3 1333MHzメモリを搭載したB社のサーバ群、グラフの右側はDDR3 1600MHzメモリを搭載したA社のサーバ群です。掲載しているプロセッサは全てInterlagosです。

 さらにグラフの右側の 「参考 (ア)」 と区分された2台の計算機は、同じ仕様でメーカが異なる計算機を比較できるようにしたものです。その隣の 「(参考 (イ)」 と区分された3台の計算機も、同じ仕様でメーカが異なる計算機を比較できるようにしたものです。メーカーが異なると開発思想や開発体制が異なり、それがシステム (マザーボード) の違いとして特性の差が表面化してきます。それを観察できるようにしています。一目見るだけでも、A社のサーバは特性にブレがありますが、D社とAS社のサーバは特性が揃っていることがわかります。

 ここでお詫びをします。本来であればこのグラフにはD社かAS社のサーバのデータを使うべきです。しかし現在はまだInterlagosが製品化されてから間がないため、公開されているベンチマーク結果の量が少なく、特にB社とA社のサーバのベンチマーク結果はバリエーションが揃っていません。そのため今のような選択になりました。この状況は1月もすれば改善され、各社のベンチマーク結果が幅広く揃うと思われます。その時にはこのグラフを改めて作り直したいと考えています。

 また、補助線としてCPU総理論性能を赤色の太破線で示し、メモリ総理論性能を青色の太破線で示しています。さらに、CPU性能律速型アプリは赤色の線で示し、メモリ性能律速型アプリは青色の線で示しています。この色分けによってアプリケーションの傾向を把握しやすくしています。

 メモリ速度の異なるグラフの左右を比較すると、青色の線で示しているメモリ性能律速型アプリケーションのスループット性能は、B社のDDR3 1333MHzメモリ搭載サーバよりも、A社のDDR3 1600MHzメモリ搭載サーバの方が2%から10%も高速です。

 さらに、参考に追加しているD社やAS社のサーバの性能は10%から12%も高速です。DDR3 1600MHzメモリの効果は確かにあります。

 しかしメモリ総理論性能は20%も高速なのに、実効性能は各社のサーバ共にその半分程度の性能にした到達していないということには不満を感じます。Interlagosはメモリ性能に少しボトルネックがあるのか、あるいはメモリコントローラのチューニング不足なのかが疑われます。

 またこのグラフを見ていると他にも幾つか不思議な箇所があります。その1つめは、B社のOpteron 6282SEを搭載したサーバと、A社のOpteron 6282SEを搭載したサーバを比較すると、B社のサーバの方がメモリ性能が低いにもかかわらず、CPU性能律速型アプリケーションの性能が高く、性能のバラつきも少ないことです。

 その2つめは、 「参考 (ア)」 で示したA社とD社のサーバは、仕様が同じにもかかわらず、D社のサーバの方が性能が高く、性能のバラつきも少ないことです。

 その3つめは、「参考 (イ)」 で示したA社のサーバとD社やAS社のサーバは、仕様が同じにもかかわらず、D社とAS社のサーバの方が性能が高く、性能のバラつきも少ないことです。

 この性能の高さやバラつきの少なさの違いは何が原因なのでしょうか。それを調べるため、A社、B社、D社、AS社のサーバの主な仕様を比較するため表を作りました。すると驚いたことに、4社とも仕様は細部に至るまで写したように同じでした。(B社はメモリがDDR3 1333MHzです)

 このようにA社、B社、D社、AS社、4社のサーバの仕様は同じなのに、A社のサーバの性能にバラつきが多い原因として考えられるのは、もうマザーボードの差しか考えられません。そこで次の第二部でこの原因の背景を調査しようと思います。

  A社 B社 D社 AS社
Processer Opteron 6200 Series Opteron 6200 Series Opteron 6200 Series Opteron 6200 Series
Memory DDR3 1333MHz
(16x4G 1333,
16x8G 1333)
DDR3 1600MHz
(8x8G 1600)

DDR3 1600MHz
(16x8G 1600)

DDR3 1600MHz
(16x8G 1600)

OS Red Hat Enterprise
Linux Server release 6.1,
Kernel 2.6.32-131.0.15
.el6.x86_64
Red Hat Enterprise
Linux Server release 6.1,
Kernel 2.6.32-131.0.15
.el6.x86_64
Red Hat Enterprise
Linux Server release 6.1,
Kernel 2.6.32-131.0.15.
el6.x86_64
Red Hat Enterprise
Linux Server release 6.1,
Kernel 2.6.32-131.0.15.
el6.x86_64
Compiler C/C++/Fortran:
Version 4.2.5.2 of
x86 Open64 Compiler Suite
(from AMD)
C/C++/Fortran:
Version 4.2.5.2 of
x86 Open64 Compiler Suite
(from AMD)
C/C++/Fortran:
Version 4.2.5.2 of
x86 Open64 Compiler Suite
(from AMD)
C/C++/Fortran:
Version 4.2.5.2 of
x86 Open64 Compiler Suite
(from AMD)
Auto Parallel No No No No
File System ext3 ext3 ext4 ext3
System State Run level 3
(multi-user)
Run level 3
(Full multiuser with network)
Run level 3
(Full multiuser with network)
Run level 3
(Full multiuser with network)
Base Pointers 64-bit 64-bit 64-bit 64-bit
Other Software None None SmartHeap 10.0
32-bit Library for Linux
(これは、このテストには
影響しないと思われる)
None
Compile Option 同じ (長いので省略) 同じ (長いので省略) 同じ (長いので省略) 同じ (長いので省略)

第二部 各サーバーベンダーの設計思想の差

マザーボードの設計・製造体制

 計算機のマザーボードを考える場合、それがどのように設計・製造されているのかを知ると理解が深まります。そこでマザーボードの設計・製造過程をご紹介します。

 マザーボードの設計・製造過程は、最初にプロセッサメーカーがマザーボードを設計するところから始まります。設計が完了すると「エンジニアリングサンプル (Engineering Sample )」(以下、ESボード)と呼ばれる評価用のマザーボードを製造します。ESボードが完成すると、それを各サーバベンダー (マザーボードメーカーも含む) に評価用のESボードとして提供します。

 ESボードが届けられると、サーバーベンダー各社は独自の開発思想や市場予想に応じてESボードの設計変更を行います。変更される箇所はメモリスロット構成、PCIバス構成、I/Oデバイス構成、システム管理ツールなど、主にマザーボードの周辺部です。さらに部品の配置やマザーボードのサイズを変更する場合もあります。

 このようにマザーボードの設計は、プロセッサメーカーがマザーボードの中心部を設計し、サーバーベンダー各社が周辺部を設計するという分業体制になっています。この分業体制によって高度な技術製品が、様々なメーカーの手によって、幅広い製品バリエーションとなって、様々なお客様に届けられることになります。

洗練されたマザーボードと、安定志向のマザーボード

 ではサーバーベンダーは周辺機器の設計変更だけしかしていないのかというと、実はここからが製造メーカーの舞台になっています。サーバーベンダー各社はESボードを元に設計した自社マザーボードの完成度を高めてゆきます。

 ESボードは開発プラットホームとして幅広く機能するように様々な種類のメモリや外部デバイスに対応できるマージンの広いシステム設定になっています。これに対して自社マザーボードは、性能と信頼性のバランスを突き詰め、完成度を高めた製品に仕上げられています。この仕上げ作業は大手ベンダーと中小ベンダーで差がつきやすいところです。

 大手ベンダーは巨大な購買力をバックにして、メモリーメーカーや周辺機器メーカーに協力を要請し、マザーボードの設定を突き詰めながら、それに最適の部品を提供させることができます。しかも提供させる部品の規格を厳密に指定でき、その部品を何年にもわたって提供させることができます。これが長期のオンサイト保守による迅速な障害復旧を実現するポイントになっています。

 これに対して中小ベンダーは小さな購買力しかないため最適の部品を提供させることが難しく、しかも値下げ圧力が強いため、安価な市販部品に頼らざるを得ません。そのためできるだけ安定志向のマザーボード設定にして、様々なメモリや外部デバイスに対応できるマージンの広いシステム設定にしておく必要があります。

 しかし安定志向のマザーボードであっても、通常のサーバとして利用するだけなら、洗練されたマザーボードとの差はほとんど意識されません。その証拠にSPECfpベンチマーク結果ですら、その結果は幾何平均値として抽象化されるので違いが判り難いのです。現実には数パーセントの性能差があってもそれが意識されることは稀です。

洗練されたマザーボードの価値

 洗練されたマザーボードと、安定志向のマザーボードの性能差が殆ど意識されないとしたら、洗練されたマザーボードを使う意味はあるのでしょうか。実はあります。洗練されたマザーボードの価値は長期にわたってシステムを安定稼働させることにができることにあります。マザーボードの洗練とは、無理をして性能を引き出すということではなく、本来システムが持つ性能を引き出しているということです。そして、安定した性能の周辺部品を責任を持って確保し、さらに保守用の部品についても、各地の物流拠点にバリデーションに準拠した部品を十分に配置し、サポートの求めに応じて迅速にデリバリーすることです。 

 

========================以下作成中==============================

 

新/旧、2/4ソケット、Opteron/Xeon、実効性能比較

 いよいよ主題のオールキャストによる実効性能比較に移ります。比較するシステムは、新Opteron Interlagosの2-socket機と4-socket機、旧Opteron Magny-Coursの2-socket機と4-socket機、現Xeon Westmereの2-socket機と4-socket機という、現在選択できる主要プロセッサによる、SPECfp 2006 baseの結果を引用した、アプリケーション別のスループット性能比較のグラフを次に示します。

 このグラフはXeon x5690 3.46GHz 2CPU 4-coreの性能を基準の100%として定め、他の計算機のSPECfp 2006による相対的なスループット性能を示したものです。

 例によって、CPUの総理論性能を赤色の太破線で、メモリの総理論性能を青色の太破線で、補助線として追記してあります。また、グラフの赤色の線はCPU性能律速型アプリケーションを表し、グラフの青色の線はメモリ性能律速型アプリケーションを表し、両者を色分けすることで全体の傾向をとらえやすくしています。 

 左側から見てゆきます。1番目は、 Xeon X5690は基準機です。現在HPC計算用として多く導入されている現役の仕様です。

 2番目は、旧Opteron 6176です。基準機と比較するとメモリバンド幅が広いのでメモリ性能律速型アプリのスループット性能は高いです。しかし、CPUの総理論性能が高いにもかかわらず、CPU性能律速型アプリの実効性能の効率は約3割も低くなっています。これはオプテロンについて回っている問題です。これまでもこの傾向はありました。そのためOpteronとXeonを比較する場合は、メモリ性能律速型アプリと、CPU性能律速型アプリを分けて考える必要がありました。CPU性能律速型アプリについてはXeonと理論性能が同じ場合はOpteronの方の性能を3割ほど割り引いて考えておく必要があるのです。

 3番目は、新Opteron Interlagos 6220です。クロック速度は高く、コア数は少なく、メモリバンド幅は広い計算機です。CPU性能律速型アプリについては、先にみてきたように、gamessとかnamdでは性能が出ません。他のアプリケーションでは理論値どうりの性能です。メモリ性能律速型アプリのスループット性能は高いです。

 4番目は、新Opteron Interlagos 6238です。クロック速度はやや高く、コア数は普通、メモリバンド幅が広い計算機です。CPU性能律速型アプリはコア数が増えた分だけ性能が向上しています。メモリ性能律速型アプリのスループット性能もここまでは向上しています。

 5番目は、新Opteron Interlagos 6276です。クロック速度は少し低く、コア数は多く、メモリバンド幅が広い計算機です。CPU性能律速型アプリはコア数が増えた分だけ性能が向上しています。メモリ性能律速型アプリのスループット性能は頭打ちになっています。

 6番目は、新Opteron Interlagos 6282SEです。クロック速度はやや高く、コア数は多く、メモリバンド幅が広い計算機です。CPU性能律速型アプリはクロック速度が高くなった分だけ性能が向上しています。メモリ性能律速型アプリのスループット性能は頭打ちになっています。

 7番目は、現Xeon E7-4870 4-socketです。これは最高峰の4ソケット機です。CPU性能とメモリ性能の双方共に理論性能と実効性能の乖離が少ない、本当に優れた計算機です。

 8番目は、旧Opteron 6176 4-socketです。競合プロセッサと比較すると全般的に性能が劣ります。

 9番目は新Opteron 6220 4-socketです。CPU性能律速型アプリの性能は見る影もありませんが、メモリ性能律速型アプリの性能は競合プロセッサに迫っています。

 10番目は新Opteron 6238 4-socketです。CPU性能律速型アプリの性能も向上しています。メモリ性能律速型アプリの性能は競合プロセッサと互角になっています。

 11番目は新Opteron 6276 4-socketです。CPU性能律速型アプリの性能はさらに向上しています。メモリ性能律速型アプリの性能は競合プロセッサと互角になっています。

 

データ引用先

上記グラフはSPEC CFP2006に公開されている資料を参照して作成しています。

SPEC CFP2006で利用されている浮動小数点演算アプリケーションの一覧。
(公開されているSPEC CFP2006より転記しています。)

bwaves (Fortran) : Computational Fluid Dynamics
gamess (Fortran) : Quantum chemical computations
milc (C) : Physics/Quantum Chromodynamics
zeusmp (Fortran) : Physics/Magnetohydrodynamics
gromacs (Fortran and C) : Chemistry/Molecular Dynamics
cactusADM (Fortran and C) : Physics/General Relativity
leslie3d (Fortran) : Computational Fluid Dynamics
namd (C++) : Classical Molecular Dynamics Simulation
dealII (C++) : Adaptive Finite Element Method
soplex (C++) : Simplex Linear Program (LP) Solver
povray (C++) : Computer Visualization
calculix (Fortran and C) : Structural Mechanics
GemsFDTD (Fortran) : Computational Electromagnetics
tonto (Fortran) : Quantum Crystallography
lbm (C) : Computational Fluid Dynmaics
wrf (Fortran and C) : Weather Forecasting
sphinx3 (C) : Speech Recognition

本サイト記載の会社名および製品名は、それぞれ各社の商標または登録商標です。

【SPEC CPU2006の公開データを資料として引用】

SPEC, SPECint and SPECfp are resistered trademarks of the Standard Performance Evaluation Corporation. For more information on this SPEC benchmarks see www.spe.org. SPEC and the benchmark name SPEC CPU2006 are registered trademarks of the Standard Performance Evaluation Corporation. Competitive benchmark results stated above reflect results published on www.spec.org as of March, 2010. The comparison presented above is based on the best performing 2-cpuand 4-cpu servers currently shipping by Hewlett-Packard Company and Supermicro (Test Sponsor: Advanced Micro Devices) and Dell Inc. For the latest SPEC CPU2006 benchmark results, visit http://www.spec.org/cpu2006/