HPC-ProServer DPrT1650
次世代 "Ivy Bridge" プロセッサを採用した初のワークステーション
高クロックのE3-1290V2 3.7GHz TurboBoost 4.1GHzプロセッサ搭載可
4コアの高クロックプロセッサで高いスループットを実現
2本のメモリチャネルを搭載し25.6GB/sのメモリ帯域を実現
最大32GBのメモリ容量実現
最大4TB (2x2TB) のディスク容量を実現
256GB SSD搭載可能、
PCI Express 3.0に対応
3年間の無償翌営業日オンサイト保守とHPC技術支援が付帯
HPC ProServer DPrT1650はIvy Bridgeと呼ばれる、現行のSandy Bridgeの次世代の Ivy Bridge Xeon E3-1200 v2系プロセッサを1基搭載した新世代のワークステーションです。
Ivy Bridge Xeon E3-1200v2系プロセッサの特徴はCPUクロック速度の速さです。最速のXeon E3-1280 v2のターボブースト時のクロック速度は4.0GHzと歴代最高速プロセッサのグループに入ります。さらに22nmプロセスを採用することでプロセッサの内部速度の高速化によりる効率の高さも期待され、「CPU性能律速型アプリケーション」のシリアル計算では非常に高い処理速度が期待できます。
この特徴を活かせる用途は、HPC計算のプリポスト処理、並列度の小さなHPC計算、試行錯誤を繰り返すアプリケーション開発などです。
22nmプロセス技術を採用した次世代プロセッサであるIvy Bridge Xeon E3-1200 v2系プロセッサは最初期の製品であるため課題もあります。課題の1つは搭載コア数が4個と少なく、並列度が高い処理を実行できないことです。そのため主力のHPC計算機としては力不足です。
Ivy Bridge Xeon E3-1200 v2系プロセッサの2つめの課題はメモリチャンネル数が2チャンネルと少ないことです。そのためせっかく高速なDDR3 1600MHzメモリを利用してもメモリ帯域は25.6GB/sと最新機種としては高くありません。そのため「メモリ性能律速型アプリケーション」の平行処理性能は期待できません。さらに「メモリ性能律速型アプリケーション」のシリアル処理性能についても、性能の低いアプリケーションがあるので注意が必要です。
Ivy Bridgeアーキテクチャの特徴は、製造プロセスは最新の22nmを採用していますが、搭載しているアーキテクチャは、現行のプロセッサと同じSandy Bridge Microarchitechtureをそのまま採用していることです。
これにはメリットもあり、アーキテクチャが変わってもOSやコンパイラ、アプリケーションなどのソフトウェア関連の環境は従来と全く同じものが動きます。せれでいて性能は最終的には現行プロセッサの2倍から3倍が期待できるということです。決して中途半端なプロセッサではありません。
HPC ProServerDPrT1650は最大で32GBのメモリを搭載できます。この大容量メモリを活かして1ソケット機でも大規模処理が実現出来ます。
高速ファイルI/Oが可能なSATA3 256GB SSDを搭載でき、ローカルで巨大なファイルの読み書きが必要なプリポスト処理などの高速化が期待できます。
低騒音筺体HPC ProServerDPrT1650は筺体の静音化にも取り組んでいます。幸いにもIvy Bridge Xeon E3-1200v2系プロセッサの最大消費電力は87Wですから静音化には適しています。写真・左中央に写っている大型ファンを搭載した低騒音のCPUクーラーで十分に冷やせます。筺体からの排気用ファンも大口径の静粛なファンを使用しています。
HPC ProServerDPrT1650の筺体は改良が重ねられ、全ての部品をレバーを引くことでワンタッチで抜き差しでき、万一の障害時にもオンサイト保守により迅速な部品交換修理が可能です。
HPC ProServerDPrT1650は使用する主要部品を専用開発しています。さらに開発時には徹底的なバリデーションを実施し、製造時も厳しい品質管理を行い、さらに製品出荷後も部品レベルで履歴を管理し続けています。
HPC ProServer DPrT1650は3年間の当日オンサイト修理サービスと、3年間のHPC技術支援サービスが付帯しているのでHPC計算機の維持管理に自信のないサイトでも安心してシステムを導入していただけます。
万一の障害が発生すると、弊社のHPC計算機に精通した技術者が直接お客様の窓口を担当し、ハードウェア修理からソフト的な復旧まで親切にサポートします。
HPC-ProServer DPrT1650に搭載しているIvy Bridge Xeon E3-1200 v2系プロセッサは最新の1ソケットプロセッサです。その位置づけを確認するため近い仕様のプロセッサの仕様を次の表にまとめました。
| 世代 | プロセッサ | コア数 | クロック速度 | メモリ帯域 | ECC |
| Sandy Bridge Nomal | Gen2 Core i7 2700系 | 4 | 3.5 | 21 | - |
| Xeon E3-1200系 | 4 | 3.6 | 21 | ECC | |
| Sandy Bridge Hi-Speed | Gen2 Core i7 3900系 | 6 | 3.2 | 51 | - |
| Xeon E5-1600系 | 6 | 3.9 | 51 | ECC | |
| Ivy Bridge Nomal | Gen3 Core i7 | 4 | 3.9 | 26 | - |
| Xeon E3-1200 v2系 | 4 | 3.7 | 26 | ECC | |
| Ivy Bridge Hi-Speed | NextGen Core i7 | - | - | - | - |
| NextGen Xeon E3 | - | - | - | ECC |
Ivy Bridge Xeon E3-1200 v2系プロセッサは最新の22nm製造プロセスを採用した初のXeon系プロセッサです。しかしIvy Bridge系は新世代のプロセッサであるにもかかわらず、搭載しているアーキテクチャは現行の "Sandy Bridge Microarchitecture" です。すなわちIvy Bridge系プロセッサは、機能面は現行のSandy Bridgeと同じで。性能面だけが線幅の微細化によって大きく向上する、Sandy Bridgeのビッグマイナーチェンジ版のプロセッサということです。
ではなぜ線幅が微細化するとプロセッサの性能が向上するのでしょうか。その理由を確認します。1つめの理由は、微細化するとトランジスタの実装密度が上がり搭載コア数を増やすことができスループット性能を向上させることができるのです。22nmに微細化することで16コア・プロセッサも視野に入ります。2つめの理由は、微細化によってトランジスタ同士の距離が近くなり処理が高速化します。原理的には40%程度の高速化が期待できます。3つめの理由は、トランジスタの消費電力が減り、プロセッサの電力性能比が向上することです。実際のプロセッサではこれらが相乗効果を及ぼし大きな性能向上につながります。開発が順調に進めば現在の2倍から3倍の性能が期待できます。
しかし一方で、現在のIvy Bridge Xeon E3-1200 v2は初期の製品です。そのため高いスペックは期待できません。トップエンド製品であるXeon E3-1280 v2 3.6GHz 4coreですら、コア数は4個、理論性能は57.6GFLOPS、メモリチャンネルは2チャンネル、メモリ帯域は21GB/sとかなり低い性能です。現行のSandy Bridge-EP Xeon E5-2680の約半分の性能です。
このようにIvn Bridge Xeonの将来は輝きに満ちていますが、初期段階のIvn Bridge Xeon E3-1200 v2は性能不足です。しかし製品のスペックを細かく見ると、次世代プロセッサとしての高性能さの片鱗がのぞいています。それはクロック速度の高さです。初期段階の製品でありながらも基本クロック速度は3.6GHz、ターボブースト時のクロック速度は4.0GHzもあります。「CPU性能律速型アプリケーション」のシリアル処理なら最高速を記録するかもしれません。
Ivy Bridge Xeon E3-1200 v2は並列処理性能は期待できませんが、「CPU性能律速型アプリケーション」のシリアル処理性能なら高い性能を期待できそうなのです。用途としては非並列アプリの高速処理や、プリポスト処理の高速化に役立つ可能性があります。
そこで実際のアプリケーションでどの程度の性能が期待できるのかを確認するため、SPECの公式サイトで公開されているSPEC CPU2006のベンチマーク結果を引用して、浮動小数点演算での平行処理性能とシリアル処理性能について性能を調査できるグラフを作成しました。
このグラフは現行のSandy Bridge-EP Xeon 56-2650 2.0GHz 8coreを基準にして、現在提供されている主なXeon系プロセッサをアプリケーション別に評価しています。取り上げたプロセッサは2ソケット標準版のXeon E5-2600系、4ソケット普及版のXeon E5-4600系、2ソケット廉価版のXeon E5-2400系、1ソケット高速版のXeon E5-1600系、そして1ソケット次世代版のXeon E3-1200 v2系です。
このページでの評価の主役は1ソケット版のIvy Bridge Xeon E3-1200 v2です。そのため下記のグラフでは全てのプロセッサを1ソケット版とみなし、マルチプロセッサ版でのテスト結果は1ソケットの結果に換算してグラフ化しています。
最初に「CPU性能律速型アプリケーション」の平行処理性能を下のグラフを用いて調査します。赤色の太破線で示したCPUの理論性能と、各アプリケーションの実効性能の差を手掛かりに調べます。
1番目はグラフ左端の基準機となるXeon E5-2650を含む4個のプロセッサ群です。これらは現行のXeon 2ソケット機では最上位のプロセッサです。基準機を含むため妥当な特性を示していますが、クロック速度が高くなると約10%の効率低下がみられます。
2番目は3個のE5-4600系プロセッサ群です。全体に約20%の効率低下がみられます。この理由はE5-4600系は本来は2ソケット用プロセッサであるにもかかわらずそれを4ソケット化しているため、内部通信オーバーヘッドが発生し、それが性能低下を引き起こしているのではないかと考えています。しかしE5-4600系は唯一のSandy Bridge系の4ソケットプロセッサです。多少の効率低下があったとしても依然として大きな価値があります。
3番目は4個のE5-2400系プロセッサ群です。これらは廉価版の2ソケットプロセッサです。しかし驚いたことに「CPU性能律速系アプリケーション」の処理効率は最高です。その理由を考え始めた時、「メモリチャンネル数が3チャンネルの場合が最も効率が良い」という話を聞いたことを思いだしました。この結果を見るとそれは本当だったようです。ただし、CPUクロック速度の低さが難点です。そのためHPC用に選ばれることは少ないと思います。
4番目は3個のE5-1600系プロセッサ群です。これらはエントリー級の1ソケットプロセッサです。ところがグラフを見るとエントリー級には見えないスループット性能の高さを示しています。6個のコアを搭載、CPUクロック速度は3.3GHz、理論性能は80GFLOPSに到達するなど、侮ることのできない素晴らしいプロセッサです。用途を限定すれば選択に値するプロセッサです。
5番目は注目の3個のIvy Bridge E3-1200 v2系プロセッサ群です。しかしグラフを見ると期待とは裏腹に、コア数の少なさが理論性能の低さを招き、利用効率も約10%の低下が見られます。折角の新製品ですが、「CPU性能律速型アプリケーション」を並列/平行処理する用途には適していません。1ソケット機を選択するなら4番目に紹介したE5-1600系プロセッサが最適です。
次に「メモリ性能律速型アプリケーション」の平行処理性能を上のグラフを用いて調査します。青色の太破線で示したメモリの理論性能と、各アプリケーションの実効性能の差を手掛かりに調べます。
1番目はグラフ左端の基準機となるXeon E5-2650を含む4個のプロセッサ群です。「メモリ律速型アプリケーション」という名前が示す通り、CPUクロック速度が上昇しても性能は変わりません。
2番目は3個のE5-4600系プロセッサ群です。全体に約10%前後の効率低下がみられます。この理由はE5-4600系は本来は2ソケット用プロセッサであるにもかかわらずそれを4ソケット化しているため、内部通信オーバーヘッドが発生し、それが性能低下を引き起こしているのではないかと考えています。しかしE5-4600系は唯一のSandy Bridge系の4ソケットプロセッサです。多少の効率低下があったとしても依然として大きな価値があります。
3番目は4個のE5-2400系プロセッサ群です。これらは廉価版の2ソケットプロセッサです。しかし驚いたことに「メモリ性能律速系アプリケーション」の処理効率は理論性能を上回っています。その理由を考え始めた時、「メモリチャンネル数が3チャンネルの場合が最も効率が良い」という話を聞いたことを思いだしました。この結果を見るとそれは本当だったようです。ただし、絶対的なメモリ帯域の狭さが低さが難点です。そのためHPC用に選ばれることは少ないと思います。
4番目は3個のE5-1600系プロセッサ群です。これらはエントリー級の1ソケットプロセッサです。ところがグラフを見るとエントリー級には見えないスループット性能の高さを示しています。DDR3 1600MHzメモリに対応し、メモリチャネル数は4チャンネル搭載しているなど、エントリーだと侮れない素晴らしいプロセッサです。用途を限定すれば選択に値するプロセッサです。
5番目は注目の3個のIvy Bridge E3-1200 v2系プロセッサ群です。しかしグラフを見ると期待とは裏腹に、メモリチャンネル数の少なさがメモリ帯域の狭さを招いています。利用効率は理論性能を約10%前後上まわっていますがメモリの絶対性能の低さが響いています。折角の新製品ですが、「メモリ性能律速型アプリケーション」を並列/平行処理する用途には適していません。1ソケット機を選択するなら4番目に紹介したE5-1600系プロセッサが最適です。
現在のIvy Bridge E3-1200 v2系プロセッサ群は搭載するコア数とメモリチャンネル数の両方が少ないためHPC計算の平行処理や並列処理には適さないということがわかりました。このように初期の新世代の製品ではスループット性能が低いことはよくあることです。素性が良いことは確認できましたので、今後の改良による性能向上に期待します。
次に「CPU性能律速型アプリケーション」のシリアル処理性能を下のグラフを用いて調査します。赤色の太破線で示したCPUの理論性能と、各アプリケーションの実効性能の差を手掛かりに調べます。
1番目はグラフ左端の基準機となるXeon E5-2650を含む4個のプロセッサ群です。これらは現行のXeon 2ソケット機では最上位のプロセッサです。クロック速度の上昇に実効性能の上昇が追従しています。理想的な性能向上です。
2番目は3個のE5-4600系プロセッサ群です。これらのプロセッサもCPUクロック速度の変化に実効性能が追従しています。理想的な性能向上です。
3番目は4個のE5-2400系プロセッサ群です。これらのプロセッサもCPUクロック速度の変化に実効性能が追従しています。理想的な性能向上です。
4番目は3個のE5-1600系プロセッサ群です。これらのプロセッサは一部のアプリケーションがCPUクロック速度の上昇率を超える性能を記録してます。CPUクロック速度の高さも加わり、高い性能を示しています。手元で使うシリアル処理用のワークステーションとしては素晴らしい性能です。
5番目は注目の3個のIvy Bridge E3-1200 v2系プロセッサ群です。これらのプロセッサは一部のアプリケーションがCPUクロック速度の上昇率を超える性能を記録してます。しかもCPUクロック速度は歴代最高レベルです。手元で使うシリアル処理用のワークステーションとしては素晴らしい性能です。
次に「メモリ性能律速型アプリケーション」のシリアル処理性能を上のグラフを用いて調査します。青色の太破線で示したメモリの理論性能と、各アプリケーションの実効性能の差を手掛かりに調べます。
1番目はグラフ左端の基準機となるXeon E5-2650を含む4個のプロセッサ群です。「メモリ律速型アプリケーション」という名前ですが、シリアル処理ではCPUクロック速度が上昇に追従して性能も向上します。
2番目は3個のE5-4600系プロセッサ群です。驚いたことに一部のアプリケーションは約50%前後も効率が低下していました。2ソケット用プロセッサを4ソケット化しているための通信ペナルティーが発生しているようです。しかしE5-4600系は4ソケットでの並列処理性能に特化したプロセッサですから、ここでの性能低下は問題になりません。
3番目は4個のE5-2400系プロセッサ群です。これらは廉価版の2ソケットプロセッサです。「メモリ性能律速型アプリケーション」でのシリアル処理ではメモリ帯域の狭さが影響しています。「メモリチャンネル数が3チャンネルの場合が最も効率が良い」という話は、このケースには当てはまらないようです。
4番目は3個のE5-1600系プロセッサ群です。これらはエントリー級の1ソケットプロセッサです。ところがグラフを見ると一部のアプリケーションではエントリー級には見えないシリアル性能の高さを示しています。DDR3 1600MHzメモリに対応し、メモリチャネル数は4チャンネル搭載しているなど、エントリーだと侮れない素晴らしいプロセッサです。しかし、一部のアプリケーションは目を疑いたくなるような低い性能です。プロセッサの選択は慎重にしなければならないことがわかります。
5番目は注目の3個のIvy Bridge E3-1200 v2系プロセッサ群です。課題はメモリ帯域の狭さです。ところがグラフを見ると一部のアプリケーションではメモリ帯域の狭さを吹き飛ばさんばかりの高いシリアル性能を示しています。他方で、一部のアプリケーションは目を疑いたくなるような低い性能です。性能の開きが両極端です。プロセッサの選択はさらに慎重にしなければならないことがわかります。
[グラフに用いたデータ引用先]
この文章で使用しているグラフはSPEC CFP2006に
公開されている資料を引用して作成しています。
SPEC CFP2006で利用されている浮動小数点演算アプリケーションの一覧。
(公開されているSPEC CFP2006より転記しています。)
bwaves (Fortran) : Computational Fluid Dynamics
gamess (Fortran) : Quantum chemical computations
milc (C) : Physics/Quantum Chromodynamics
zeusmp (Fortran) : Physics/Magnetohydrodynamics
gromacs (Fortran and C) : Chemistry/Molecular Dynamics
cactusADM (Fortran and C) : Physics/General Relativity
leslie3d (Fortran) : Computational Fluid Dynamics
namd (C++) : Classical Molecular Dynamics Simulation
dealII (C++) : Adaptive Finite Element Method
soplex (C++) : Simplex Linear Program (LP) Solver
povray (C++) : Computer Visualization
calculix (Fortran and C) : Structural Mechanics
GemsFDTD (Fortran) : Computational Electromagnetics
tonto (Fortran) : Quantum Crystallography
lbm (C) : Computational Fluid Dynmaics
wrf (Fortran and C) : Weather Forecasting
sphinx3 (C) : Speech Recognition
本サイト記載の会社名および製品名は、それぞれ各社の商標または登録商標です。
【SPEC CPU2006の公開データを資料として引用】
SPEC, SPECint and SPECfp are resistered trademarks of the Standard Performance Evaluation Corporation. For more information on this SPEC benchmarks see www.spe.org. SPEC and the benchmark name SPEC CPU2006 are registered trademarks of the Standard Performance Evaluation Corporation. Competitive benchmark results stated above reflect results published on www.spec.org as of March, 2010. The comparison presented above is based on the best performing 1-cpu 2-cpu and 4-cpu servers currently shipping by Supermicro and Dell Inc. For the latest SPEC CPU2006 benchmark results, visit http://www.spec.org/cpu2006/