HPC-ProServer DPeR910 (4-Way)
Xeon E7系プロセッサ (Westmere-EX) を4個搭載できる4Uサーバ
最大40コアが共有メモリ環境で動作し、OpenMPを使用できる
InfiniBandを使うことなく40並列まで高速動作
16GB DIMMを64個搭載でき1TBのメモリ空間を実現
32GB DIMMによる2TBメモリ搭載機も提供開始
1TBの2.5インチHDDを16基搭載でき16TBの超高速ディスクを実現
Single Port 10GBASE-TとDual Port 10GBASE-SFP+に対応
冗長化電源に対応、翌営業日オンサイト保守サービス実施
「HPC-ProServer DPeR910」 (以下DPeR910と略) は、32nmプロセス技術で製造された、第一世代Coreアーキテクチャを採用するWestmere-EX Xeon E7 4-Socketプロセッサを4個搭載した、40コアのメモリ共有型並列計算を実現する、高性能なHPCサーバです。このページはこの計算機の長所を他の計算機との比較で説明しています。
DPeR910の浮動小数点演算性能は最大で384GFLOPSに達し、これまで主流だったXeon-DP 2-Socket機の性能を2倍も上回ります。メモリ帯域幅も最大で170GB/sに達し、同プロセッサの帯域幅を2.6倍も上回ります。メモリ容量も最高で1TBに達し、同プロセッサの容量を5倍も上回ります。それでいてDPeR910の価格はXeon-DP 2-Socket 2-Node 4CPUクラスタと同水準ですから経済的です。DPeR910は2-Socket機と4-Socket機の壁を破壊した革命的なHPC計算機です。
DPeR910の性能はGPGPUをも脅かします。DPeR910が持つ384GFLOPSという倍精度浮動小数点演算性能は、GPGPUが持つ500GFLOPSと比較しても遜色ありません。しかもXeonは実効効率が約90%以上と高いので、実質的な性能は逆転している可能性があります。またDPeR610が持つ170GB/sというメモリ帯域幅は、GPGPUが持つ144GB/sを凌駕しています。この比較からもDPeR910に高い評価を与えることができます。
DPeR910は、HPC計算に最適化された64bit Linux OSを搭載し、ネットワーク設定、ファイルサーバ設定、ジョブスケジューラ設定、開発環境設定についても充実した技術サポートが自慢の計算です。そのため、Linuxサーバの運用経験が乏しいサイトでも安心でき、導入当日から本格的なHPCサーバとして利用できます。
DPeR910は、冗長化ディスク、冗長化電源、冗長化ファン、冗長化冷却などの機能があり、高い信頼性を備えています。これに自動障害診断ツールを組み合わせると、万一の障害でも無停止運用や最小のダウンタイムでのシステム復旧が可能です。エンタープライズ級サーバに相応しい安定した動作が期待できます。
DPeR910は高度な技術支援サービスと障害対応サポートをWで提供しています。技術支援と運用支援は弊社の技術スタッフが3年間無償でサービスします。ハードウェア障害に対する部品保障とオンサイト部品交換も3年間無償でサービスします。これらの総合的なサポートにより追加予算を気にすることなく安定した運用計画を作成できます。
以上のようにHPC-ProServer DPeR910は、高性能、高信頼、良いサービスの三拍子が揃ったHPC計算機です。
HPC-ProServer DPeR910の特徴は、Xeon 4-Socket 1-Node機の価格がXeon 2-Socket 2-Node 2並列機と同水準になったことです。もしも価格が同じならXeon 4CPU機の方が優れています。それはXeon 4CPU機には次のような長所があるためです。
・ 大規模なOpenMP計算を実現
・ 40コアにより384GFLOPSを実現
・ 最大1TBの巨大なメモリ空間を実現
・ 16チャンネルのメモリコントローラ (4-Chanel x 4-Socket) により170GBのメモリ帯域幅を実現
・ 3チャンネルのプロセッサ間通信ポートにより 600Gbps (200Gbps/port x3)を実現
しかも全てに亘ってXeon 2CPU機の2倍以上の性能があり柔軟な運用ができます。値段が同じならXeon 4CPU機が良いに決まっています。
Westmere-EX Xeon E7ファミリーの種類は、8ソケット用のE7-8800番台、4ソケット用のE7-4800番台、2ソケット用のE7-2800番台の3系統が存在しています。それぞれに対応するクロック周波数は下が1.73GHzから上は2.66GHzが製造されています。搭載するコア数は6コア、8コア、10コアがあります。キャッシュの容量は18MB、24MB、30MBです。
これらの仕様の組み合わせで多くの用途に対応するプロセッサが製品化されています。例えば実現できる性能レンジは、下が83GFLOPSから上は768GFLOPSまでの幅広い性能レンジをカバーしています。ここからHPC計算機に適したプロセッサを探します。
4ソケット機での最高性能はXeon E7-4870 2.4GHz 10-Core 4CPU機が実現する384GFLOPSです。これに128GBのメモリを搭載した計算機の価格は約410万円になります。384GFLOPSは凄い性能ですが価格も少し高価です。これではコパフォーマンスが低くなり容易に導入に踏み切れません。
これに対してXeon E7-4850 2.0GHz 10-Core 4CPU 320GFLOPS機はコストパフォーマンスに優れた計算機であり性能も悪くありません。この計算機に128GBのメモリを搭載したシステムの価格は約260万円です。性能はXeon E7-4870 2.4GHzを搭載したトップエンド機より15パーセント低いだけですが、価格は約40パーセントも安価です。コストパフォーマンスもXeon 2ソケット機と比べて遜色がありません。非常に魅力的な構成です。
さらに念を入れてXeon 2ソケット機と比較します。Xeon X5680 3.33GHz 2CPU 2node 4CPUクラスタの理論性能は320GFLOPSです。これに各48GBのメモリを搭載した2台計算機の総額は約260万円です。上記のXeon E7-4850 2.0GHz機と比較すると性能も価格も同水準です。しかもE7-4850 2.0GHz機の方は40-Coreでメモリ共有並列計算が実行でき、40-Core全部でOpenMPを動かせ、128GBのメモリを一括して利用でき、ネットワーク並列環境が要らず、より洗練されたジョブ管理が可能です。
それではさらにXeon E7-4850 2.0GHzより下の構成を検討します。残念なことに、ここから下の構成を調べても価格はあまり下がりません。このXeon E7-4850 2.0GHz機はHPC-ProServerDPeR910のHPC計算機向けのスイートスポットです。
ここまでの議論は「CPU性能律速型アプリケーション」に関してのものです。このグループに属する代表的なアプリケーションはGaussin、GAMESS、AMBER、NAMDなどです。これらのアプリケーションは並列化されていているため搭載コア数の多い4ソケット機に適しています。
なお全てのCPU性能律速型アプリケーションが大規模並列処理でコア数に比例して性能を向上させるわけではありません。並列化アプリケーションの内部には、並列化されている部分と、並列化されていない部分があります。並列化されている部分は並列処理によって性能が向上しますが、並列化されていない部分はもちろん性能は向上しません。そのため、並列度が高くなると、計算時間全体に占める並列化されていない部分の割合が多くなり、並列化効率が悪くなるという現象を起こします。この問題を軽減するためにはコアそのものの性能を高くする必要があり、議論は振り出しに戻りますので、ここの文章ではこれ以上議論しません。
Xeon Westmere-EX E7ファミリーのプロセッサの特徴は、プロセッサに搭載されているメモリコントローラのチャンネル数が4チャンネルと、2ソケットのXeon Westmere-DPよりも1チャンネル多いためメモリバンド幅は42GB/sと1.3倍も高速です。もちろんシステム全体の総メモリバンド幅は170GB/sに達しています。このメモリバンド幅も凄い性能です。
このメモリバンド幅が威力を発揮するアプリケーションは流体計算、電磁界計算、構造計算などの「メモリ性能律速型アプリケーション」です。
メモリ性能律速型アプリケーションはメモリバンド幅がボトルネックになっているため、CPUのクロック速度を高速化してもあまり効果は期待できません。しかし経験的にコア数の多さは少し効果があるような印象です。
この観点を意識しながら価格表を見ると、Xeon E7-4850 2.0GHz 10-Core機が最も妥当な計算であることがわかります。これよりもスペックを下げても価格があまり変わらないからです。
現在のGPGPUはピンポイントのように限られた領域では高い性能を発揮するかもしれませんが、その領域を外れると極端に性能が下がる場合があります。これに対して4ソケットXeonは1TBのメモリ空間を必要とする大規模計算までの広い計算領域で常に高い性能が期待できます。
また別の視点で考えると32nmプロセス技術は熟成しておりXeon E7-4850 2.0GHz 10-Coreプロセッサなら十分な歩留まりで生産することができ、量産効果の効いた価格で製品化することがでたのかもわかりません。あるいは競合するプロセッサと価格線を戦うため戦略的に価格を下げたのかもわかりません。
しかしいづれにしてもXeon E7-4850 2.0GHz 10-Coreプロセッサは素晴らしい製品であることは確かです。トップエンドのプロセッサではないため少し地味な存在ですが、その正体は正真正銘のスーパーサーバです。