HPC-ProServer DPeM915
4-socket 12-core Opteron (Magny-Cours) を搭載するサーバブレード
高密度実装と高信頼性を両立できるブレード型のHPCクラスタ
サーバブレードのサイズはフルハイト、ブレード筺体に8台内蔵可能
各ブレードは48基のCPUコアを搭載でき480GFLOPSの理論性能を達成
ブレード筐体全体では384基のコアを搭載でき3.8TFLOPSの理論性能を達成
32個のDIMMスロットを搭載でき最大512GBのメモリを搭載が可能
4チャンネルのメモリポートにより42GB/s/CPUのメモリ帯域を実現
2.5インチHDDを最大2台搭載でき1.2TBのディスク容量を実現
Dual Port QDR InfiniBandを搭載でき高速な並列通信を実現
Dual Port 10GbEを搭載でき高速なファイル転送が可能
InfiniBand S/W、10GbE S/W、KVM S/Wなども内蔵可能
3年間の翌営業日オンサイト保守と部品保障を提供
3年間の技術支援を実施
「HPC-ProServer DPeM915 Blade Server」 (以下、DPeM915) は、4個の12-core Opteron (Magny-Cours) プロセッサを搭載し、1台のブレードサーバで48コアを実現する "コア数追求型" の計算機です。DPeM915の性能面の特徴は次のようなものです。
・ 48コアのメモリ共有型計算機
・ 480GFLOPS 最大理論演算性能
・ 48平行処理、48並列処理、それらの混在処理
・ 高速なノード内通信
・ 大容量メモリの搭載
・ 価格性能比は競合プロセッサの 62% を達成
・ 電力性能比は競合プロセッサの 78% を達成
・ ブレード構造により高密度実装を実現
このページではこれらのことについてHPC計算機を利用する立場から紹介します。

DPeM915は48コアを共有メモリ上で利用できる計算機です。さらに並列計算を高速なシステム内通信によって効率良く処理できる計算機です。
現在利用されている並列処理の方法は次の6種類です。そのうちの5種類がシステム内の通信を用いています。このシステム内通信を利用した並列処理はプログラム開発が容易なため広く利用されます。DPeM915は48コアを搭載することで高い並列度の処理を実現出来る計算機です。
| 6種類の並列化 | 各並列化が対応する 3階層の並列処理 |
各並列化の特性 | ||||
| コア内の 並列処理 階層 |
ノード内の
並列処理 階層 |
ノード間の 並列処理 階層 |
並列化 効率 |
並列 性能 |
開発 難易度 |
|
| コンパイラによる 命令レベルの並列化 |
○ | × | × | 高 | 高 | 低 |
| 数値演算ライブラリによる 並列化 |
○ | ○ | × | 高 | 高 | 中 |
| コンパイラの自動並列化機能による マルチスレッドを利用した並列化 |
× | ○ | × | 低 | 低 | 低 |
| OpenMPディレクティブを挿入した コンパイラの自動並列化機能による マルチスレッドを利用した並列化 |
× | ○ | × | 中 | 中 | 中 |
| MPIによる並列化 ノード内通信 |
× | ○ | × | 高 | 高 | 高 |
| MPIによる並列化 ノード間通信 (ネットワーク) |
× | ○ | ○ | 高 | 高 | 高 |
次の表はLinpack HPLベンチマークテストによって3種類の代表的な計算機の並列性能処理能力を評価したものです。具体的には、OpteronではOpenMPIによる並列処理と平行処理を実施し、Xeon系の計算機ではOpenMPの計算も行っています。
結果を概観すると、Xeon系の計算機は総合的に高い処理効率を示していることがわかります。これに対してOpteron機は、単体コアの処理効率がXeonに比べて約10%ほど落ちますが、それをオフセットして評価すると、あとの傾向はXeonと遜色のないことがわかります。
この点を受け入れるなら、Opteronはコストパフォーマンスが高い優れた計算機として評価できることがわかります。4ソケット機としてのコストパフォーマンスの高さは特筆ものです。
並列/平行処理でのOpteronの長所は平行処理でのスループットの高さです。48ジョブを同時実行させた場合の効率が83%に達しています。先ほど指摘したコアの処理効率の低さの10%を差し引くと、その劣化の同意は7%に過ぎないことがわかります。
| 4-socket 12-core Opteron (45nm, Magny-Cours) | N値 | 1node | 2node | 4node | ||||||||
| 4CPU | 8CPU | 16CPU | ||||||||||
| 1core | 2core | 4core | 6core | 8core | 12core | 48core | 96core | 192core | ||||
| 10 05 28 |
ProServer DPeR815 12-core Opteron 6174 2.2GHz 12MB HT3、(45nm, Magny-Cours) DDR3-1333MHz 256GB (8GB x32) 1-node 4-socket、4CPU、48core gcc-4.1.2、ACML4.4.0 |
OpenMPI (効率) |
15000 | 7.6 (86%) |
||||||||
| 30000 | 7.7 (88%) |
58.4 (83%) |
301.4 (71%) |
|||||||||
| OpenMPI の平行 処理 (効率) |
15000 | 7.3 1x48job (計350) (83%) |
||||||||||
| 23000 | 7.4 1x48job (計355) (84%) |
|||||||||||
| 30000 | 14.3 2x24job (計344) (81%) |
|||||||||||
| 28.4 4x12job (計340) (81%) |
||||||||||||
| 42.3 6x8job (計338) (80%) |
||||||||||||
| 55.1 8x6job (計330) (78%) |
||||||||||||
| 82.8 12x4job (計331) (78%) |
||||||||||||
| 158.9 24x2job (計318) (75%) |
||||||||||||
| (ideal) | - | 8.8 | 17.6 | 35.2 | 52.8 | 70.4 | 105.6 | 422.4 | ||||
| 4-socket 8-core XeonMP (45nm, Nehalem-EX) | 1node | 2node | 4node | 8node | ||||||||
| 4CPU | 8CPU | 16CPU | 32CPU | |||||||||
| 1core | 2core | 4core | 8core | 16core | 32core | 64core | 128core | 256core | ||||
| 10 06 18 |
ProServer DPeR910 4CPU 32core (HT off) X7560 8-core XeonMP 2.27GHz、Nehalem-EX QPI 6.4GT/s (Turbo 2.66GHz) DDR3-1333MHz 256GB Intel Compiler 11.1、MKL 10.2 IntelMPI 1.4.1、HPL 2.0、CentOS5.5 |
OpenMP (効率) |
15000 | |||||||||
| 30000 | 9.3 (102%) |
35.1 97(%) |
69.9 (96%) |
127.4 (80%) |
148.0 (51%) |
|||||||
| OpenMPI (効率) |
30000 | 35.8 (99%) |
65.1 (90%) |
133.9 (84%) |
233.1 (80%) |
|||||||
| (ideal) | - | 9.08 | 18.2 | 36.3 | 72.6 | 159.8 | 290.6 | |||||
| 2-socket 6-core Xeon (32nm, Westmere) | 1node | 2node | 4node | 8node | 16node | |||||||
| 2CPU | 4CPU | 8CPU | 16CPU | 32CPU | ||||||||
| 1core | 2core | 4core | 8core | 12core | 24core | 48core | 96core | 192core | ||||
| 11 06 27 |
ProServer DPeT710 2CPU 12core (HT off) X5690 6-core Xeon 3.46GHz 12MB、Westmere QPI 6.4GT/s Intel 5520 Chipset DDR3-1333MHz 48GB Intel Compiler 12.0.4.191、MKL 10.3-4 IntelMPI 4.0.2.003、OpenMPI 1.4.3 CentOS 5.5 (Final) HPL 2.0 |
SSE OpenMP (効率) |
30000 | 13.1 (95%) |
25.4 (92%) |
49.6 90(%) |
96.6 (88%) |
135.7 (82%) |
||||
| SSE OpenMPI (効率) |
13.1 (95%) |
25.7 (93%) |
50.3 (91%) |
96.6 (88%) |
134.3 (81%) |
|||||||
| SSE IntelMPI (効率) |
13.1 (95%) |
26.0 (9%4) |
50.9 (92%) |
99.7 (90%) |
142.0 86%) |
|||||||
| SSE 理論 性能 |
- | 13.8 | 27.6 | 55.2 | 110.4 | 165.6 | ||||||
DPeM915のメモリスロットの数はシステム全体で36スロットあり、8GBのメモリモジュールを利用すると256GBのメモリ空間を実現でき、16GBのメモリモジュールを利用すると512GBのメモリ空間を実現できます。大規模計算に必要なメモリ空間を確保できます。
DPeM915は各プロセッサが4チャンネルのメモリポートを備えDDR3 1333規格のメモリを使用すると42GB/sのメモリ帯域を実現でき、4ソケットシステム全体では170GB/sのメモリ帯域を実現できます。このメモリ性能によってメモリ性能律速型アプリケーションの高速処理が可能になります。
ブレードシステムはその内部に、計算サーバ以外の多くの補助機器類を搭載できます。搭載できる機器類は、InfiniBandスイッチ、イーサネットスイッチ、KVMスイッチ、共用電源、共用ファン、多数の接続ケーブルなどです。これらを僅か10Uスペースに搭載できるので省スペースです。
例えば4ソケットサーバでクラスタを構築すると、8台構成でも20Uのスペースが必要になります。これをブレード化すると僅か10Uのスペースで済みます。2倍の実装密度を実現できます。

ブレードシステムはブレード筺体にスイッチ類、電源部、冷却ファンなどを集約させているためエネルギーロスを減らすことができ省エネです。

ブレードシステムは内部のケーブル類を全てプリント基板上に実装しています。すなわち2本のネットワークケーブル、InfiniBandケーブル、KVMケーブル、電源ケーブル、補助機器類のケーブルなどがあり、8ノードシステムで約50本、16ノードシステムでは100本近いケーブルが必要です。
プリント基板を用いるとこれらケーブル類全てを40cm四方のプリント基板に実装でき、ケーブル配線が不必要になります。そのため信頼性と保守性を両立できます。

ブレードサーバは基幹業務に対応できる品質を備えています。すなわち故障が少なく、主要部分が冗長化され、部品交換もツールレス化されているので交換も簡単です。しかもホットスワップに対応しているので万一の障害でも無停止で部品交換ができます。
ブレードサーバはシステム全体を監視する機能を備えているので、障害が検出されると通知機能によってすぐにサポート依頼をすることができ迅速な復旧が可能になります。
このように基幹業務用に設計されたブレードサーバをHPCサーバとして利用することで、通常のサーバによるクラスタよりも一段上の信頼性と保守性の高さを実現できます。
48個ものコアを搭載しているとジョブスケジューラの搭載が必須になります。弊社はお客様と相談の上で適切なジョブキューをベテランの技術チームが作成します。
システムの導入時にはジョブ投入の方法などを実演しながら説明します。少し使ってもらいながら細かな調整にも対応します。
ジョブスケジューラを適切に設定することで、利用効率が向上し省エネにも貢献します。設定を工夫することで省エネモードの運用も可能です。電力消費がピークになる午後に投入ジョブ数を減らし夕方から増やすような設定も可能です。
ブレードサーバは一般のサーバよりも高価な印象があります。しかしDPeM915ブレードサーバは一般のサーバと同程度の価格です。下の表は両者を比較したものです。
同じ4ソケットOpteronのDPeM915ブレードサーバとR815 2Uサーバを比較すると、CPU性能単価はブレードが4810円サーバが4808円と両者は同水準です。メモリ性能単価 もブレードが13582円サーバが12416円とこれも両者は同水準です。
さらにXeonを搭載したサーバとOpteronを搭載したブレードを比較すると、これはOpteroを搭載したサーバの方が何割も安価です。
このようにブレードサーバは "基幹業務に対応できる品質" を備えているにもかかわらず、通常のサーバと同水準か、それよりも安価なのです。
高機能かつ、高性能なブレードサーバこそが、スペースの乏しい研究室のHPCサーバにはお勧めです。ブレードの弱点は音の問題だけです。
| システム | CPU | クロック速度 (GHz) |
コア総数 (個) |
理論性能 (GFLOPS) |
CPU性能単価 (円/GFLOPS) |
メモリ容量 (GB) |
メモリ性能 (GB/s) |
メモリ性能単価 (円/GB/s) |
| Blade Server 4-socket DPeM915- 6180Q128GR4 (8-node) |
Opteron 6180SE |
2.5 | 48 | 480 | 4,810 | 128 | 170 | 13,582 |
| Blade Server 4-socket DPeM915- 6172Q128GR4 (8-node) |
Opteron 6180SE |
2.1 | 48 | 480 | 5,083 | 128 | 170 | 12,051 |
| 2U Server 4-socket DPeR815- 6176Q128GR4 |
Opteron 6170 |
2.3 | 48 | 442 | 4,808 | 128 | 170 | 12,416 |
| Blade Server 2-socket DPeM600- X5690D48GLR8 |
Xeon X5680 |
3.46 | 12 | 166 | 7,688 | 48 | 64 | 19,942 |
| 1U Server 2-socket DPeR610- X5690D48GLR8 |
Xeon X5680 |
3.46 | 12 | 166 | 7,309 | 48 | 64 | 18,966 |
| 4U Server 4-socket DPeR910- E7-X4850Q64GR4 |
Xeon E7-4850 |
2.00 | 40 | 320 | 8,515 | 128 | 170 | 16,028 |
ブレードシステムを設計する場合、プロセッサの選択は大きな課題です。DPeM915ではMagny-Cours Opteron 6100シリーズのプロセッサの中から、お客様の目的に適したものを選択できます。
この幅広い選択肢の中からどのプロセッサが適しているのかを判断するためには基本的なベンチマークテスト結果の利用が不可欠です。
そこでSPECfpで公開されているベンチマーク結果を引用して、アプリケーション別に、クロック速度や搭載コア数の違いによってシステムのスループットがどのように変化するのかを一瞬で把握できるきるグラフを作成しました。その中からお客様のアプリケーションに近いグラフを選んでいただき、システム設計の判断材料にされることを提案します。
グラフで基準としている計算機は、DPeM915 Magny-Cours 4-socket 8-core Opteron 6134 2.3GHz 32-core機です。この計算機のスループトを100%として他の計算機がどれ程性能向上したのかを示しています。またグラフを判りやすくするため次の補助線を追記しています。
・ 赤太線はCPUの理論性
・ 青太線はメモリの理論性能
・ 緑太線は128GBメモリ搭載モデルの価格上昇率
赤細線は「CPU性能律速型アプリケーション」に属するものを示しています。このタイプのアプリケーションは搭載コア数が多くクロック速度が高い「4-socket 12-core Opteron 6180SE 2.5GHz 48-core」が最もコストパフォーマンスに優れていることがわかります。
青細線は「メモリ性能律速型アプリケーション」に属するものを示しています。このタイプのアプリケーションはコア数の多さが大切ですが、クロック速度は大切ではありません。「4-socket 12-core Opteron 6174 2.2GHz 48-core」が最もコストパフォーマンスに優れていることがわかります。

計算機システムには節電が求められています。そこで可能な限り運用に支障の少ない節電方法を提案します。提案している方法には長短所があります。お客様の運用方針に最適な方法をお選びください。
○ プロセッサのクロック速度を低下させて節電を実施
最近のマイクロプロセッサはプロセッサのクロック速度をシステム側からも変更できます。プロセッサの動作クロックを低下させると処理性能が低下すると同時に、消費電力も低下します。この機能を節電に応用します。
計算機に搭載しているシステム管理ツールを利用すると、ネットワーク経由でシステムの消費電力の上限の閾値を設定できます。もし、システムの消費電力が設定した閾値を超えると、プロセッサのクロック速度が自動的に下げられ消費電力が削減されます。
今は午後の消費電力の削減が求められています。そこで昼になったら消費電力の閾値を下げ、電力需要のピークの時間帯に節電を行い、電力需要のピークの時間帯を越えると、再び通常運転に戻します。
この方法の長所は節電をハードウェアの階層で行うため、運用のポリシーを変更しないで節電できることです。長時間ジョブが動作していても、ジョブを停止させることなく節電が実施できます。HPC計算機の運用には適した方法です。
短所は完全にシャットダウンしないため、完全にシャットダウンするよりも、システムの基本的な消費電力分を削減できないことです。
○ ジョブスケジューラによってクラスタの消費電力を15%節電
次の方法はジョブスケジューラのキューの構成を工夫して決められた時間帯にシステムを節電モードで運用することです。比較的短い時間 (4〜8時間) で完了するジョブが多い場合に適した方法です。次にジョブスケジューラの設定方法を記載します。
例えば次のような運用によって15%の節電が可能
・ 半数のサーバを4時間のショートキュー専用のノードに設定
・ 午前8時にショートキューの新規ジョブ受け付けを停止
・ 正午までショートキューのジョブが全て終了
・ 正午にショートキュー専用のノードをシャットダウン
・ 夕方8時にショートキュー専用のノードをリブートしジョブ投入開始
この設定例はキューの種類を工夫することで、全てのジョブを通常終了させています。そのためシステムの一部分を完全に停止させることができ効率の良い節電ができます。
この方法の問題的は、短い時間で終わるジョブの終了時間が予めわかっていないとならないことです。
○ 古い計算機を新しい計算機に入れ替えることで処理効率を改善
計算機は世代交代するたびに、消費電力はそのままにして演算性能が高くなっています。そこで、古い電力性能比が悪い計算機を、新しい電力性能比が高い計算機にリプレースし、消費電力の削減とスループットの維持が可能です。
また、最新鋭の機種を導入するため、節電という消極的な側面だけでなく、計算規模の拡大や高速化などにも対応できます。