お問い合わせ | 導入事例 | HPC計算機 | 管理サーバ/ファイルサーバ | オプション | OS/開発環境 | アプリ | システム構築 | サポート | FAQ | ベンチ | 技術情報 | 購入案内
⇒ プロセッサ番号一覧表
Ivy Bridge Xeon WS
DPrT1650 1S 32GB 2HD 価格
SandyBridge Xeon TowerServer
DPeT620 2S 768GB 32HD 5U 価格
Sandy Bridge Xeon Rack Server
DPeR620 2S 768GB 10HD 1U 価格
DPeR720 2S 768GB 16HD 2U 価格
DPeM620 2S 512GB 2HD 価格
DPeR820 4S 1536GB 16D 2U 価格
SandyBridge Xeon WS
DPrT3600 1S 16GB 2HD 価格
DPrT5600 2S 16GB 2HD 価格
DPrT7600 2S 16GB 2HD 価格
Westmere Xeon Rack Server
DPeR910 4S 2TB 16HD 4U 価格
Opteron Rack Server
DPeR715 2S 512GB 6HD 2U 価格
DPeR815 4S 1024GB 6HD 2U 価格
DPeM915 4S Opteron 512GB 価格
Blade Enclosure
Blade Enclosure DPeM1000e 価格
 
Host/File Server
T320 1S 16x 1TB-HDD 価格
T620 2S 32x 1TB-HDD 価格
R320 1S 管理サーバ 1U 価格
R420 2S 管理サーバ 1U 価格
R620 2S 管理サーバ 1U 価格
R720xd 2S 12x4TB / 24x1TB 価格
MD12x0 12x4TB/24x1TB 価格
MD3200 RAID12x3TB/24x1TB 価格
MD3200i RAID12x3TB24x1TB 価格
MD3260 RAID/DDP 60x4TB 価格
⇒ 研究室のストレージ構築法
⇒ インテルコンパイラ価格表

HPC-ProServer DPeM915

4-socket 12-core Opteron (Magny-Cours) を搭載するサーバブレード
高密度実装と高信頼性を両立できるブレード型のHPCクラスタ
サーバブレードのサイズはフルハイト、ブレード筺体に8台内蔵可能
各ブレードは48基のCPUコアを搭載でき480GFLOPSの理論性能を達成
ブレード筐体全体では384基のコアを搭載でき3.8TFLOPSの理論性能を達成
32個のDIMMスロットを搭載でき最大512GBのメモリを搭載が可能
4チャンネルのメモリポートにより42GB/s/CPUのメモリ帯域を実現
2.5インチHDDを最大2台搭載でき1.2TBのディスク容量を実現
Dual Port QDR InfiniBandを搭載でき高速な並列通信を実現
Dual Port 10GbEを搭載でき高速なファイル転送が可能
InfiniBand S/W、10GbE S/W、KVM S/Wなども内蔵可能
3年間の翌営業日オンサイト保守と部品保障を提供
3年間の技術支援を実施

製品特長 | 技術情報 | 構成例 | サポート | 価格 | 仕様 | カタログ

HPC-ProServer DPeM915
4-socket Opteron Blade Server

DPeM915 4-socket 12-core Opteron Blade Server
48コアを搭載し480GFLOPSを実現する
Many-Core ブレードサーバ

 「HPC-ProServer DPeM915 Blade Server」 (以下、DPeM915) は、4個の12-core Opteron (Magny-Cours) プロセッサを搭載し、1台のブレードサーバで48コアを実現する "コア数追求型" の計算機です。DPeM915の性能面の特徴は次のようなものです。

・ 48コアのメモリ共有型計算機
・ 480GFLOPS 最大理論演算性能
・ 48平行処理、48並列処理、それらの混在処理
・ 高速なノード内通信
・ 大容量メモリの搭載
・ 価格性能比は競合プロセッサの 62% を達成
・ 電力性能比は競合プロセッサの 78% を達成
・ ブレード構造により高密度実装を実現

 このページではこれらのことについてHPC計算機を利用する立場から紹介します。

プログラム開発が容易なノード内並列計算の大規模化が可能

 DPeM915は48コアを共有メモリ上で利用できる計算機です。さらに並列計算を高速なシステム内通信によって効率良く処理できる計算機です。

 現在利用されている並列処理の方法は次の6種類です。そのうちの5種類がシステム内の通信を用いています。このシステム内通信を利用した並列処理はプログラム開発が容易なため広く利用されます。DPeM915は48コアを搭載することで高い並列度の処理を実現出来る計算機です。

6種類の並列化 各並列化が対応する
3階層の並列処理
各並列化の特性
コア内の
並列処理
階層
ノード内の 並列処理
階層
ノード間の
並列処理
階層
並列化
効率
並列
性能
開発
難易度
コンパイラによる
命令レベルの並列化
× ×
数値演算ライブラリによる
並列化
×
コンパイラの自動並列化機能による
マルチスレッドを利用した並列化
× ×
OpenMPディレクティブを挿入した
コンパイラの自動並列化機能による
マルチスレッドを利用した並列化
× ×
MPIによる並列化
ノード内通信
× ×
MPIによる並列化
ノード間通信 (ネットワーク)
×

3種類の計算機のノード内並列処理効率をLinpack HPLで確認

 次の表はLinpack HPLベンチマークテストによって3種類の代表的な計算機の並列性能処理能力を評価したものです。具体的には、OpteronではOpenMPIによる並列処理と平行処理を実施し、Xeon系の計算機ではOpenMPの計算も行っています。

 結果を概観すると、Xeon系の計算機は総合的に高い処理効率を示していることがわかります。これに対してOpteron機は、単体コアの処理効率がXeonに比べて約10%ほど落ちますが、それをオフセットして評価すると、あとの傾向はXeonと遜色のないことがわかります。

 この点を受け入れるなら、Opteronはコストパフォーマンスが高い優れた計算機として評価できることがわかります。4ソケット機としてのコストパフォーマンスの高さは特筆ものです。

 並列/平行処理でのOpteronの長所は平行処理でのスループットの高さです。48ジョブを同時実行させた場合の効率が83%に達しています。先ほど指摘したコアの処理効率の低さの10%を差し引くと、その劣化の同意は7%に過ぎないことがわかります。

4-socket 12-core Opteron (45nm, Magny-Cours)   N値 1node 2node 4node
4CPU 8CPU 16CPU
1core 2core 4core 6core 8core 12core 48core 96core 192core
10
05
28
ProServer DPeR815
12-core Opteron 6174 2.2GHz 12MB
HT3、(45nm, Magny-Cours)
DDR3-1333MHz 256GB (8GB x32)
1-node 4-socket、4CPU、48core
gcc-4.1.2、ACML4.4.0
OpenMPI
(効率)
15000 7.6
(86%)
               
30000 7.7
(88%)
      58.4
(83%)
  301.4
(71%)
   
OpenMPI
の平行
処理
(効率)
15000             7.3
1x48job
(計350)
(83%)
   
23000             7.4
1x48job
(計355)
(84%)
   
30000             14.3
2x24job
(計344)
(81%)
   
            28.4
4x12job
(計340)
(81%)
   
            42.3
6x8job
(計338)
(80%)
   
            55.1
8x6job
(計330)
(78%)
   
            82.8
12x4job
(計331)
(78%)
   
            158.9
24x2job
(計318)
(75%)
   
(ideal) - 8.8 17.6 35.2 52.8 70.4 105.6 422.4    
4-socket 8-core XeonMP (45nm, Nehalem-EX)     1node 2node 4node 8node
4CPU 8CPU 16CPU 32CPU
1core 2core 4core 8core 16core 32core 64core 128core 256core
10
06
18
ProServer DPeR910 4CPU 32core (HT off)
X7560 8-core XeonMP 2.27GHz、Nehalem-EX
QPI 6.4GT/s (Turbo 2.66GHz)
DDR3-1333MHz 256GB
Intel Compiler 11.1、MKL 10.2
IntelMPI 1.4.1、HPL 2.0、CentOS5.5
OpenMP
(効率)
15000                  
30000 9.3
(102%)
  35.1
97(%)
69.9
(96%)
127.4
(80%)
148.0
(51%)
     
OpenMPI
(効率)
30000     35.8
(99%)
65.1
(90%)
133.9
(84%)
233.1
(80%)
     
(ideal) - 9.08 18.2 36.3 72.6 159.8 290.6      
2-socket 6-core Xeon (32nm, Westmere)     1node 2node 4node 8node 16node
2CPU 4CPU 8CPU 16CPU 32CPU
1core 2core 4core 8core 12core 24core 48core 96core 192core
11
06
27
ProServer DPeT710 2CPU 12core (HT off)
X5690 6-core Xeon 3.46GHz 12MB、Westmere
QPI 6.4GT/s Intel 5520 Chipset
DDR3-1333MHz 48GB
Intel Compiler 12.0.4.191、MKL 10.3-4
IntelMPI 4.0.2.003、OpenMPI 1.4.3
CentOS 5.5 (Final) HPL 2.0
SSE
OpenMP
(効率)
30000 13.1
(95%)
25.4
(92%)
49.6
90(%)
96.6
(88%)
135.7
(82%)
       
SSE
OpenMPI
(効率)
13.1
(95%)
25.7
(93%)
50.3
(91%)
96.6
(88%)
134.3
(81%)
       
SSE
IntelMPI
(効率)
13.1
(95%)
26.0
(9%4)
50.9
(92%)
99.7
(90%)
142.0
86%)
       
SSE
理論
性能
- 13.8 27.6 55.2 110.4 165.6        

最大512GBのメモリ容量

 DPeM915のメモリスロットの数はシステム全体で36スロットあり、8GBのメモリモジュールを利用すると256GBのメモリ空間を実現でき、16GBのメモリモジュールを利用すると512GBのメモリ空間を実現できます。大規模計算に必要なメモリ空間を確保できます。

16-chanelのメモリ接続で170GB/sのメモリ帯域を実現

 DPeM915は各プロセッサが4チャンネルのメモリポートを備えDDR3 1333規格のメモリを使用すると42GB/sのメモリ帯域を実現でき、4ソケットシステム全体では170GB/sのメモリ帯域を実現できます。このメモリ性能によってメモリ性能律速型アプリケーションの高速処理が可能になります。

ブレード化することで高密度実装

 ブレードシステムはその内部に、計算サーバ以外の多くの補助機器類を搭載できます。搭載できる機器類は、InfiniBandスイッチ、イーサネットスイッチ、KVMスイッチ、共用電源、共用ファン、多数の接続ケーブルなどです。これらを僅か10Uスペースに搭載できるので省スペースです。

 例えば4ソケットサーバでクラスタを構築すると、8台構成でも20Uのスペースが必要になります。これをブレード化すると僅か10Uのスペースで済みます。2倍の実装密度を実現できます。

ブレード化することで低消費電力

 ブレードシステムはブレード筺体にスイッチ類、電源部、冷却ファンなどを集約させているためエネルギーロスを減らすことができ省エネです。

全ケーブル類をプリント基板上に実装することで信頼性と保守性を向上

 ブレードシステムは内部のケーブル類を全てプリント基板上に実装しています。すなわち2本のネットワークケーブル、InfiniBandケーブル、KVMケーブル、電源ケーブル、補助機器類のケーブルなどがあり、8ノードシステムで約50本、16ノードシステムでは100本近いケーブルが必要です。

 プリント基板を用いるとこれらケーブル類全てを40cm四方のプリント基板に実装でき、ケーブル配線が不必要になります。そのため信頼性と保守性を両立できます。

基幹業務に対応できる品質を備えている

 ブレードサーバは基幹業務に対応できる品質を備えています。すなわち故障が少なく、主要部分が冗長化され、部品交換もツールレス化されているので交換も簡単です。しかもホットスワップに対応しているので万一の障害でも無停止で部品交換ができます。

 ブレードサーバはシステム全体を監視する機能を備えているので、障害が検出されると通知機能によってすぐにサポート依頼をすることができ迅速な復旧が可能になります。

 このように基幹業務用に設計されたブレードサーバをHPCサーバとして利用することで、通常のサーバによるクラスタよりも一段上の信頼性と保守性の高さを実現できます。

ジョブスケジューラを搭載、カスタム設定を実施

  48個ものコアを搭載しているとジョブスケジューラの搭載が必須になります。弊社はお客様と相談の上で適切なジョブキューをベテランの技術チームが作成します。

 システムの導入時にはジョブ投入の方法などを実演しながら説明します。少し使ってもらいながら細かな調整にも対応します。

 ジョブスケジューラを適切に設定することで、利用効率が向上し省エネにも貢献します。設定を工夫することで省エネモードの運用も可能です。電力消費がピークになる午後に投入ジョブ数を減らし夕方から増やすような設定も可能です。

コストパフォーマンスが高い

 ブレードサーバは一般のサーバよりも高価な印象があります。しかしDPeM915ブレードサーバは一般のサーバと同程度の価格です。下の表は両者を比較したものです。

 同じ4ソケットOpteronのDPeM915ブレードサーバとR815 2Uサーバを比較すると、CPU性能単価はブレードが4810円サーバが4808円と両者は同水準です。メモリ性能単価 もブレードが13582円サーバが12416円とこれも両者は同水準です。

 さらにXeonを搭載したサーバとOpteronを搭載したブレードを比較すると、これはOpteroを搭載したサーバの方が何割も安価です。

 このようにブレードサーバは "基幹業務に対応できる品質" を備えているにもかかわらず、通常のサーバと同水準か、それよりも安価なのです。

 高機能かつ、高性能なブレードサーバこそが、スペースの乏しい研究室のHPCサーバにはお勧めです。ブレードの弱点は音の問題だけです。

システム CPU クロック速度
(GHz)
コア総数
(個)
理論性能
(GFLOPS)
CPU性能単価
(円/GFLOPS)
メモリ容量
(GB)
メモリ性能
(GB/s)
メモリ性能単価
(円/GB/s)
Blade Server
4-socket
DPeM915-
6180Q128GR4
(8-node)
Opteron
6180SE
2.5 48 480 4,810 128 170 13,582
Blade Server
4-socket
DPeM915-
6172Q128GR4
(8-node)
Opteron
6180SE
2.1 48 480 5,083 128 170 12,051
2U Server
4-socket
DPeR815-
6176Q128GR4
Opteron
6170
2.3 48 442 4,808 128 170 12,416
Blade Server
2-socket
DPeM600-
X5690D48GLR8
Xeon
X5680
3.46 12 166 7,688 48 64 19,942
1U Server
2-socket
DPeR610-
X5690D48GLR8
Xeon
X5680
3.46 12 166 7,309 48 64 18,966
4U Server
4-socket
DPeR910-
E7-X4850Q64GR4
Xeon
E7-4850
2.00 40 320 8,515 128 170 16,028

 

目的に適したプロセッサの選択方法

 ブレードシステムを設計する場合、プロセッサの選択は大きな課題です。DPeM915ではMagny-Cours Opteron 6100シリーズのプロセッサの中から、お客様の目的に適したものを選択できます。

 この幅広い選択肢の中からどのプロセッサが適しているのかを判断するためには基本的なベンチマークテスト結果の利用が不可欠です。

 そこでSPECfpで公開されているベンチマーク結果を引用して、アプリケーション別に、クロック速度や搭載コア数の違いによってシステムのスループットがどのように変化するのかを一瞬で把握できるきるグラフを作成しました。その中からお客様のアプリケーションに近いグラフを選んでいただき、システム設計の判断材料にされることを提案します。

SPECfpで公開されているベンチマーク結果を引用した
アプリケーション別性能を比較したグラフ

 グラフで基準としている計算機は、DPeM915 Magny-Cours 4-socket 8-core Opteron 6134 2.3GHz 32-core機です。この計算機のスループトを100%として他の計算機がどれ程性能向上したのかを示しています。またグラフを判りやすくするため次の補助線を追記しています。

・ 赤太線はCPUの理論性
・ 青太線はメモリの理論性能
・ 緑太線は128GBメモリ搭載モデルの価格上昇率

 赤細線は「CPU性能律速型アプリケーション」に属するものを示しています。このタイプのアプリケーションは搭載コア数が多くクロック速度が高い「4-socket 12-core Opteron 6180SE 2.5GHz 48-core」が最もコストパフォーマンスに優れていることがわかります。

 青細線は「メモリ性能律速型アプリケーション」に属するものを示しています。このタイプのアプリケーションはコア数の多さが大切ですが、クロック速度は大切ではありません。「4-socket 12-core Opteron 6174 2.2GHz 48-core」が最もコストパフォーマンスに優れていることがわかります。

 

節電ソリューション

 計算機システムには節電が求められています。そこで可能な限り運用に支障の少ない節電方法を提案します。提案している方法には長短所があります。お客様の運用方針に最適な方法をお選びください。

○ プロセッサのクロック速度を低下させて節電を実施

 最近のマイクロプロセッサはプロセッサのクロック速度をシステム側からも変更できます。プロセッサの動作クロックを低下させると処理性能が低下すると同時に、消費電力も低下します。この機能を節電に応用します。

 計算機に搭載しているシステム管理ツールを利用すると、ネットワーク経由でシステムの消費電力の上限の閾値を設定できます。もし、システムの消費電力が設定した閾値を超えると、プロセッサのクロック速度が自動的に下げられ消費電力が削減されます。

 今は午後の消費電力の削減が求められています。そこで昼になったら消費電力の閾値を下げ、電力需要のピークの時間帯に節電を行い、電力需要のピークの時間帯を越えると、再び通常運転に戻します。

 この方法の長所は節電をハードウェアの階層で行うため、運用のポリシーを変更しないで節電できることです。長時間ジョブが動作していても、ジョブを停止させることなく節電が実施できます。HPC計算機の運用には適した方法です。

 短所は完全にシャットダウンしないため、完全にシャットダウンするよりも、システムの基本的な消費電力分を削減できないことです。

○ ジョブスケジューラによってクラスタの消費電力を15%節電

 次の方法はジョブスケジューラのキューの構成を工夫して決められた時間帯にシステムを節電モードで運用することです。比較的短い時間 (4〜8時間) で完了するジョブが多い場合に適した方法です。次にジョブスケジューラの設定方法を記載します。

 例えば次のような運用によって15%の節電が可能

・ 半数のサーバを4時間のショートキュー専用のノードに設定
・ 午前8時にショートキューの新規ジョブ受け付けを停止
・ 正午までショートキューのジョブが全て終了
・ 正午にショートキュー専用のノードをシャットダウン
・ 夕方8時にショートキュー専用のノードをリブートしジョブ投入開始

 この設定例はキューの種類を工夫することで、全てのジョブを通常終了させています。そのためシステムの一部分を完全に停止させることができ効率の良い節電ができます。

 この方法の問題的は、短い時間で終わるジョブの終了時間が予めわかっていないとならないことです。

○ 古い計算機を新しい計算機に入れ替えることで処理効率を改善

 計算機は世代交代するたびに、消費電力はそのままにして演算性能が高くなっています。そこで、古い電力性能比が悪い計算機を、新しい電力性能比が高い計算機にリプレースし、消費電力の削減とスループットの維持が可能です。

 また、最新鋭の機種を導入するため、節電という消極的な側面だけでなく、計算規模の拡大や高速化などにも対応できます。