HPC-ProServer DPeM610X
Xeon 5600番台プロセッサを2個搭載できるサーバブレード
ブレード筐体に8台搭載でき8node、16CPU、96coreを実現
PCIe2.0 x16スロットを2基搭載し高い転送性能を実現
NVIDIA (R) Tesla (TM) GPGPUカードをメーカー工場オプション設定
12個のDIMMスロットを持ち192GBのメモリ空間を実現
1333MHzのDIMMモジュールにより32GB/sのメモリ帯域を実現
約3割の省電力を実現する動作電圧1.3Vの低消費電力メモリを採用
2.5インチHDDを最大2台搭載でき1.2TBのディスク容量を実現
Dual-Port 10GbE NICに対応、
DDR/QDR ConnectX InfiniBandに対応
3年間の当日4時間オンサイト保守と技術支援を実施
高密度実装が特徴のブレードサーバに
高密度実装を加速するGPGPUを搭載し
4TFLOPS/10Uを実現するGPGPU-BladeSystem
"HPC-ProServerDPeM610X with Tesla GPGPU"
ブレードサーバの特徴は、一台の10Uサイズの筺体に、複数のサーバや補助機器類、大容量の冗長化電源、強力ファンなどを一括して搭載していることです。さらに通信ケーブルや電源ケーブルなどもプリント基板に集約しています。ブレードサーバはシステム設計の工夫によって高い実装密度を実現できるシステムです。
GPGPUはブレードサーバとは異なるアプローチで高い実装密度を実現しています。GPGPUは数百個の演算器を半導体に集積し、500GFLOPを超える倍精度浮動小数点演算性能を小さなPCI Expressカード上で達成しています。GPGPUは半導体設計の工夫によって高い実装密度を実現した部品です。
しかしGPGPUには大きな問題があります。それはGPGPUを動作させるためには別にホスト計算機を用意しなければならないことです。このホスト計算機がスペースを取るためシステムの高密度を下げるという問題を誘発します。
この実装上の課題を解決するため様々な実装上の工夫が考案されています。しかしそれらの工夫は長所と短所があり、高い実装密度と高い信頼性を両立できる決定的なソリューションはまだ見出されていないようです。
高い実装密度と高い信頼性を両立するという課題を根本的に解決するため白羽の矢が立てられた製品がブレードサーバです。究極の高密度実装システムを実現するブレードサーバと、究極の高密度実装HPC部品を実現するGPGPUを組み合わせ、互いの長所を活かすことで、最高の高密度実装HPCクラスタを実現しようとする発想です。
しかしブレードサーバにGPGPUカードを搭載するためには、ブレードサーバ側の課題をひとつ解決しなければなりません。ブレードサーバはメザニンカードと呼ばれる特殊な小型のPCI Expressカードを利用します。ところがGPGPUは標準的なPCI Expressフルレングスカードです。そのためブレードにGPGPUカードを搭載できません。ブレードサーバにGPGPUを搭載するためには標準的なPCI Expressカードに対応したブレードサーバを開発する必要があります。
この要望を受けて開発された製品が「HPC-ProServerDPeM610X」 (以下DPeM610X) です。この製品は写真のように、従来のハーフサイズ・ブレードの下にフルレングスのPCI Expressカードを2枚搭載できるスペースを設け、さらにGPGPUが必要とする十分な容量の電源を給電できる専用のコネクタを搭載しています。DPeM610Xの登場によって、ブレードサーバとGPGPUの長所を活かしたGPGPUクラスタを構築できるようになりました。
DPeM610Xを用いると、10Uサイズのブレード筺体に、8台のDPeM610Xと8基のGPGPUを内蔵でき、さらに必要に応じて10GbEスイッチやInfiniBandなども内蔵できます。また192GBのメモリや2TBのローカルディスクを追加することもできます。今考えられる最もスマートなGPGPUシステムを実現できます。
ブレードサーバの問題点は少しコストが高い点です。ブレードサーバはホスト機に1台のGPGPUしか搭載できません。そのため少しコストが増加するのです。コストダウンを考えてホスト機に2台のGPGPUを搭載する場合はラックサーバかワークステーションを用いる必要があります。しかしホスト機に2台のGPGPUを搭載するとPCI Expressのボトルネック帯域幅の減少、実装密度の低下、信頼性の低下、保守性の低下などデメリットも増加します。
業務で使用する場合は、長時間にわたる安定動作が必要です。HPC ProServerDPe MD160Xは少し高価になりますが、このような要求に応えることができる優れた製品です。業務用に使用するGPGPUクラスタを求められる場合は多少のコストアップになりますが最も優れた「HPC-ProServerDPeM610X」の採用を強くお勧めします。

現在主流のGPGPUはTesla M2050です。このGPGPUはフルレングス/フルハイトのスロットを2基占有し、225W以上の電源を必要とします。
HPC-ProServerDPeM610XはGPGPUに対応するため、フルレングス/フルハイトのPCI Express Gen2.0 x16スロットを2基搭載しています。また電源についても、写真のような補助電源コネクタを持ち、250Wのシングルスロットカードなら2枚、300Wのデュアルスロットカードなら1枚に対応できます。この仕様ならTesla M2050にも余裕で対応できます。
HPC-ProServerDPeM610Xの大きな長所は、標準搭載するGPGPU Tesla M2050を工場の純正オプションに設定していることです。この純正オプション化によってGPGPUとブレードサーバの動作テストを工場内で行うことができ、システム全体の信頼性を大幅に向上させることができます。
他の多くのGPGPUシステムは、ホスト計算機とGPGPUカードを別々のベンダーから導入し、システム構築の段階で接続しています。そのため各部品間の相性問題が表面化する時期はシステムの運用が始まってからになる可能性があり、快適な運用の障害となる場合があります。
また各ベンダーのサポート体制が異なることが多く、的確な修理対応が困難な場合もあります。さらに部品の相性問題では責任の所在を明らかにすることは困難です。そのため多くのユーザは自衛的に予備部品をストックされることになります。
これに対してDPeM610Xは、GPGPUを搭載したシステムをメーカーの工場で製造します。そのため次のようなメリットが得られます。
・ 大量生産メーカーであるため徹底した部品管理が可能
・ 工場出荷時に十分な検証が可能
・ 不具合があれば迅速に部品メーカーに通知され改善が速やかに反映される
・ システム全体がメーカー保証の範囲となる
・ 障害の切り分けから修理サポートまでが一元的に行われる
この品質の高さに加えてさらに、万一障害が発生すると、弊社が修理作業全体を統括し、症状の診断、修理部品の発送、交換作業員の手配、システム復旧までの全てを監督し、迅速かつ確実にシステムを復旧させます。

HPC-ProServerDPeM610XはGPGPUカードの他に、2枚のPCIeメザニンカードを搭載するスロットがあります。このスロットにDual-Port 10GbEカードやQDR InfiniBandカードを搭載できます。ブレードサーバを用いても高速な通信処理ができます。
10GbEを利用すると画像処理などのデータ処理で求められる大量のファイルを高速に取り扱うことができます。
InfiniBandを利用すると、複数のGPGPUを用いたネットワーク並列計算機の高速化が可能になります。
HPC-ProServerDPeM610XはXeon 5600番台のプロセッサーを2基搭載できます。ここではGPGPUサーバに最適なプロセッサの選択を考えます。
一般的なHPC計算機はクロック速度の速いプロセッサが望まれます。しかしGPGPU計算機では重い処理はGPGPUが受け持ち、ホスト側のプロセッサは補助的な処理が中心になります。そのためクロック速度は重要ではありません。
GPGPU用のホスト機ではプロセッサ数とコア数の多さが重要です。プロセッサが増えると数に比例して外部通信の帯域幅が増えるためI/Oボトルネックが減少します。
システムが通信処理する時には沢山の処理がバックグラウンドで発生します。コア数が多いとこれらの処理を平行して処理することができるのでシステムの処理効率が向上し、計算速度の高速化に効果があります。
クロック速度の低いプロセッサは価格が安いため、プロセッサの数を増やしてもシステムの価格が跳ね上がることはありません。GPGPUなどのホスト機として利用する場合はクロック速度の低いプロセッサを2個搭載することをお勧めします。

GPGPUは高いピーク性能を持っています。しかし、そのピーク性能に適合するアプリケーションは限られています。さらに、GPGPUに適合したアプリケーションであっても、計算のサイズや方法の違いによってGPGPUのピーク性能を発揮させられない場合もあります。
GPGPUとアプリケーションの適合については、早い時期にシステムのプロトタイプを構築し、動作状況を細かく把握しておかれることをお勧めします。
もしGPGPUに適した計算と、汎用プロセッサに適した計算の2種類が存在するなら、GPGPU計算機にはGPGPUに適した計算を集中的に投入し、適さない計算は汎用プロセッサに投入するような仕組みが必要です。
弊社のGPGPUクラスタは高機能なジョブスケジューラを搭載しています。この機能を利用することで、GPGPU計算機と汎用計算機に、それぞれ最適なジョブを自動的に投入することができます。
GPGPU Tesla M2050が搭載しているメモリ容量は3GBしかありません。このメモリに入りきらないデータは他の場所に格納しておかなければなりません。例えば画像処理を行う場合などは大きなメモリ空間が必要です。
HPC-ProServerDPeM610Xは12基のメモリスロットを実装しています。16GBのメモリモジュールを使用すると最大で192GBのメモリ容量まで拡張することができます。
次に参考として各デバイの帯域幅を示しています。GPGPUの高速な処理性能をフルに活用するためにも、システム全体のデータ転送に関するボトルネックを予防できるシステム設計が必要です。
【参考】 各デバイスの帯域幅
Tesla M2050の主メモリの帯域幅 : 144GB/s (理論性能)
ホスト機の主メモリの帯域幅 : 32GB/s (理論性能)
PCIe2.0 x1の帯域幅6 : 8GB/s (理論性能)
10GbE NFSの帯域幅 : 400MB/s (推定実効性能)
GbE NFSの帯域幅 : 50MB/s (推定実効性能)
SAS 10krpm HDDの帯域幅 : 100MB/s (推定実効性能)
SAS 10krpm HDD x2 RAID0の帯域幅 : 200MB/s (推定実効性能)
SSDの帯域幅 : 150MB/s (推定実効性能)
SSD x2 RAID0の帯域幅 : 300MB/s (推定実効性能)
HPC-ProServerDPeM610Xは2基の2.5インチディスクを搭載できます。利用できるディスクの種類は、SAS 2.5インチ15000回転 146GBハードディスク、SAS 2.5インチ10000回転 900GBハードディスク、149GB SSDユニットなどから選択することができます。
大きなサイズのデータ処理をローカルに保持したい場合、高価なメモリを利用せずこれらのディスクを利用することで、コストパフォーマンスを向上させることができます。
ランダムアクセスが常に発生する場合はSSDを選択することをお勧めします。アプリケーションの種類によっては大きな効果が得られる可能性が考えられます。
GPGPU Tesla M2050は大きな電力を必要とします。HPC-ProServerDPeM610Xは2700Wの高効率電源を最大6基搭載することができ、N+1の冗長化構成を選択できます。
この電源によってシステム全体での消費電力の低減、電源容量の確保、電源関連障害の低減が可能になり、運用の安定化を図れます。

HPC-ProServerDPeM610Xは発熱量の大きなデバイスを大量に搭載しています。これらを強力に冷やすためには優れた冷却機構を備えています。
ブレード筺体は9基の高性能ファンを搭載しています。これらは冗長化構成となり、ホットスワップにも対応しています。そのため万一の障害でもシステムを停止させることなくファンを交換することができ無停止運用を実現します。
複数のブレードサーバをラックに搭載したブレードクラスタでは、ラック全体の発熱も大きなものになります。するとラックの背面側に大きな熱だまりが生じてしまい。それが再びサーバに吸い込まれることで部分的な高温化現象を起こすことがあります。
ブレードサーバが搭載しているファンは強い噴流を発生させるため、この熱だまりの熱を遠くに拡散させることができます。そのためシステム全体が均等に冷やされ発熱による部分的な不具合が発生し難くなります。

HPCクラスタには多くの配線が必要です。基本のGbEケーブル、電源ケーブル、KVMケーブルはもとより、10GbEケーブル、InfiniBandケーブルなどが張り巡らされます。1Uサーバを用いたラックの背面でもケーブルで埋め尽くされるような状態ですから、その実装密度をさらに高くしたブレードサーバは大変な状態にになります。
ラックの背面を埋め尽くしたケーブルの束は空気の流れを遮り、ラックの内部に熱気がこもる原因になります。もちろん保守性も低下します。
ブレードサーバはラックを埋め尽くすケーブルの問題をスマートに解決しています。ブレード筺体の真中には写真のようなミドルプレーンと呼ばれるプリント基板が搭載されています。ブレードシステムは全ての通信や電源の供給をプリント基板を介して行っています。
そのため従来のラックサーバで問題となっていたケーブル類は必要ありません。ブレードサーバはプリント基板を採用することで配線の簡素化、信頼性の向上、保守性の向上を一挙に実現しています。
冷却についても前の項目で説明したように強力なファンを搭載することで十分な流量を確保しています。
配線が簡素化されたブレードサーバを組み合わせた大規模ブレードシステムについても配線の簡素化は受け継がれています。例えば4台のブレードを搭載したラックの背面は、通常の1Uサーバを搭載したラックの背面とは比べ物にならないほどスッキリしています。
省エネを推進するため空調の温度を高く設定することが求められている現在、ラック全体の冷気の流量を増やす事は非常に重要です。ブレードサーバを利用するとこの課題を簡単に達成することができます。

クラスタ計算機はシステム全体が一体となって機能しているため、部分的な障害であっても全体に影響します。そのため障害は迅速かつ的確に解消する必要があります。
最近のシステムは各デバイスが高い耐障害性を備えているため、単純なエラーが発生しても自動的に修復されることが多く、ユーザが異常に気付くことは稀です。
しかし、単純なエラーの頻発は大きな障害の前兆である場合があります。そのため小さな障害の監視を怠るわけにはゆきません。
総合管理ツールはシステムを全体を常に監視しています。もしどこかで異常が発生するとその記録を収集し蓄積します。またCPUやメモリ、ハードディスク、電源装置、ファン、拡張カードなどの稼働状況や温度についても詳細にモニターしています。
監視ツールはこれらのログ情報の分析を行っています。もし一定の頻度で異常を示すログが記録されたり、閾値を超える状況が発生すると、警報やメールでシステム管理者に異常を通知します。
総合管理ツールによってシステムの状態が常にモニタされ、予防的な障害の警告が発せられることでシステムの安定稼働が保たれます。さらに障害の修理に際しては障害箇所の特定が容易になるため迅速な修理が可能になります。
ブレードサーバはこのような総合管理ツールを搭載しておりシステムの安定稼働を支えています。
複数のGPGPUやプロセッサを搭載した複雑なシステムは高度なシステム管理が求められます。すなわち計算機管理、ジョブ管理、ソフトウェア管理、開発環境管理、ユーザ情報管理、ストレージ管理など多岐にわたります。実際のシステムでこれらを運用管理する装置がマスターサーバです。
弊社のHPCクラスタは、例えスタンドアロンのシステムであっても、多くのHPCクラスタ構築で培った技術を駆使した高機能で使い易いマスターサーバを搭載しています。またマスターサーバには継続的な技術サポートが必要です。弊社のクラスタシステムには標準で3年間の技術サポートも付いています。
複合的なシステムでは、個々のモジュールは安定して動いても、全体では予想外の不具合を起こす場合があります。現在のシステムではこの「組み合わせ問題」の防止が大きな課題です。
この問題を解決するためには、システムの開発段階から、全ての部品を組み合わせた状態でテストを行い、部品レベルでの高品質化が欠かせません。
弊社が採用しているサーバは「スケーラブル・エンタープライズ」という開発思想に基づいて開発された製品です。この考え方は、信頼性の高い基本部品を組み合わせるて大規模なシステムを実現しようということです。そのためには信頼性の高い基本部品の開発と生産が必須です。
優れた基本部品を生産するためには開発段階から各部品を実際に組み合わせた状態でテストし、システムレベルで不具合を洗い出し徹底的に改良する必要があります。
この考え方によって開発されたサーバはどのように組み合わせても互いのマッチングが取れているため安定した動作が期待できます。さらにこの考えでは新旧モデルのマッチングも考慮されているため、将来のシステム拡張や修理でもマッチングがとれた製品や部品が提供され安定した運用が可能です。
システムには標準で3年間の翌営業日オンサイト保守サービスと、弊社の技術スタッフによる3年間の技術支援、障害対応が付帯しています。このニ重のサポート体制によってシステム管理者が不在のサイトであってもGPGPUクラスタの自動運転が可能です。
弊社が構築するシステムは「シングルベンダー製品によるシステム構築」を基本とし、なおかつ「スケーラブル・エンタープライズ」というコンセプトに沿って開発された製品を採用しています。
「シングルベンダー製品によるシステム構築」は責任の所在が一社に限定されますから問題の切り分けが不要です。さらに根本的に障害を解決できるのなら思い切った広範囲の部品交換も可能です。
弊社が行うシステムインテグレーションについてもOSやソフトウェアライブラリ、開発環境、アプリケーション、ネットワーク環境などのシステム環境全般について履歴管理を行い、修理サポート時にも既存環境とマッチした適切なシステム復旧を行います。